# pdfocr **Repository Path**: becklove/pdfocr ## Basic Information - **Project Name**: pdfocr - **Description**: 基于pdf ocr高精度识别的一款桌面软件 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2025-04-24 - **Last Updated**: 2025-07-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # PDF OCR 识别工具 一个功能强大的PDF OCR识别工具,支持多种OCR引擎和丰富的主题定制。 ## 主要功能 ### 1. OCR识别 - 支持本地Tesseract OCR和百度在线OCR - 可配置OCR参数(语言、DPI、对比度等) - 支持批量处理多个PDF文件 - 自动保存识别结果 ### 2. 主题定制 - 提供多种预设主题: - 浅色(默认) - 深色 - 蓝色 - 绿色 - 紫色 - 实时预览主题效果 - 主题设置自动保存 ### 3. 文件管理 - 历史记录管理 - 最近文件列表 - 支持拖放操作 - 批量处理功能 ### 4. 文本处理 - 文本校对功能 - 查找和替换 - 支持多种导出格式: - TXT文本 - Word文档 - PDF文件 ### 5. 系统集成 - 系统托盘支持 - 自动更新检查 - 多语言支持 ## 安装要求 ### 系统要求 - Windows 10或更高版本 - Python 3.8或更高版本 ### 依赖项 ```bash pip install -r requirements.txt ``` ### 必要组件 - Tesseract-OCR - Poppler ## 使用方法 1. 启动程序 ```bash python main.py ``` 2. 选择PDF文件 - 点击"选择PDF文件"按钮 - 或直接将PDF文件拖入窗口 3. 配置OCR参数 - 点击"OCR配置"按钮 - 设置语言、DPI等参数 4. 开始识别 - 点击"开始"按钮 - 等待识别完成 5. 导出结果 - 点击"导出"按钮 - 选择导出格式和保存位置 ## 主题设置 1. 点击"主题设置"按钮 2. 在主题对话框中选择喜欢的主题 3. 点击"确定"应用主题 ## 快捷键 - `Ctrl+O`: 打开PDF文件 - `Ctrl+S`: 保存结果 - `Ctrl+C`: 复制文本 - `Ctrl+F`: 查找文本 - `Ctrl+H`: 替换文本 - `F1`: 显示帮助 ## 常见问题 1. 无法识别中文? - 确保已安装中文语言包 - 在OCR配置中选择中文语言 2. 识别速度慢? - 降低DPI设置 - 关闭不必要的预处理选项 3. 内存占用高? - 减少同时处理的文件数量 - 关闭自动保存功能 ## 贡献指南 欢迎提交Issue和Pull Request来帮助改进这个项目。 ## 许可证 本项目采用MIT许可证。详见LICENSE文件。