# pdfocr

**Repository Path**: becklove/pdfocr

## Basic Information

- **Project Name**: pdfocr
- **Description**: 基于pdf ocr高精度识别的一款桌面软件
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2025-04-24
- **Last Updated**: 2025-07-22

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# PDF OCR 识别工具

一个功能强大的PDF OCR识别工具，支持多种OCR引擎和丰富的主题定制。

## 主要功能

### 1. OCR识别
- 支持本地Tesseract OCR和百度在线OCR
- 可配置OCR参数（语言、DPI、对比度等）
- 支持批量处理多个PDF文件
- 自动保存识别结果

### 2. 主题定制
- 提供多种预设主题：
  - 浅色（默认）
  - 深色
  - 蓝色
  - 绿色
  - 紫色
- 实时预览主题效果
- 主题设置自动保存

### 3. 文件管理
- 历史记录管理
- 最近文件列表
- 支持拖放操作
- 批量处理功能

### 4. 文本处理
- 文本校对功能
- 查找和替换
- 支持多种导出格式：
  - TXT文本
  - Word文档
  - PDF文件

### 5. 系统集成
- 系统托盘支持
- 自动更新检查
- 多语言支持

## 安装要求

### 系统要求
- Windows 10或更高版本
- Python 3.8或更高版本

### 依赖项
```bash
pip install -r requirements.txt
```

### 必要组件
- Tesseract-OCR
- Poppler

## 使用方法

1. 启动程序
   ```bash
   python main.py
   ```

2. 选择PDF文件
   - 点击"选择PDF文件"按钮
   - 或直接将PDF文件拖入窗口

3. 配置OCR参数
   - 点击"OCR配置"按钮
   - 设置语言、DPI等参数

4. 开始识别
   - 点击"开始"按钮
   - 等待识别完成

5. 导出结果
   - 点击"导出"按钮
   - 选择导出格式和保存位置

## 主题设置

1. 点击"主题设置"按钮
2. 在主题对话框中选择喜欢的主题
3. 点击"确定"应用主题

## 快捷键

- `Ctrl+O`: 打开PDF文件
- `Ctrl+S`: 保存结果
- `Ctrl+C`: 复制文本
- `Ctrl+F`: 查找文本
- `Ctrl+H`: 替换文本
- `F1`: 显示帮助

## 常见问题

1. 无法识别中文？
   - 确保已安装中文语言包
   - 在OCR配置中选择中文语言

2. 识别速度慢？
   - 降低DPI设置
   - 关闭不必要的预处理选项

3. 内存占用高？
   - 减少同时处理的文件数量
   - 关闭自动保存功能

## 贡献指南

欢迎提交Issue和Pull Request来帮助改进这个项目。

## 许可证

本项目采用MIT许可证。详见LICENSE文件。