# excel数据收集 **Repository Path**: hnrxsd/excel-data-collection ## Basic Information - **Project Name**: excel数据收集 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-10-17 - **Last Updated**: 2025-10-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 数据采集与整合工具(基于列标) ## 项目概述 本项目是一个基于 PyQt5 和 Pandas 的数据采集与整合工具,主要用于从多个 Excel 文件中提取指定字段的数据,并将其整合到一个目标文件中。工具支持通过列标(如 A、B、C)进行字段匹配,避免因字段名变化导致的问题。 ## 功能说明 1. **文件选择**:支持选择采集文件(Excel)和数据文件夹(包含多个 Excel 文件)。 2. **字段配置**:通过列标配置采集字段、被采集文件及其字段。 3. **一键导入**:自动导入数据文件夹中的所有 Excel 文件配置。 4. **数据处理**:后台线程处理数据,避免 UI 卡顿。 5. **进度与日志**:实时显示处理进度和日志信息。 ## 安装指南 ### 依赖环境 - Python 3.8+ - 依赖库: ``` et_xmlfile==2.0.0 numpy==1.24.4 openpyxl==3.1.5 pandas==2.0.3 PyQt5==5.15.11 PyQt5-Qt5==5.15.2 PyQt5_sip==12.15.0 python-dateutil==2.9.0.post0 pytz==2025.2 six==1.17.0 ``` ### 安装步骤 1. 克隆项目到本地: ```bash git clone <项目地址> ``` 2. 安装依赖库: ```bash pip install -r requirements.txt ``` 3. 运行程序: ```bash python ui.py ``` ## 使用方法 1. **选择采集文件**:点击“添加采集文件”按钮,选择需要采集数据的 Excel 文件。 2. **选择数据文件夹**:点击“选择文件夹”按钮,选择包含被采集 Excel 文件的文件夹。 3. **配置采集字段**:在表格中配置采集字段(KEY 列标和数据列标)和被采集文件的字段(KEY 列标和数据列标)。 4. **一键导入**:点击“一键导入”按钮,自动导入数据文件夹中的所有 Excel 文件配置。 5. **开始采集**:点击“开始采集”按钮,程序将自动处理数据并保存结果。 ## 项目结构 ``` ├── config.ini # 配置文件(存储上次选择的路径) ├── requirements.txt # 依赖库列表 ├── ui.py # 主界面程序 ├── zcx.py # 数据处理线程 ├── images/ # 示例图片 │ └── 采集配置.jpg # 采集配置示例 └── text/ # 示例数据文件 ├── 收集.xlsx ├── 收集2.xlsx └── 新建文件夹/ ├── 01.xlsx ├── 02.xlsx ├── 03.xlsx └── 04.xlsx ``` ## 注意事项 1. 确保采集文件和被采集文件的列标配置正确。 2. 程序会自动保存处理后的文件,文件名包含时间戳以避免覆盖。 3. 如需取消处理,点击“取消”按钮。 ## 示例截图 ![采集配置示例](images/采集配置.jpg) ## 后续计划 1. 支持更多文件格式(如 CSV)。 2. 增加批量处理功能。 3. 优化界面交互体验。