# Boss直聘爬虫项目3.0 **Repository Path**: anye2021/Boss-python ## Basic Information - **Project Name**: Boss直聘爬虫项目3.0 - **Description**: 使用beautifulsoup解析标签,使用正则表达式分析标签,但也有存在的问题!!! - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 2 - **Created**: 2022-11-14 - **Last Updated**: 2022-11-14 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Boss直聘爬虫项目3.0 (新增爬虫代码) #### 介绍 这是一个互联网就业市场数据分析项目,包括: 数据爬取、数据清洗、数据分析、数据可视化、Springboot+Bootstrap4.0+Mybatis-Plus前后端技术栈 #### 项目发展 * 该项目中含有完整的数据,以及爬虫代码,前后端项目代码。 * 有很多地方可以扩展: * 如数据的爬取可以使用 多进程或机械学习等更为优秀的反爬虫技术栈完成 * 前端页面展示可以添加更多样式、数据的可视化可以按照不同的审美修改 * 后端可以添加更多功能业务,不单单只是数据增加、查询、删除、更新 * 前后端的搭建可以用到很多有用的技术,如数据缓存比较大就可以使用Redis、若要完善整个系统需要添加登录功能,就涉及到安全认证,可以使用Shiro 或者 Spring Security 等技术 #### 使用说明 注意: * 虽然爬取代码中使用了循环语句来控制分页爬取,但是可能是因为网站的爬取机制导致爬取循环失效,**我的解决办法就是将数据一页一页的爬取保存,然后使用merge.py将每一页的数据合并** * 代码的保存格式为**excel**文件,若需要CSV、TSV、SQL的文件就只有靠你们自己了 * 数据的可视化已经嵌入项目的前端页面中了,想修改的建议使用 Anconda的jupyter结合echarts或者pyehart进行创作。 * 项目要用到的环境以及版本须留意,看个人情况升降自己的版本吧