# Boss直聘爬虫项目3.0

**Repository Path**: anye2021/Boss-python

## Basic Information

- **Project Name**: Boss直聘爬虫项目3.0
- **Description**: 使用beautifulsoup解析标签，使用正则表达式分析标签，但也有存在的问题！！！
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 2
- **Created**: 2022-11-14
- **Last Updated**: 2022-11-14

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

#  Boss直聘爬虫项目3.0 （新增爬虫代码）

#### 介绍

 这是一个互联网就业市场数据分析项目，包括： 数据爬取、数据清洗、数据分析、数据可视化、Springboot+Bootstrap4.0+Mybatis-Plus前后端技术栈

 
####  项目发展

* 该项目中含有完整的数据，以及爬虫代码，前后端项目代码。
* 有很多地方可以扩展：
  * 如数据的爬取可以使用 多进程或机械学习等更为优秀的反爬虫技术栈完成
  * 前端页面展示可以添加更多样式、数据的可视化可以按照不同的审美修改 
  * 后端可以添加更多功能业务，不单单只是数据增加、查询、删除、更新
  * 前后端的搭建可以用到很多有用的技术，如数据缓存比较大就可以使用Redis、若要完善整个系统需要添加登录功能，就涉及到安全认证，可以使用Shiro 或者 Spring Security 等技术

####  使用说明

注意： 

* 虽然爬取代码中使用了循环语句来控制分页爬取，但是可能是因为网站的爬取机制导致爬取循环失效，**我的解决办法就是将数据一页一页的爬取保存，然后使用merge.py将每一页的数据合并**
* 代码的保存格式为**excel**文件，若需要CSV、TSV、SQL的文件就只有靠你们自己了
* 数据的可视化已经嵌入项目的前端页面中了，想修改的建议使用 Anconda的jupyter结合echarts或者pyehart进行创作。
* 项目要用到的环境以及版本须留意，看个人情况升降自己的版本吧