# Spark-Kafka-Ecommerce-Analysis **Repository Path**: wngbsean/spark-kafka-ecommerce-analysis ## Basic Information - **Project Name**: Spark-Kafka-Ecommerce-Analysis - **Description**: 基于Spark+Kafka的电商实时数据分析与用户行为预测系统 通过传输购物日志到 Kafka进行实时处理,使用 Flask-SocketIO 推送实时数据并使用 Hightlight.js 可视化展示结果。对原始文本数据集进行预处理,并将其导入 Hive 和 MySQL 中,使用 Echarts 进行可视化分析。最后,采用机器学习算法实现用户复购行为的预测功能。 - **Primary Language**: Python - **License**: AFL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2025-05-13 - **Last Updated**: 2025-10-17 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Spark-Kafka-Ecommerce-Analysis #### 介绍 基于Spark+Kafka的电商实时数据分析与用户行为预测系统 通过传输购物日志到 Kafka进行实时处理,使用 Flask-SocketIO 推送实时数据并使用 Hightlight.js 可视化展示结果。对原始文本数据集进行预处理,并将其导入 Hive 和 MySQL 中,使用 Echarts 进行可视化分析。最后,采用机器学习算法实现用户复购行为的预测功能。 # 基于Spark+Kafka的电商实时分析与用户行为预测系统 ## 📌 项目概述 本系统实现电商用户行为数据的**实时分析**与**复购行为预测**,核心技术栈包括: - **实时流处理**:Kafka采集数据 + Spark Structured Streaming计算 - **离线分析**:Hive数据仓库 + MySQL存储 - **预测模型**:随机森林/逻辑回归等算法 - **可视化**:Echarts + Flask-SocketIO动态展示 ## 🚀 快速开始 ### 环境要求 - Java 8+ - Hadoop 3.3.6 - Spark 3.4.0 - Kafka 2.8.0 - Python 3.8 (需安装`requirements.txt`依赖) ### 部署步骤 1. **克隆仓库** ```bash git clone https://gitee.com/yourusername/Spark-Kafka-Ecommerce-Analysis.git cd Spark-Kafka-Ecommerce-Analysis #### 软件架构 软件架构说明 ![输入图片说明](image.png) #### 安装教程 所需软件均在software文件下请自行百度安装 #### 使用说明 系统演示 登录阿里云服务器 ![输入图片说明](https://foruda.gitee.com/images/1747119031895182757/a83fb113_8779614.png "屏幕截图") 检查开启的服务 ![输入图片说明](https://foruda.gitee.com/images/1747119135351741806/fefbc4d1_8779614.png "屏幕截图") 查看后台预先开启的python程序(消费者、生产者、及程序总入口) ![输入图片说明](https://foruda.gitee.com/images/1747119250752342689/0d7509eb_8779614.png "屏幕截图") 切换至程序所需要的python环境,到程序所在目录下启动 ![输入图片说明](https://foruda.gitee.com/images/1747119491771761770/64414239_8779614.png "屏幕截图") 由于数据量较大,启动需要一定的时间,0代表男,1代表女,2代表其他 ![输入图片说明](https://foruda.gitee.com/images/1747119629575151317/5030546e_8779614.png "屏幕截图") ![输入图片说明](https://foruda.gitee.com/images/1747119925479847273/b8cdcc51_8779614.png "屏幕截图") 新打开一个窗口运行预测模块 ![输入图片说明](https://foruda.gitee.com/images/1747119852127510707/27248dab_8779614.png "屏幕截图") 离线模块在本地虚拟机中完成 ![输入图片说明](https://foruda.gitee.com/images/1747120043367268376/7d710c8f_8779614.png "屏幕截图") ![输入图片说明](https://foruda.gitee.com/images/1747120080022271903/4c2f6dd5_8779614.png "屏幕截图") ![输入图片说明](https://foruda.gitee.com/images/1747120152003292547/4fa354f2_8779614.png "屏幕截图") 用户复购概率预测(用户id,店铺id,复购概率) 通过特征工程来进行调参,通过准确率来验证所选模型是否合适,进行模型选择 ![输入图片说明](https://foruda.gitee.com/images/1747120267874429236/d98a1948_8779614.png "屏幕截图") #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)