# ml-learn **Repository Path**: oneqhw/ml-learn ## Basic Information - **Project Name**: ml-learn - **Description**: 人工智能,机器学习 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-11-09 - **Last Updated**: 2025-11-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 机器学习开发流程 1.获取数据 2.数据处理 3.特征工程 4.算法训练 5.模型评估 ## 算法是核心,数据与计算是基础 ## 常规的库和框架 pytorch,tensorflow ## 机器学习的数据集一般分成两个部分: 训练数据 用于训练数据,构建模型 测试数据 在模型检验时使用,用于评估模型是否有效 划分比例,训练-校验 7-3,8-2,7.5-2.5 ## 字典的特征提取 对于特征当中存在类别信息的我们都处理成one-hot编码,即0,1编码 ## 安装sk-learn pip install -U scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple pip3 install --user numpy scipy matplotlib ipython jupyter pandas sympy nose -i https://pypi.tuna.tsinghua.edu.cn/simple ### 安装numpy python -m pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple ### 安装依赖库 python -m pip install scipy -i https://pypi.tuna.tsinghua.edu.cn/simple 失败 python -m pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple muggle-ocr python -m pip install scipy-1.5.3-cp39-cp39-win_amd64.whl pip install muggle-ocr python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple muggle-ocr python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple PyHamcrest python -m pip install -U numpy -i https://pypi.tuna.tsinghua.edu.cn/simple ### 更新numpy到指定版本 python -m pip install --upgrade numpy==1.16.0 -i https://pypi.tuna.tsinghua.edu.cn/simple python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple muggle-ocr python -m pip install -U --ignore-installed wrapt enum34 simplejson netaddr python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scipy python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple joblib ## 为了方便,以上操作只需要安装anaconda即可 2021.08.22注 ## 2021-05-18 ## 一、scikit-learn常用函数 1)分类 应用:异常检测,图像识别 算法:KNN,SVM(间隔,对偶,核技巧),SMO求解,硬间隔,软间隔 逻辑回归;极大似然估计,梯度下降 决策树:信息熵,信息增益,剪枝,ID3,C4.5,CART不在那么优秀。 KNN,KD-Tree不在那么优秀。 2)聚类 应用:图像分割,群体划分 算法:K-Means,谱聚类 基于密度,基于层次 算法:DBScan 3)回归 应用:价格预测,趋势预测 算法:线性回归,SVR 线性回归方程 f(x)=WX,W,X均为向量 岭回归,Lasso回归不再那么优秀。 4)降纬 应用:可视化 算法:PCA,NMF 5)集成学习 算法:随机森林,梯度提升树 boosting,glbt 6)特征提取 7)协同过滤算法,FM,deepFM等推荐相关的算法 搜索,推荐和广告场景 搜索,需要用到语义分析,nlp,word2vec 从前端系统获取用户的停留时间,pv,点击等信息,进而得到相关的偏好信息,针对偏好进行推荐。 spark或者flink利用数据仓库中的信息,进行计算,将结果存放到kafka或redis中,供推荐和搜索系统使用 sklearn集成了一些常用的机器学习方法,在进行机器学习任务时,并不需要实现算法,只要简单地调用库中模块即可。它是在numpy、scipy和matplotlib基础上开发完成的。 ## 二、数据集总览 1)波士顿房价 调用方法:load_boston() 适用算法:回归 2)鸢尾花 调用方法:load_iris() 适用算法:分类 3)糖尿病 调用方法:load_diabetes() 适用算法:回归 4)手写数字 调用方法:load_digits() 适用算法:分类 5)Olivetti脸部图像 调用方法:fetch_olivetti_faces() 适用算法:降维 6)新闻分类 调用方法:fetch_20newsgroups() 适用算法:分类 7)带标签的人脸 调用方法:fetch_lfw_people() 适用算法:分类;降维 8)路透社新闻语料 调用方法:fetch_revl() 适用算法:分类 ### 常见损失函数 最小平方,极大似然,交叉熵,离散度 0-1损失函数,平方损失函数,绝对值损失函数,对数损失函数 ### 降维 在保证数据所具有的代表性特性或者分布的情况下,将高纬数据转化为低纬数据的过程 ### numpy ndarray n维数组类型,可以理解为一张mysql的表 ### 笔记 统计学给算法模型提供理论基础和框架,从而为数据提供学习能力 机器学习是应用统计学。统计是数学的一个分支,来自数学中的概率,机器学习来自计算机中的人工智能分支 模型的评估和选择