# ml-learn

**Repository Path**: oneqhw/ml-learn

## Basic Information

- **Project Name**: ml-learn
- **Description**: 人工智能，机器学习
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2020-11-09
- **Last Updated**: 2025-11-15

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 机器学习开发流程

    1.获取数据  
    2.数据处理  
    3.特征工程  
    4.算法训练  
    5.模型评估 

## 算法是核心，数据与计算是基础

## 常规的库和框架

    pytorch,tensorflow  

## 机器学习的数据集一般分成两个部分：

    训练数据 用于训练数据，构建模型  
    测试数据 在模型检验时使用，用于评估模型是否有效

    划分比例，训练-校验  
    7-3,8-2,7.5-2.5

## 字典的特征提取

    对于特征当中存在类别信息的我们都处理成one-hot编码，即0,1编码

## 安装sk-learn

    pip install -U scikit-learn -i https://pypi.tuna.tsinghua.edu.cn/simple

    pip3 install --user numpy scipy matplotlib ipython jupyter pandas sympy nose -i https://pypi.tuna.tsinghua.edu.cn/simple

### 安装numpy

    python -m pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

### 安装依赖库

    python -m pip install scipy -i https://pypi.tuna.tsinghua.edu.cn/simple   失败
    python -m pip install matplotlib -i https://pypi.tuna.tsinghua.edu.cn/simple
    python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple muggle-ocr
    python -m pip install scipy-1.5.3-cp39-cp39-win_amd64.whl
    pip install muggle-ocr

    python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple muggle-ocr
    python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple PyHamcrest
    python -m pip install -U numpy -i https://pypi.tuna.tsinghua.edu.cn/simple

### 更新numpy到指定版本

    python -m pip install --upgrade numpy==1.16.0 -i https://pypi.tuna.tsinghua.edu.cn/simple
    python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple muggle-ocr
    python -m pip install -U --ignore-installed wrapt enum34 simplejson netaddr
    python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy
    python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scipy
    python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple joblib

## 为了方便，以上操作只需要安装anaconda即可 2021.08.22注

## 2021-05-18

## 一、scikit-learn常用函数

    1)分类
        
        应用：异常检测，图像识别
        算法：KNN，SVM（间隔，对偶，核技巧），SMO求解，硬间隔，软间隔
        逻辑回归；极大似然估计，梯度下降
        决策树：信息熵，信息增益，剪枝，ID3，C4.5，CART不在那么优秀。
        KNN，KD-Tree不在那么优秀。
    
    2)聚类
        应用：图像分割，群体划分
        算法：K-Means,谱聚类
        基于密度，基于层次
        算法：DBScan
    
    3)回归
        应用：价格预测，趋势预测
        算法：线性回归，SVR
        线性回归方程 f(x)=WX,W,X均为向量
        岭回归，Lasso回归不再那么优秀。
    4)降纬
        应用：可视化
        算法：PCA，NMF

    5)集成学习
        算法：随机森林，梯度提升树
        boosting,glbt

    6)特征提取

    7)协同过滤算法，FM，deepFM等推荐相关的算法
        搜索，推荐和广告场景
        搜索，需要用到语义分析，nlp，word2vec
        从前端系统获取用户的停留时间，pv，点击等信息，进而得到相关的偏好信息，针对偏好进行推荐。
        spark或者flink利用数据仓库中的信息，进行计算，将结果存放到kafka或redis中，供推荐和搜索系统使用

sklearn集成了一些常用的机器学习方法，在进行机器学习任务时，并不需要实现算法，只要简单地调用库中模块即可。它是在numpy、scipy和matplotlib基础上开发完成的。

## 二、数据集总览

    1）波士顿房价
        调用方法：load_boston()
        适用算法：回归
    2）鸢尾花
        调用方法：load_iris()
        适用算法：分类
    3）糖尿病
        调用方法：load_diabetes()
        适用算法：回归
    4)手写数字
        调用方法：load_digits()
        适用算法：分类
    5）Olivetti脸部图像
        调用方法：fetch_olivetti_faces()
        适用算法：降维
    6）新闻分类
        调用方法：fetch_20newsgroups()
        适用算法：分类
    7）带标签的人脸
        调用方法：fetch_lfw_people()
        适用算法：分类；降维
    8）路透社新闻语料
        调用方法：fetch_revl()
        适用算法：分类

### 常见损失函数

    最小平方，极大似然，交叉熵，离散度
    0-1损失函数，平方损失函数，绝对值损失函数，对数损失函数

### 降维

    在保证数据所具有的代表性特性或者分布的情况下，将高纬数据转化为低纬数据的过程

### numpy

    ndarray n维数组类型，可以理解为一张mysql的表

### 笔记
    统计学给算法模型提供理论基础和框架，从而为数据提供学习能力
    机器学习是应用统计学。统计是数学的一个分支，来自数学中的概率，机器学习来自计算机中的人工智能分支

    模型的评估和选择