《机器学习》学习笔记

1. 第三章线性模型
- 1.1. 常用模型
- 1.2. 记忆点
2. 第四章决策树

1 第三章线性模型

1.1 常用模型

1.1.1 线性回归

概念

线性回归通过拟合一个线性方程($ Y = WX + b $)，求解最小化均方误差，得到各个参数，形成模型。一元线性回归是指给定的特征数量只有一个，而包含多个特征的线性回归方程被称为多元线性回归。通过最小二乘法，我们可以得到特征权重W的表达式，这个W可能有多个解（尤其是当特征数>实例数时，数学上可证），选择哪个解取决于模型的偏好，有时候，我们可以通过正则化来判断选择。
变种
- 对数线性回归：将线性方程微调为 $ lnY = WX + b $
- 广义线性回归方程： $Y = g^-1 (WX + b)$，通过微调方程g，可以得到不同的模型

1.1.2 逻辑回归

概念

有了线性回归方程，线性分类也就呼之欲出了。线性分类的目的最终输出多种类别，注意前面我们提到的广义线性回归方程。如果我们找到一个函数g，其能将 $WX + b$ 的结果和真实的Y对应起来，不就得到了分类模型了吗？记 $Z= WX + b, Y = g^-1 Z$，一般情况下，Z到Y的映射可以表示为: $Y = 0 Z < 0, 0.5 Z=0, 1 Z > 0$，即单位阶跃函数。解释为当Z大于0时认为是正例，小于0时为负例，等于时任意判别。但是因为单位阶跃函数不可导，因此我们选择了一个近似的函数来代替它，即sigmoid函数: $Y = 1 / (1 + e^-Z)$。此时，虽然Y取值范围仍是[0,1]，但是Y的值是连续的，不是类别。看起来似乎走错路了，其实并没有，我们可以将Y的值解释为预测为类别1的概率，Z越大，Y越接近于1,即概率越大，反之越小。利用sigmoid函数得到的分类模型被称为逻辑回归模型，也成为对数几率模型。

1.1.3 线性判别分析

线性判别分析即LDA，又称为Fisher线性判别。其思想主要为：将所有样例的投影映射到一条直线上，则理想情况下，同类别的点会集聚在一个有限范围内。拿到预测实例后，根据其投影所属的区间判断其类别。那么如何求解投影到的直线方程呢？期望分类效果越好，则样例的投影应该彼此越可能近的聚集。换成数学语言，即使同类投影点的协方差尽可能小，异类尽可能大，从而求解模型。

1.2 记忆点

均方误差： $∑{i=1}{m} (Y - \bar(Y))² $，均方误差与欧式距离相对应
基于均方误差最小化求解模型的方法即为最小二乘法(least square method)
均方误差中的因变量为W和b，求解均方误差最小化，即对该表达式求导，使得其对W和b的倒数均为0。
多分类问题可以简化为二分类问题
分类时，注意不平衡数据的情况

2 第四章决策树

2.1 原理

选取特征作为分裂节点，最终形成决策树，其中，叶子节点即为分类结果。

2.2 分裂节点的选取办法

2.2.1 信息增益

信息熵是衡量集合纯度的一种常用办法 ，信息增益是指增加某个信息后信息熵的变化。因此，可以简单的认为，如果增加某个属性后，对于实例样本的信息增益越大，则该特征属性的价值越大，越能帮助我们分类。因此，使用信息增益是一种选取分裂节点的办法。常用的ID3算法即是使用信息增益来选取分裂节点。

2.2.2 增益率

使用信息增益选取分裂节点时，会对 可取值数目较多 的属性。所以，基于信息增益，产生了一种采用信息增益和属性固有值的比率作为分裂标准的办法，称之为增益率。常用的C4.5算法即是基于增益率选取分裂节点的算法。

2.2.3 基尼系数

基尼系数反映了从给定集合中随机抽取2个样本，其类别不一样的概率。因此，基尼系数也可以用来衡量集合的纯度。常用的CART决策树即采用了GINI系数来进行分类节点的选择。

2.3 防止决策树过拟合的办法

完全的决策树可能会产生过拟合的问题，为了避免过拟合，通常可以使用剪枝的办法。

《机器学习》学习笔记

Table of Contents

1 第三章线性模型

1.1 常用模型

1.1.1 线性回归

1.1.2 逻辑回归

1.1.3 线性判别分析

1.2 记忆点

2 第四章决策树

2.1 原理

2.2 分裂节点的选取办法

2.2.1 信息增益

2.2.2 增益率

2.2.3 基尼系数

2.3 防止决策树过拟合的办法

2.3.1 预剪枝

2.3.2 后剪枝

《机器学习》学习笔记

Table of Contents

1 第三章 线性模型

1.1 常用模型

1.1.1 线性回归

1.1.2 逻辑回归

1.1.3 线性判别分析

1.2 记忆点

2 第四章 决策树

2.1 原理

2.2 分裂节点的选取办法

2.2.1 信息增益

2.2.2 增益率

2.2.3 基尼系数

2.3 防止决策树过拟合的办法

2.3.1 预剪枝

2.3.2 后剪枝

1 第三章线性模型

2 第四章决策树