《机器学习》学习笔记
Table of Contents
1 第三章 线性模型
1.1 常用模型
1.1.1 线性回归
1.1.2 逻辑回归
- 概念
有了线性回归方程,线性分类也就呼之欲出了。线性分类的目的最终输出多种类别,注意前面我们提到的广义线性回归方程。如果我们找到一个函数g,其能将 \(WX + b\) 的结果和真实的Y对应起来,不就得到了分类模型了吗? 记 $Z= WX + b, Y = g-1 Z$, 一般情况下,Z到Y的映射可以表示为: $Y = 0 Z < 0, 0.5 Z=0, 1 Z > 0$, 即单位阶跃函数。解释为当Z大于0时认为是正例,小于0时为负例,等于时任意判别。 但是因为单位阶跃函数不可导,因此我们选择了一个近似的函数来代替它,即sigmoid函数: $Y = 1 / (1 + e-Z)$。 此时,虽然Y取值范围仍是[0,1], 但是Y的值是连续的,不是类别。看起来似乎走错路了,其实并没有,我们可以将Y的值解释为预测为类别1的概率,Z越大,Y越接近于1,即概率越大,反之越小。 利用sigmoid函数得到的分类模型被称为逻辑回归模型,也成为对数几率模型。
1.1.3 线性判别分析
线性判别分析即LDA,又称为Fisher线性判别。其思想主要为:将所有样例的投影映射到一条直线上,则理想情况下,同类别的点会集聚在一个有限范围内。拿到预测实例后,根据其投影所属的区间判断其类别。 那么如何求解投影到的直线方程呢? 期望分类效果越好,则样例的投影应该彼此越可能近的聚集。换成数学语言,即使同类投影点的协方差尽可能小,异类尽可能大,从而求解模型。
1.2 记忆点
- 均方误差: $∑{i=1}{m} (Y - \bar(Y))2 $, 均方误差与欧式距离相对应
- 基于均方误差最小化求解模型的方法即为最小二乘法(least square method)
- 均方误差中的因变量为W和b,求解均方误差最小化,即对该表达式求导,使得其对W和b的倒数均为0。
- 多分类问题可以简化为二分类问题
- 分类时,注意不平衡数据的情况
2 第四章 决策树
2.1 原理
选取特征作为分裂节点,最终形成决策树,其中,叶子节点即为分类结果。
2.2 分裂节点的选取办法
2.2.1 信息增益
信息熵是衡量集合纯度的一种常用办法 , 信息增益是指增加某个信息后信息熵的变化。因此,可以简单的认为,如果增加某个属性后,对于实例样本的信息增益越大,则该特征属性的价值越大,越能帮助我们分类。 因此,使用信息增益是一种选取分裂节点的办法。常用的ID3算法即是使用信息增益来选取分裂节点。
2.2.2 增益率
使用信息增益选取分裂节点时,会对 可取值数目较多 的属性。所以,基于信息增益,产生了一种采用信息增益和属性固有值的比率作为分裂标准的办法,称之为增益率。 常用的C4.5算法即是基于增益率选取分裂节点的算法。
2.2.3 基尼系数
基尼系数反映了从给定集合中随机抽取2个样本,其类别不一样的概率。因此,基尼系数也可以用来衡量集合的纯度。 常用的CART决策树即采用了GINI系数来进行分类节点的选择。
2.3 防止决策树过拟合的办法
完全的决策树可能会产生过拟合的问题,为了避免过拟合,通常可以使用剪枝的办法。