《机器学习》学习笔记

Table of Contents

1 第三章 线性模型

1.1 常用模型

1.1.1 线性回归

  1. 概念

    线性回归通过拟合一个线性方程($ Y = WX + b $),求解最小化均方误差,得到各个参数,形成模型。 一元线性回归是指给定的特征数量只有一个,而包含多个特征的线性回归方程被称为多元线性回归。 通过最小二乘法,我们可以得到特征权重W的表达式,这个W可能有多个解(尤其是当特征数>实例数时,数学上可证),选择哪个解取决于模型的偏好,有时候,我们可以通过正则化来判断选择。

  2. 变种
    • 对数线性回归: 将线性方程微调为 $ lnY = WX + b $
    • 广义线性回归方程: $Y = g-1 (WX + b)$, 通过微调方程g,可以得到不同的模型

1.1.2 逻辑回归

  1. 概念

    有了线性回归方程,线性分类也就呼之欲出了。线性分类的目的最终输出多种类别,注意前面我们提到的广义线性回归方程。如果我们找到一个函数g,其能将 \(WX + b\) 的结果和真实的Y对应起来,不就得到了分类模型了吗? 记 $Z= WX + b, Y = g-1 Z$, 一般情况下,Z到Y的映射可以表示为: $Y = 0 Z < 0, 0.5 Z=0, 1 Z > 0$, 即单位阶跃函数。解释为当Z大于0时认为是正例,小于0时为负例,等于时任意判别。 但是因为单位阶跃函数不可导,因此我们选择了一个近似的函数来代替它,即sigmoid函数: $Y = 1 / (1 + e-Z)$。 此时,虽然Y取值范围仍是[0,1], 但是Y的值是连续的,不是类别。看起来似乎走错路了,其实并没有,我们可以将Y的值解释为预测为类别1的概率,Z越大,Y越接近于1,即概率越大,反之越小。 利用sigmoid函数得到的分类模型被称为逻辑回归模型,也成为对数几率模型。

1.1.3 线性判别分析

线性判别分析即LDA,又称为Fisher线性判别。其思想主要为:将所有样例的投影映射到一条直线上,则理想情况下,同类别的点会集聚在一个有限范围内。拿到预测实例后,根据其投影所属的区间判断其类别。 那么如何求解投影到的直线方程呢? 期望分类效果越好,则样例的投影应该彼此越可能近的聚集。换成数学语言,即使同类投影点的协方差尽可能小,异类尽可能大,从而求解模型。

1.2 记忆点

  • 均方误差: $∑{i=1}{m} (Y - \bar(Y))2 $, 均方误差与欧式距离相对应
  • 基于均方误差最小化求解模型的方法即为最小二乘法(least square method)
  • 均方误差中的因变量为W和b,求解均方误差最小化,即对该表达式求导,使得其对W和b的倒数均为0。
  • 多分类问题可以简化为二分类问题
  • 分类时,注意不平衡数据的情况

2 第四章 决策树

2.1 原理

选取特征作为分裂节点,最终形成决策树,其中,叶子节点即为分类结果。

2.2 分裂节点的选取办法

2.2.1 信息增益

信息熵是衡量集合纯度的一种常用办法 , 信息增益是指增加某个信息后信息熵的变化。因此,可以简单的认为,如果增加某个属性后,对于实例样本的信息增益越大,则该特征属性的价值越大,越能帮助我们分类。 因此,使用信息增益是一种选取分裂节点的办法。常用的ID3算法即是使用信息增益来选取分裂节点。

2.2.2 增益率

使用信息增益选取分裂节点时,会对 可取值数目较多 的属性。所以,基于信息增益,产生了一种采用信息增益和属性固有值的比率作为分裂标准的办法,称之为增益率。 常用的C4.5算法即是基于增益率选取分裂节点的算法。

2.2.3 基尼系数

基尼系数反映了从给定集合中随机抽取2个样本,其类别不一样的概率。因此,基尼系数也可以用来衡量集合的纯度。 常用的CART决策树即采用了GINI系数来进行分类节点的选择。

2.3 防止决策树过拟合的办法

完全的决策树可能会产生过拟合的问题,为了避免过拟合,通常可以使用剪枝的办法。

2.3.1 预剪枝

2.3.2 后剪枝

Author: Marcnuth

Last Updated: 2017-05-01 Mon 10:15