Other articles

  1. 《统计学习方法》-逻辑斯蒂回归与最大熵模型

    二 23 一月 2018

    逻辑斯蒂回归是一个比较经典的分类方法,最大熵模型是按照最大熵准则来进行分类的算法,两个都属于对数线性模型。

    逻辑斯蒂回归

    在二分类中的模型:

    $$ \begin{aligned} P(Y=1|X)&=\frac{exp(\omega X+b)}{1+exp(\omega X+b)}\\ P(Y=0|X)&=\frac{1}{1+exp(\omega X+b)} \end{aligned} $$

    这里\(X\in \boldsymbol{R}^n\)是输入,\(Y\in \{0,1\}\)是输出,比较两个条件概率的大小,将实例x分到概率值大的那一类。这个公式对于求解问题不是很直观,将分类的概率变成对数几率或 …

    read more
  2. 《统计学习方法》-决策树

    日 21 一月 2018

    决策树是一个比较经典的分类与回归的方法,包括特征选择、决策树的生成和决策树的修剪。

    模型

    决策树的模型是一棵已经构造完成的决策树,由节点和有向边组成,其中节点分为内部节点和叶子节点,内部节点表示一个特征或属性,即划分的特征,叶子节点表示一个类。

    从根节点开始对实例中的某一个特征进行测试,比如西瓜的颜色,有花纹的分成一个类,放在一个子节点中,另一种放在另一个子节点中,如此递归的对实例进行测试,直至叶节点。

    决策规则

    决策树可以看成if-then规则的集合,决策过程:每一条有向边对应一条规则,路径上内部节点的特征对应着规则的条件,而叶节点的类对应着规则的结论。

    路径或其对应的if-then规则集合具有一个重要的性质:互斥并且完备。

    从所有可能的决策树中选取最优的决策树是NP完全问题,所以现实中决策树学习算法采用启发式方法,近似求解这一优化问题,这样得到的决策树是次最优的。决策树算法通常是一个递归选择最优特征,并且用该特征对数据进行分割。

    算法

    特征选择

    随机变量X的熵定义为:

    $$ H(X)=-\sum_{i=1}^{n}p_i\log p_i $$

    条件熵(conditional entropy)\(H(Y|X)\),定义为 …

    read more
  3. 《统计学习方法》-朴素贝叶斯

    六 20 一月 2018

    朴素贝叶斯和knn一样,属于懒惰学习方法的一种,假设输入的特征间是独立的,根据先验概率来求最大化后验概率(MAP)。

    基本方法

    了解这个章节需要复习概率统计的知识,关于概率、条件概率、全概率、最大似然等。

    $$ 后验概率P(Y=c_k|X=x)=\frac{P(X=x|Y=c_k)P(Y=c_k)}{\sum_k P(X=x|Y=c_k)P(Y=c_k)} $$

    分母都是相同的,去掉分母,分类器变成了

    $$ y=\arg \max_{c_k}P(Y=c_k)\prod_j P(X^{(j)}=x^{(j …
    read more
  4. 统计学习方法-k近邻法

    五 19 一月 2018

    k近邻算法不需要显示学习判别模型,属于懒惰学习的一种,这样要素变成了:k值的选取、距离度量和分类决策规则。

    K值选择

    k值决定了有多少个点参与决策,拿最简单的欧式距离(距离度量)来说,就是先选择一个固定的K值,然后比较带测试点与所有点的距离,然后将对应最小的k个距离的点选出来,选用投票法(分类决策)来决定带测试点的类别。

    k值的选取与模型有很大的关系,小了容易发生过拟合,大了可以减小学习的估计误差,但会增大近似误差。一般是取一个比较小的数值,然后采用交叉验证的方法来选取最优的k值(书上原话)。

    距离度量

    这里需要数学上的概念:范数,P范数定义是这样的:

    $$ P范数:L_p(x_i,x_j)=(\sum_{l=1}^n \vert x_i^{(l)}-x_j^{(l)}\vert^p)^{\frac{1}{p}},p\geqslant 1 $$

    当然,是存在0范数的 …

    read more
  5. 《统计学习方法》-概论

    一 15 一月 2018

    看完周志华老师的《机器学习》,对机器学习有了一个全面的了解,但其细节部分不是很了解,遂找同学借了本《统计学习方法》(感谢亲爱的波),感觉对机器学习的概念部分讲的很好,这里留作记录。

    概论部分讲了统计学习方法的组成、机器学习的分类及要素,还有一些评估方法。

    1. 统计学习背景

    统计学习是由一些数学组成:概率统计、信息论、优化理论,所以想要深入的了解的化,本科学的统计、高数的前几章得熟悉,然后线性代数得着重看下,对了解并行处理有很大的帮助,有需要的还可以看下凸优化相关的东西,对优化部分会有更深刻的理解。

    统计学习的对象是数据,包括数字、文字、图片、视频、音频等,这里有个前提:这些同类数据具有一定的统计规律性。目标是对数据进行预测与分析。

    2. 三要素

    \(方法=模型+策略+算法\)

    模型:

    我对模型的理解是:找到一个映射关系(函数),使得输入和输出的对应关系最大化,也就是一些统计特性更好。

    书本上对模型的理解是在假设空间中找到最优的模型,怎么理解?书后面给了解释 …

    read more
  6. 《统计学习方法》-感知机

    一 15 一月 2018

    模型

    感知机的目标是找到一个可以将正负实例完全分开的分离超平面\(\omega X+b=0\),模型的形式显而易见,为:

    $$ f(x)=sign(\omega X+b)\\ 其中sign(x)=\left\{\begin{matrix} +1, & x\geqslant 0\\ -1, & x<0 \end{matrix}\right. $$

    当在平面的上面时,划分成一类,下面一类。

    策略

    感知机的目标是找到一个可以将正负实例完全分开的分离超平面,需要定义一个策略,即定义(经验)损失函数并将损失函数最小化。

    损失函数一个自然选择是误分类点的总数,另一个是误分类点到超平面S的总距离,是参数\(\omega,b\)的连续可导函数,有利于优化。

    $$ 误分类点到S的总距离L=-\frac{1}{\left \| \omega …
    read more

Page 1 / 1

blogroll