[TOC]

1.简述朴素贝叶斯算法原理和工作流程

工作原理

  • 假设现在有样本$x=(x_1, x_2, x_3, \dots x_n)$待分类项
  • 假设样本有$m$个特征$(a_1,a_2,a_3,\dots a_m)$(特征独立)
  • 再假设现在有分类目标$Y={ y_1,y_2,y_3,\dots ,y_n}$
  • 那么就$\max ({ P }({ y }_1 | { x }), { P }({ y }_2 | {x}), {P}({y}_3 | {x}) ,{P}({y_n} | {x}))$是最终的分类类别。
  • 而$ P(y_i | x)=\frac{P(x | y_i) * P(y_i)}{ P(x)} $,因为$x$对于每个分类目标来说都一样,所以就是求$\max({P}({x}|{y_i})*{P}({y_i}))$
  • $P(x | y_i) * P(y_i)=P(y_i) * \prod(P(a_j| y_i))$,而具体的$P(a_j|y_i)$和$P(y_i)$都是能从训练样本中统计出来
  • ${P}({a_j} | {y_i})$表示该类别下该特征$a_j$出现的概率$P(y_i)$表示全部类别中这个这个类别出现的概率,这样就能找到应该属于的类别了
Read more »

[TOC]

1. 简单介绍随机森林

  • 多次随机取样,多次随机取属性,选取最优分割点,构建多个(CART)分类器,投票表决或简单平均
  • 算法流程:
    • 输入为样本集$D={(x,y_1),(x_2,y_2) \dots (x_m,y_m)}$,弱分类器迭代次数$T$。
    • 输出为最终的强分类器$f(x)$
    • 对于$t=1,2 \dots T$
      • 对训练集进行第$t$次随机采样,共采集$m$次,得到包含$m$个样本的采样集Dt
      • 用采样集$D_t$训练第$t$个决策树模型$G_t(x)$,在训练决策树模型的节点的时候,在节点上所有的样本特征中选择一部分样本特征,在这些随机选择的部分样本特征中选择一个最优的特征来做决策树的左右子树划分
    • 如果是分类算法预测,则$T$个弱学习器投出最多票数的类别或者类别之一为最终类别。如果是回归算法,$T$个弱学习器得到的回归结果进行算术平均得到的值为最终的模型输出。
Read more »

[TOC]

1. 什么是集成学习算法?

  • 集成学习算法是一种优化手段或者策略,不算是一种机器学习算法。
  • 集成方法是由多个较弱的模型集成模型组,一般的弱分类器可以是决策树,SVM,KNN等构成。其中的模型可以单独进行训练,并且它们的预测能以某种方式结合起来去做出一个总体预测。
  • 该算法主要的问题是要找出哪些较弱的模型可以结合起来,以及如何结合的方法。
Read more »

[TOC]

SIFT(Scale-invariant feature transform)综述

  • 尺度不变特征转换:SIFT是一种在多尺度空间上提取局部特征的方法。它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量,此算法由 David Lowe在1999年所发表,2004年完善总结。
Read more »


[TOC]

1. RF和GBDT的区别

相同点:

  • 都是由多棵树组成,最终的结果都是由多棵树一起决定。

不同点:

  • 集成学习:$RF$属于$Bagging$思想,而$GBDT$是$Boosting$思想
  • 偏差-方差权衡:$RF$不断的降低模型的方差,而$GBDT$不断的降低模型的偏差
  • 训练样本:$RF$每次迭代的样本是从全部训练集中有放回抽样形成的,而$GBDT$每次使用全部样本
  • 并行性:$RF$的树可以并行生成,而$GBDT$只能顺序生成(需要等上一棵树完全生成)
  • 最终结果:$RF$最终是多棵树进行多数表决(回归问题是取平均),而$GBDT$是加权融合
  • 数据敏感性:$RF$对异常值不敏感,而$GBDT$对异常值比较敏感
  • 泛化能力:$RF$不易过拟合,而$GBDT$容易过拟合
Read more »