[TOC]
原文1
原文2
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集

Read more »

[TOC]

原理

  • GBDT与传统的Boosting区别较大,它的每一次计算都是为了减少上一次的残差,而为了消除残差,我们可以在残差减小的梯度方向上建立模型,所以说,在GradientBoost中,每个新的模型的建立是为了使得之前的模型的残差往梯度下降的方法,与传统的Boosting中关注正确错误的样本加权有着很大的区别。
  • 在GradientBoosting算法中,关键就是利用损失函数的负梯度方向在当前模型的值作为残差的近似值,进而拟合一棵CART回归树。
  • GBDT的会累加所有树的结果,而这种累加是无法通过分类完成的,因此GBDT的树都是CART回归树,而不是分类树(尽管GBDT调整后也可以用于分类但不代表GBDT的树为分类树)。

优缺点

  • GBDT的性能在RF的基础上又有一步提升,因此其优点也很明显,1、它能灵活的处理各种类型的数据;2、在相对较少的调参时间下,预测的准确度较高。
  • 当然由于它是Boosting,因此基学习器之前存在串行关系,难以并行训练数据。

[toc]

原理

动机

解决GBDT遇到海量数据时的问题:GBDT 在每一次迭代的时候,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。

Read more »

[TOC]

  1. 决策树

问题:如何挑选用于分裂节点的特征—>ID3 C4.5 …(一个标准:使分裂出来的节点尽可能纯,即一个分支尽可能属于同类)

Read more »

[TOC]

P(B|A) = P(A|B)*P(B)/P(A)

朴素:特征之间相互独立

算法流程

  1. x = {a1, a2, …, am}为待分类项,a是特征。
  2. 类别集合C = {y1, …, yn}.
  3. 计算P(y1|x), P(y2|x) …
  4. P(yk|x) = max{P(yi|x)},则x属于yk类
Read more »

不同

  • sorted
    • 返回已排序列表
    • built-in函数,接受任何可迭代对象
  • sort
    • 原位排序,返回None
    • 是list的成员函数,因此只接受list

相同

  • 稳定排序
Read more »