introduction部分

Bagging和boosting用途

Bagging和boosting主要是用多重预测来解决以下两个问题： 1. 在回归问题中获取最小误差； 2. 在分类问题中获取最小错误率。

Bagging和Boosting共性 都是通过训练不同的数据集来得到回归模型。

不同点

bagging 1. 从\(N_1\)个原始样本中，有放回地抽样(可能overlap)得到\(N_1\)个样本 2. 独立训练模型 3. 得到不同的预测 4. 求所有预测的平均得到最终结果

由于模型之间独立，因此可以对训练过程采取分布式或并行的方式。

boosting

模型是依次训练出来的。

从训练集中挑出\(N_1\)个样本，训练出第一个模型
挑出误差最大的样本
增大这些样本在下次被抽到的概率
再次进行训练，最终得到多个模型
最终对模型进行不同权重的加权，权重公式如下定义：

设已知训练集\((y_i,x_i),i=1,...,N_1\)。其中，\(x\)是\(M\)维的向量，且\((y_i,x_i)\)唯一但未知(fixed but unknown) 我们将预测函数表示为\(y^{(p)}(x)\)，则：

sample modeling error: \[PE=\frac{1}{N_2}\sum_{i=1}^{N_2}[y_i-y_i^{(p)}(x_i)]^2\] prediction error: \[ME=\frac{1}{N_2}\sum_{i=1}^{N_2}[y_i^{(t)}-y_i^{(p)}(x_i)]^2\]

其中， \(y_i^{(p)}(x_i)\)表示第\(i\)个测试集的预测值 \(y_i\)表示第\(i\)个测试集的观测值 \(y^{(t)}_i\)是实际值 \(y^{(p)}(x)\)的参数p是从\(N_2\)个测试集的观测值中获得的，但是上面的累加的式子中的\(y_i\)和\(x_i\)是从从未被seen过的测试集的观测值\(N_2\)获得的。

看到这里突然发现有点跑偏了。决定先暂停这篇论文的研究。

甲乙小朋友的房子

《Improving Regressors Using Boosting Techniques》论文笔记

introduction部分