甲乙小朋友的房子

甲乙小朋友很笨,但甲乙小朋友不会放弃

0%

《Improving Regressors Using Boosting Techniques》论文笔记

introduction部分

Bagging和boosting用途

Bagging和boosting主要是用多重预测来解决以下两个问题: 1. 在回归问题中获取最小误差; 2. 在分类问题中获取最小错误率。

Bagging和Boosting共性 都是通过训练不同的数据集来得到回归模型。

不同点

bagging 1. 从\(N_1\)个原始样本中,有放回地抽样(可能overlap)得到\(N_1\)个样本 2. 独立训练模型 3. 得到不同的预测 4. 求所有预测的平均得到最终结果

由于模型之间独立,因此可以对训练过程采取分布式或并行的方式。

boosting

模型是依次训练出来的。

  1. 从训练集中挑出\(N_1\)个样本,训练出第一个模型
  2. 挑出误差最大的样本
  3. 增大这些样本在下次被抽到的概率
  4. 再次进行训练,最终得到多个模型
  5. 最终对模型进行不同权重的加权,权重公式如下定义:

设已知训练集\((y_i,x_i),i=1,...,N_1\)。其中,\(x\)\(M\)维的向量,且\((y_i,x_i)\)唯一但未知(fixed but unknown) 我们将预测函数表示为\(y^{(p)}(x)\),则:

sample modeling error: \[PE=\frac{1}{N_2}\sum_{i=1}^{N_2}[y_i-y_i^{(p)}(x_i)]^2\] prediction error: \[ME=\frac{1}{N_2}\sum_{i=1}^{N_2}[y_i^{(t)}-y_i^{(p)}(x_i)]^2\]

其中, \(y_i^{(p)}(x_i)\)表示第\(i\)个测试集的预测值 \(y_i\)表示第\(i\)个测试集的观测值 \(y^{(t)}_i\)是实际值 \(y^{(p)}(x)\)的参数p是从\(N_2\)个测试集的观测值中获得的,但是上面的累加的式子中的\(y_i\)\(x_i\)是从从未被seen过的测试集的观测值\(N_2\)获得的。

看到这里突然发现有点跑偏了。决定先暂停这篇论文的研究。