introduction部分
Bagging和boosting用途
Bagging和boosting主要是用多重预测来解决以下两个问题: 1. 在回归问题中获取最小误差; 2. 在分类问题中获取最小错误率。
Bagging和Boosting共性 都是通过训练不同的数据集来得到回归模型。
不同点
bagging 1. 从\(N_1\)个原始样本中,有放回地抽样(可能overlap)得到\(N_1\)个样本 2. 独立训练模型 3. 得到不同的预测 4. 求所有预测的平均得到最终结果
由于模型之间独立,因此可以对训练过程采取分布式或并行的方式。
boosting
模型是依次训练出来的。
- 从训练集中挑出\(N_1\)个样本,训练出第一个模型
- 挑出误差最大的样本
- 增大这些样本在下次被抽到的概率
- 再次进行训练,最终得到多个模型
- 最终对模型进行不同权重的加权,权重公式如下定义:
设已知训练集\((y_i,x_i),i=1,...,N_1\)。其中,\(x\)是\(M\)维的向量,且\((y_i,x_i)\)唯一但未知(fixed but unknown) 我们将预测函数表示为\(y^{(p)}(x)\),则:
sample modeling error: \[PE=\frac{1}{N_2}\sum_{i=1}^{N_2}[y_i-y_i^{(p)}(x_i)]^2\] prediction error: \[ME=\frac{1}{N_2}\sum_{i=1}^{N_2}[y_i^{(t)}-y_i^{(p)}(x_i)]^2\]
其中, \(y_i^{(p)}(x_i)\)表示第\(i\)个测试集的预测值 \(y_i\)表示第\(i\)个测试集的观测值 \(y^{(t)}_i\)是实际值 \(y^{(p)}(x)\)的参数p是从\(N_2\)个测试集的观测值中获得的,但是上面的累加的式子中的\(y_i\)和\(x_i\)是从从未被seen过的测试集的观测值\(N_2\)获得的。
看到这里突然发现有点跑偏了。决定先暂停这篇论文的研究。