AcMR学习笔记

大家好，我是讯享网，很高兴认识大家。

注：此文章为论文：Rapid Performance Gain through Active Model Reuse 的学习笔记

简介

模型重用试图通过利用预训练的模型，减少新目标任务训练模型的资源消耗，这项技术在被标记的样本数量有限时的应用首要关注并且效果良好。
然而传统的模型重用方法对于模型的性能提升缓慢并且需要大量的查询才能获得较好的准确率（如图一）。
在这里插入图片描述
讯享网

图一：传统模型重用

论文中提出的新的方法AcMR（图2），可以帮助模型构建查询，能够在有标签样本不足的情况下更好地主动学习，并且利用预训练模型可以过滤掉非必要的查询，与主动学习相比节约了资源。

在这里插入图片描述

图二AcMR模型

AcMR方法

假设训练集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_{n_l},y_{n_l}),x_{n_l+1},....,x_N\}$ ,其中前 $n_l$ 为有标签的样本，无样本的个数为 $n_u=N-n_l$ 。其中每一个样本 $x_t=[x_{t_1},x_{t_2},...,x_{t_d}]^T$ 有 $d$ 维属性。图三说明了各个符号的意义。
在这里插入图片描述

图三符号摘要

模型重用的目的是从已有的模型中派生出更好的模型： $f^+=g(\{ {f_1,f_2,...,f_k}\},f_\mathcal L)$ ,可以通过最小化结构风险来构建 $f^+$ :
$\min_{f^+}L(\mathcal L_Y,f^+(\mathcal L_X))+\lambda\Omega(f^+)$
其中 $L$ 为损失函数， $\Omega$ 为正则化， $\mathcal L_X=\{x_1,x_2,...,x_{n_l}\},\mathcal L_Y=\{y_1,y_2,...,y_{n_l}\}$ 。根据具体的任务，可以灵活的选择损失函数、正则化和派生更好的模型 $f^+$ 的方法。
假定对于任务预训练的模型已经得到了较好的权重 $\eta=[\eta_1,...,\eta_k]$ ，按照加权表决法（Dietterich,2000），未标记的例子 $x_t$ 的标签预测值为：
$\hat{y}={\argmax_{c\in \{-1,+1\}} }\sum_{j=1}^k\eta_j*\coprod(f_j^{(t)}=c)$
其中，当 $z$ 是真值时 $\coprod(z)=1$ ，否则为0。因为不能够得到准确的先验权重，我们假定信任部分预训练的模型，利用预训练模型过滤掉主动学习不必要地查询，进而加速主动学习进程；此外，一旦有标签的样本数增加，我们就更新预训练模型地权重以更好的适应任务要求。在主动学习地过程中，两个过程互相促进。

主动重用预训练模型

当预训练模型风险过高时，可能会观察到以下结果：1）预训练模型对于未标记样本给出的标签与主动学习给出的标签不同；2）预训练模型的后验概率较低。因此，定义一个查询标志函数 $\theta(x_t)$ 来反映未标记样本 $x_t$ 是否需要查询标签：
$P(\hat y|x_t)=\sum_{j=1}^k\eta_jP_j(\hat y^{(t)}|x_t)*\coprod(f_j^{(t)}=\hat y^{(t)})$
$\alpha(x_t)=(1-\coprod(\hat y^{(t)}\not=f_{\mathcal L}^{(t)}))P(\hat y|x_t)$
$\theta(x_t)=(1+\alpha(x_t))^{-1}$
其中， $P_j(\hat y|x_t)$ 是预训练模型 $f_j$ 对于未标记样本 $x_t$ 的预测概率。可以看出， $\alpha(x_t)$ 的值越大，就越不用查询标签。由于少量的错误标注可能对准确率造成很大的影响，在 $\alpha(x_t)$ 的基础上，又定义了 $\theta(x_t)$ ，保证查询的必要性不低于50%，保证只有 $\alpha(x_t)$ 很大时才相信预训练模型预测的标签。
定义一个 $R\in(0,1)$ 和函数 $F(x_t)= \begin{cases} 0, ifR>\theta(x_t) \\ 1, otherwise \end{cases}$ ，当 $F(x_t)=0$ 时， $x_t$ 的标签为预训练模型预测的标签，否则， $x_t$ 的标签应由领域内的专家标定。

评价指标

令 $\delta=\varepsilon_p+\varepsilon_a$ ,其中 $\varepsilon_p$ 和 $\varepsilon_a$ 分别表示预训练模型和主动学习 $F_\mathcal L$ 的期望误差，评价指标与函数见图四。
在这里插入图片描述

图四评价指标

采样误差应满足 $\varepsilon\leq\frac{\varepsilon_p^2}{1+(1-\varepsilon_p)}$ 。由函数 $F(x_t)$ 可知，只有当预训练模型和主动学习模型 $f_\mathcal L$ 给出相同的错误标签时，AcMR预测的标签才会错误。假定 $\varepsilon_p>\varepsilon_a$ ,则 $\varepsilon=\varepsilon_p\varepsilon_a(1-\theta(x))\leq\varepsilon_p^2(1-\theta(x))$ ,其中 $\theta(x)=\frac{1}{1+(1-\varepsilon_p)}$ ，进而推出Sampling Error公式。
查询率应满足 $P(Q)\leq\delta+\frac{1-\delta}{1+(1-\varepsilon_p)}$ 。由函数 $F(x_t)$ 可知，当预训练模型和主动学习模型给出的预测值不同时，AcMR算法会询问样本的标签,但两个模型预测相同时，也会有 $\theta(x)$ 的概率询问样本的标签。
$P(Q)=\varepsilon_a(1-\varepsilon_p)+[\varepsilon_p\varepsilon_a+(1-\varepsilon_p)(1-\varepsilon_a)]\theta(x)+(1-\varepsilon_a)\varepsilon_p \\ =\theta(x)+(\varepsilon_p+\varepsilon_a-2\varepsilon_p\varepsilon_a)(1-\theta(x)) \\ \leq\delta+(1-\delta)\theta(x) \\ \leq\delta+\frac{1-\delta}{1+(1-\varepsilon_p)}$

预训练模型的权重更新

受到Murugesan et al. [2016]的启发，我们提出了一种错误驱动的权重更新策略，只有当预训练模型的预测错误的时候才更新其权重。权重优化函数为：
$\eta^{(m+1)}=\argmin_{\eta\in \Theta}\sum_{j\in [k]}\eta_jl_j^{(t(m))}+\lambda D_{KL}(\eta||\eta^{(m)})$
其中， $D_{KL}(\eta||\eta^{(m)})$ 表示现在和过去soft-attention分布的KL散度，它使得 $\eta$ 平滑变化。 $\eta^{(m+1)}$ 的闭式解为：
$\eta_j^{(m+1)}=\frac{\eta_j^{(m)}exp(-l_j^{t(m)}/\lambda)}{\sum_{j'=1}^k\eta_{j'}^{(m)}exp(-l_{j'}^{t(m)}/\lambda)},j\in [k]$

试验

试验计划

两种样本选择标准：1）QBC：选择在假设集合中引起最大分歧的样本；2）随机选择样本。
一种主动迁移学习方法：AcTraK。
一种基准线的方法：Safer。
针对AcMR，我们分别选择上述两种采样方法，将训练好的模型作为输入，例如将DVD预先训练好的模型作为书的情感分析任务的输入。因为AcMR需要专家标注未标注的样本，所以需要在专家标注的不同数量的样本上进行实验对比。对于每项任务，我们随机将数据集划分为两部分：75%作为未标记数据，25%作为测试集。试验重复30次，得到平均的准确率。

文本分类任务

样本从20个Newsgroups中收集，包含两个层次，其中高层类别之间的区别较大，每一类的子类之间的区别较小。我们规定六组二分类任务，对比AcMR和其它算法的性能，结果见图五，可见在两种样本选择方法中，AcMR算法的性能是最好的。
在这里插入图片描述

图五文本分类任务性能对比

情感分析任务

我们通过分析产品评价的好坏测量我们的算法，产品评价选用亚马逊商城的4个类：书、DVD、电子产品和厨房用品。每一类都看作一个二分类任务：评价大于3的为好评，评价小于3的为差评。对于以上的情感分析数据集，我们得到了4个分类任务。结果见图六，在大多数情况下，AcMR的性能都比基于主动学习的方法好，且能够随着标注样本数量的增加提高性能。更重要的，我们发现即使预训练模型性能的提升有限，我们的建议仍能使它的性能迅速提高。
在这里插入图片描述

图六情感分析结果对比

垃圾邮件识别任务

选用ECML PAKDD Discovery上的任务B挑战数据集，它包含来自15个收件箱的已标注训练数据，我们测试了前四个分类任务，结果见图七。在大多数情况下AcMR算法是最优的，这说明在主动学习的框架下，将预训练的模型考虑进去可以快速提高模型的性能。
在这里插入图片描述

图七垃圾邮件识别结果对比

总结

我们提出的AcMR方法，当标记的样本不足以完成任务时，通过预训练的模型重构查询，并且过滤掉不必要的查询，能够快速提高模型性能。未来展望将此算法推广到深度学习模型。

问题：1）Random selects examples randomly是什么算法
2）怎么体现快速提高性能

AcMR学习笔记

AcMR学习笔记

简介