2025年CNN神经网络降噪(神经网络 去噪)

CNN神经网络降噪(神经网络 去噪)p class f center p

大家好,我是讯享网,很高兴认识大家。




讯享网

 <p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Ff65861cbj00smeme0002md200u000u0g00id00id.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCMV">文章转载于量子位(QbitAI)<br/>作者:梦晨</p><p id="354CBCN0">Transformer自问世后就大放异彩,但有个小毛病一直没解决:</p><p id="354CBCN1">总爱把注意力放在不相关的内容上,也就是信噪比低。</p><p id="354CBCN2">现在微软亚研院、清华团队出手,提出全新改进版Differential Transformer,专治这个老毛病,引起热议。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F24fb87e0p00smeme0000nd200o60036g00hx002c.png&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCN4">论文中介绍,整体思路类似差分放大电路或降噪耳机,用两个信号的差值来滤除共模噪声。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fdff07603j00smeme2001md200si005kg00hx003h.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCN6">具体到在语言模型中,如果句子很长,只有少数token会真正影响当前token的含义。而注意力机制允许每两个词之间产生交互,其中就包含大量噪声了。</p><p id="354CBCN7">团队提出的方法是在注意力层中增加一个Softmax,然后两个Softmax做减法。</p><p id="354CBCN8">这一减,噪音信息就被大幅抵消,让注意力更集中在相关内容上。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F70da6ecej00smeme2003ld200u000blg00id0073.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCNA">语言建模任务上的一系列实验结果显示,仅需约65%的模型大小或训练tokens,DIFF Transformer就能达到与传统Transformer相当的性能。</p><p id="354CBCNB">新架构在长上下文建模、关键信息检索、减少幻觉、提高上下文学习能力以及减少激活异常值等各项指标中,普遍优于Transformer架构。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fca515cebj00smeme3007zd200u000ksg00id00cp.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCND">论文上传到arXiv平台后,有不少学者到 划线提问。一作Tianzhu Ye正绝赞在线答疑中。‍‍‍‍‍‍‍‍‍‍‍</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F5e9889a3j00smeme4003td200p800m4g00id00g3.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCNF">1</p><p id="354CBCNG"><strong>差分Transformer</strong></p><p id="354CBCNH">与传统Tranformer相比,DIFF Transformer保持宏观架构不变,主要区别在于用差分注意力替换传统softmax注意力。</p><p id="354CBCNI">此外还采用了LLaMA系列中的一些改进,如pre-RMSNorm归一化和SwiGLU激活函数。</p><p id="354CBCNJ">在差分注意力模块中,需要先给Q和K分成两个组,然后分别计算softmax。</p><p id="354CBCNK">第二组乘了一个标量λ,是可学习的参数,在同一层的注意力头之间共享。</p><p id="354CBCNL">λ的引入是为了在差分操作中平衡两组注意力的贡献,使得差分注意力机制能够更好地适应不同的任务需求和数据分布。<br/><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Faj00smeme4004id200u000fmg00id009j.jpg&thumbnail=660x&quality=80&type=jpg"/></p><p id="354CBCNM">接下来是一系列实验结果。</p><p><strong>语言建模评估</strong></p><p><strong></strong></p><p id="354CBCNP">在1T tokens上训练3B大小的DIFF Transformer,遵循 StableLM-3B-4E1T的配方,在各种下游任务中与以前训练良好的Transformer模型相比表现出优势。<br/><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F05037dc5j00smeme50017d200r0005ig00hx003n.jpg&thumbnail=660x&quality=80&type=jpg"/></p><p><strong>可扩展性评估</strong></p><p><strong></strong></p><p id="354CBCNS">只需约65%的模型参数或训练tokens来匹配Transformer的性能。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fe0e47d09j00smeme5001rd200s000asg00id0072.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p><strong>长上下文能力评估</strong></p><p><strong></strong></p><p id="354CBCO0">在额外1.5B tokens上训练3B大小的DIFF Transformer,扩展上下文长度至64k。</p><p id="354CBCO1">随着上下文长度增加,累计平均负对数似然(NLL)持续降低,并且比传统Transformer的NLL值更低。</p><p id="354CBCO2">表明DIFF Transformer可以有效利用不断增加的上下文。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F19b5514bj00smeme5000nd200bk008wg00bk008w.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p><strong>关键信息检索能力评估</strong></p><p><strong></strong></p><p id="354CBCO6">也就是多个“针”的大海捞针试验,设置不同的上下文长度(4K和64K)来模拟不同复杂程度的信息检索场景。</p><p id="354CBCO7">在4K上下文长度下,随着插入 “针” 数量和查询数量的增加,DIFF Transformer的准确率保持稳定,而Transformer 的准确率显著下降。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Ff8f6ebe4j00smeme5000fd200dw0054g00id006r.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCO9">在64K上下文长度下,DIFF Transformer在不同答案针深度(即关键信息在长上下文中的位置)和上下文长度下都能保持稳定性能,且在关键信息位于上下文前半部分时优势明显。</p><p id="354CBCOA">特别是当关键信息位于25%深度时,DIFF Transformer比Transformer的准确率提高了 76%。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fd4daa94cj00smeme70024d200sa00bcg00hx0076.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p><strong>上下文学习能力评估</strong></p><p><strong></strong></p><p id="354CBCOE">分为两个角度来评估,分别是多样本分类和上下文学习的稳健性。</p><p id="354CBCOF">多样本分类任务,同样使用64K上下文长度的3B参数模型,DIFF Transformer的准确率始终高于Transformer,提升幅度从5.2%到21.6%不等</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F70c23b63j00smeme7002sd200ry00kyg00hx00df.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCOH">上下文学习稳健性采用排列顺序任务,DIFF Transformer的结果方差远小于传统Transformer。<br/><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F638dcf29j00smeme8001nd200r200byg00hx007w.jpg&thumbnail=660x&quality=80&type=jpg"/></p><p><strong>上下文幻觉评估</strong></p><p><strong></strong></p><p id="354CBCOK">主要关注输入中包含正确事实,但模型仍然无法产生准确输出的情况。</p><p id="354CBCOL">将模型输出与ground-truth一起发给GPT-4o,让GPT-4o来判断是否存在幻觉,此前试验表明GPT-4o与人类评判结果一致率较高,相对可靠。</p><p id="354CBCOM">在不同数据集上DIFF Transformer的准确率更高,幻觉更少。<br/><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F686d8bf2j00smeme80014d200t2006kg00hx0041.jpg&thumbnail=660x&quality=80&type=jpg"/></p><p><strong>激活异常值分析</strong></p><p id="354CBCOP">Transformer中的激活异常值,导致模型在训练和推理过程中难以量化。</p><p id="354CBCOQ">试验比较了注意力logits和隐藏状态两种激活类型下的最大激活值,DIFF Transformer都表现出更低的顶部激活值,即产生更少的激活异常值。</p><p id="354CBCOR">在对注意力logits进行量化实验时,DIFF Transformer在降低比特宽度量化时仍能保持较高性能,而Transformer在6-bi 量化时准确性显著下降。</p><p id="354CBCOS">4-bit的DIFF Transformer能达到与6-bit的Transformer相当的准确性,且比4-bit的Transformer准确率提高约 25%。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fej00smeme90016d200rs0060g00hx003v.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCOU">1</p><p id="354CBCOV"><strong>代码已开源, 降噪耳机类比引热议</strong></p><p id="354CBCP0">对于目前读者的疑问,作者已做出几点答复‍‍‍‍‍‍‍‍‍‍‍‍‍‍</p><p id="354CBCP1"><strong>问题1:Diff Transformer与每个注意力头温度可学习的方法有什么不同?与门控注意力对比如何?</strong></p><p id="354CBCP2">作者回应在实验中,可学习温度效果不大。而本文方法是门控注意力的改进。<br/>‍‍‍‍‍‍</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fd25caafbj00smemea0081d200os015ug00id00uz.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCP4"><strong>问题2:差分注意力是否意味着将标准注意力矩阵参数翻倍?</strong></p><p id="354CBCP5">作者澄清,单个注意力头维度翻倍,但是注意力头数量减半,总体在参数和FLOPS上都是对齐的。‍‍‍</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fe670cb92j00smemeb002sd200oo00eyg00id00b4.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCP7"><strong>问题3:第二组Softmax乘可学习参数lambda的研究思路。</strong></p><p id="354CBCP8">作者也做出详细回应。‍‍‍</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Ff01a7bb4j00smemeb0068d200pc00y4g00id00oq.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCPA">DIFF Transformer在纯学术圈之外也引起非常多的讨论,有不少人困惑论文中将方法与降噪耳机的类比。</p><p id="354CBCPB">降噪耳机采集环境噪声并生成相反的信号,在这种情况下哪些信号属于噪声是已知的,但差分注意力中并不能事先确定哪些是噪声。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fcbe38895j00smemec0020d200rg007yg00hx0056.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCPD">一种解释是,低注意力分数的噪声也有很低的梯度,因此模型其实已知哪些是噪声,只是单个Softmax无法输出0,所以噪声很难去除。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F3dcf5493j00smemed005yd200ra00kug00hx00do.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCPF">也有人提出,比起降噪耳机,其实专业音频中“平衡线”,或者USB、网卡等传输方式更适合一些。</p><p id="354CBCPG">使用两条信号线传输正负信号,接收器只对比他们之间的差异,由于在空间中离得很近,受到的干扰是相同的。</p><p id="354CBCPH">有用的正负信号相减会被放大,相同的噪声相减却被抵消,大大增强抗干扰能力。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F58ebb96dj00smemee003rd200u0007eg00hx004e.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCPJ">总之,DIFF Transformer代码已开源在微软unilm项目下,其中还包含魔改版支持差分注意力的FlashAttention-2的代码。<br/></p><p id="354CBCPK">感兴趣的可以试起来了。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F426fd9cej00smemee002kd200u0008dg00hx004z.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p id="354CBCPM">论文:<br/>https://arxiv.org/abs/2410.05258</p><p id="354CBCPN">代码:<br/>https://aka.ms/Diff-Transformer</p><p id="354CBCPO">参考链接:<br/>[1]https://news.ycombinator.com/item?id=</p> 

讯享网
小讯
上一篇 2025-06-03 18:21
下一篇 2025-05-25 19:08

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/158047.html