cnn什么意思考试(cnn什么意思?)

cnn什么意思考试(cnn什么意思?)p class f center p

大家好,我是讯享网,很高兴认识大家。




讯享网

 <p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F15eaa9c8j00smfavg0092d000ic007vp.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL625">[kuai.newazs.com)</p><p id="355AL626"><strong>新智元报道</strong>:桃子 LRS【新<strong>智元导读】LL</strong>M训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能维持原有精度。</p><p id="355AL627">AI的未来,或许就此改写......</p><p id="355AL628">最近,英伟达团队抛出的一枚重磅炸弹,提出了全新神经网络架构——归一化Transformer(nGPT),基于超球面(hypersphere)进行表示学习。</p><p id="355AL629">相较于Transformer架构本身,nGPT直接将LLM训练速度提升至高20倍,而且还保持了原有精度。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Ffc42f14dp00smfauo000ud000ic002op.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL62B">[pan.swdates.com)</p><p id="355AL62C">也就意味着,原本需要一个月完成的训练,在未来可能只需1-2天的时间就能搞定。无疑为通向AGI终极目标,注入了一针强心剂!</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fe7j00smfaup001md000ic004lp.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL62E">[kuai.eyk2.com)</p><p id="355AL62F">论文地址:https://arxiv.org/pdf/2410.01131在nGPT中,所有的向量(嵌入、MLP、注意力矩阵、隐藏状态),都被归一化为单位范数(unit norm)。输入后的token在超球面表面上移动,每一层都通过「位移」来贡献最终的输出预测,其中位移量是由MLP和注意力模块进行定义的,其向量组件都位于同一个超球面上。</p><p id="355AL62G">实验表明,nGPT达到相同精度所需的训练步骤减少了4-20倍,具体取决于序列长度:- 1k上下文,训练速度提高4倍- 4k上下文,训练速度提高10倍- 8k上下文,训练速度提高20倍</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F6d5f6f50j00smfaur0071d000ic00fup.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL62I">[xia.lzjiaodai.com)</p><p id="355AL62J">可以看出,上下文越长,训练越快。</p><p id="355AL62K">Reddit网友表示,「我很好奇它还能扩展到多大程度。如果它能在更长的上下文中大幅扩展,这意味着像o1这样的模型将会获得显著的训练速度优势」。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F68e9e1b1p00smfaut0015d000ic002wp.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL62M">[kuai.graecum.com)</p><p id="355AL62N">还有人表示,「下一代模型将会更高效、更智能」。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F9bf8fe53p00smfauu000zd000ic002fp.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL62P">[pan.o-kc.net)</p><p id="355AL62Q">nGPT全新架构,超球面上归一化毋庸置疑,Transformer架构是现代大模型的基础。</p><p id="355AL62R">不过,当前基于Transformer搭建的大模型都是计算密集型的,需要耗费大量的资源和时间。为了改进其训练稳定性、推理成本、上下文长度、鲁棒性等方面,AI科学家已进行了大量的修改尝试。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F3e23e9c0j00smfauv007pd000ic00p1p.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL62T">[wei.m999m.com)</p><p id="355AL62U">其中,最突出的发现是,归一化技术对于Transformer性能改善起着重要作用,比如LayerNorm和RMSNorm。另一种模型归一化方法是,通过权重衰减(weight decay)控制权重范数。</p><p id="355AL62V">不过,最新研究又对权重衰减的作用进行评估,并且转向更多地关注旋转,而非仅仅关注向量范数。</p><p id="355AL630">越来越多的证据表明,在超球面上进行表示学习与更稳定的训练、更大的嵌入空间可分离性以及在下游任务上的更好性能相关。</p><p id="355AL631">而且,还有新研究表明,Transformer隐式地执行梯度下降作为元优化器。</p><p id="355AL632">由此,英伟达团队提出了,在归一化Transformer新视角下,统一该领域的各种发现和观察。</p><p id="355AL633">这项研究的主要贡献在于:-<strong>在超球面上优化网络参数建</strong>议将形成网络矩阵嵌入维度的所有向量归一化,使其位于单位范数超球面上。这种方法将矩阵-向量乘法转化为余弦相似度的计算,其范围限定在 [-1,1] 之间。而且归一化消除了对权重衰减的需求。</p><p id="355AL634"><strong>- 归一化Transformer作为超球面上的可变度量优化器</strong>归一化Transformer本身在超球面上执行多步优化(每层两步),其中注意力和MLP更新的每一步,都由特征学习率控制——这些是可学习的可变度量矩阵的对角线元素。</p><p id="355AL635">对于输入序列中的每个token ,归一化Transformer的优化路径从超球面上对应于其输入嵌入向量的点开始,移动到超球面上最能预测下一个的嵌入向量的点。</p><p id="355AL636"><strong>- 更快的收敛</strong>研究证明,归一化Transformer将达到相同精度所需的训练步骤减少了4-20倍。</p><p id="355AL637">Transformer演变:从GPT到nGPT嵌<strong>入层归一化标</strong>准的decoder-only Transformer的训练目标是根据输入序列的前序tokens来预测后面的token,在token预测时,模型会引入两个可学习的嵌入矩阵Einput和Eoutput,分别用来从输入词转为词嵌入,以及从词嵌入转为预测输出。</p><p id="355AL638">在模型训练期间,通常使用对应嵌入向量的点积来计算token相似度,但嵌入向量的范数(norms)不受限制的,可能会导致相似性计算存在偏差。</p><p id="355AL639">为了提高相似性估计的准确性,研究人员在新架构中提出,在训练算法的每一步之后,对Einput和Eoutput中的嵌入向量进行归一化。</p><p id="355AL63A">智能体在预测文本中的下一个词时,会使用因果掩码(casual masking)来确保模型在预测token时不会「偷看」到之后的词,造成信息泄露,从而让模型能够同时预测多个词并计算预测误差,提高训练效率,同时保持了按顺序预测词的能力。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fff518affj00smfauy0085d000ic00brp.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL63C">[tian.23n2.com)</p><p id="355AL63D">在输入词序列后,模型会在预测序列中的每个位置都生成一个输出向量,然后计算出一个logits向量zi来表示词汇表中每个词出现的可能性,可以辅助模型理解不同词在当前上下文中的重要性:之后用softmax函数把zi转为概率值,并选取概率最高的词作为下一个词的预测。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fap00smfauz000td000do002ep.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL63F">[xia.abayak.com)</p><p id="355AL63G">由于nGPT的嵌入矩阵已经归一化了,所以zi的值范围为[−1,1],也会限制softmax后得到的概率分布的置信度,也可以叫做温度。</p><p id="355AL63H">为了在训练过程中调整置信度,nGPT又引入了一个可学习的缩放参数sz,通过逐元素地缩放logits,模型可以更灵活地预测的置信度,更好地学习到在不同情况下如何做出更准确的预测:</p><p id="355AL63I"><strong>层/块归一</strong>标准Transformer架构需要对隐藏层状态h进行L层变换,包括一个自注意力(ATTN)和多层感知机(MLP)。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F62f5c2b1p00smfav10015d000az0027p.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL63K">[wu.2yeh.com)</p><p id="355AL63L">其中RMSNorm也可以替换成其他归一化(normalization)函数。</p><p id="355AL63M">隐藏层的参数更新,其实就是在一个超平面上(维度为隐藏层的向量长度)寻找两个点(原参数和新参数)的最短距离。</p><p id="355AL63N">1985年,Shoemake提出了球面线性插值(SLERP,Spherical Linear Interpolation),可以沿着球面上两点之间的最短路径找到中间点,研究人员发现该方法还可以通过更简单的线性插值(LERP,linear interpolation)来得到近似解,从而降低计算量:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fe8bc2b4cp00smfav20018d000gk002sp.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL63P">[wei.intomech.com)</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fd5e3dc93p00smfav3000jd000ba001gp.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL63R">[wu.moddots.com)</p><p id="355AL63S">按最短路径寻找来说,参数更新过程可以描述为:其中a和b是球面上的两个点,对应到nGPT上,a也就是隐藏层状态,b是经过注意力机制或MLP块后的状态,梯度就是g=a-b,B为可变矩阵。</p><p id="355AL63T">在拟牛顿方法中,B可以近似于逆黑塞矩阵,当 B是一个对角线元素非负的对角矩阵时,αB就变成了一个向量,其元素对应于B的对角线元素乘以学习率α,也可以称之为特征学习率(eigen learning rates)。</p><p id="355AL63U">eigen源自德语词,意为「自己的」(own),可以指代Transformer 的内部结构。</p><p id="355AL63V">所以nGPT中的参数更新方程可以写为:</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Ffa804e86p00smfav4000zd000b9002dp.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL641">[wu.qpdbux.com)</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fc3eb6168p00smfav5000fd0007t000vp.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL643">[bu.yiantm.com)</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F58c05c1bp00smfav6000fd0007h000yp.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL645">[tian.wordrive.com)</p><p id="355AL646">其中αA 和 αM是可学习的参数,分别用于注意力和多层感知机(MLP)模块的归一化输出 hA和 hM与基础 Transformer 相比,在nGPT的最终层之后不需要再进行额外的归一化了。</p><p id="355AL647"><strong>自注意力块</strong>注意力机制可以说是Transformer中最重要的模块,序列中的每个token都能够关注到其他所有token,从而让模型具有捕捉长距离依赖关系的能力。</p><p id="355AL648">模型会把处理后的信息分解成三个部分:查询(q,query)、键(k,key)和值(v,value),可以辅助确定哪些信息是重要的,以及信息之间是如何相互关联的。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F976b2052p00smfav7000kd000bt001fp.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL64A">[wu.twettr.com)</p><p id="355AL64B">为了确保模型能够理解每个[is.share.jxakjk.com)词在序列中的位置,模型中通常还会在query和key向量之间加入旋转位[of.share.prorap.net)置嵌入(Rotary Position Embeddings,RoPE)[has.share.sil5.net)。</p><p id="355AL64C">然后通过计算query向量和key向量的点积、缩放、应用softma[has.share.mymp.net)x得到注意力权重,对value向量进行加权求和,得到注意力得分。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F2eaf6d95p00smfav8000yd000fu0029p.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL64E">[[is.share.funanas.com)tian.mssjkykbbbs.com)</p><p id="355AL64F">在实践中,Tra[did.share.zbtaicheng.com)nsformer一般都会用到多个注意力头,其中每个头的注意力机制都是独[of.share.re2you.com)立计算,最后再通过一个可学习的投影矩阵Wo合并所有头输出。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fdap00smfav9000nd000di001kp.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL64H">[b[inch.share.info-cr.com)u.73li.com)</p><p id="355AL64I">在计算注意力得分的过程中,权重矩阵没有受到[has.share.nraptis.com)太多限制,可能会导致最终得分过大或过小。</p><p id="355AL64J">在nGPT中,研究人[has.share.ninebotna.com)员对q向量和k向量进行归一化,还引入了一些可调整的参数(sqk),以确[has.share.zxhao.com)保权重矩阵在处理</p><p id="355AL64K">位置信息时不会失真,更准确地捕捉到句子中词与词之[for.share.returna.net)间的关系,从而做出更好的预测和决策。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2F21390d82p00smfavb000nd0006n0028p.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="355AL64M">[pan.895i.com)</p><p id="355AL64N"><strong>M[is.share.hlx998.com)LP块</strong></p><p id="355AL64O">在标准Transformer中,隐藏层收入通过RMSNorm进行归[is.share.kb4r.com)一化,然后经过两个线性投影生成中间向量(暂不考虑</p><p id="355AL64P">偏置项):[did.share.zhaodaogou.com)</p><p id="355AL64R">[xia.7zrg.com)</p><p id="355AL64S">然后使用SwiGLU 门控激活函数[our.share.mosvino.com),以及一个线性变换得到最终门控激活。</p><p id="355AL64U">[gong.ri-scom)</p><p id="355AL650">[[new.share.bngou.com)wu.weeklym.com)</p><p id="355AL651">在nGPT中,研究人员提出对线性投影的权[is.share.z5320.com)重矩阵进行归一化,并引入可学习的缩放因子,能够更充分地利用处理</p><p id="355AL652">信息时的非线性特性,在处理复杂信息时更加灵活。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1104%2Fec59bc57p00smfavf000gd0006t002ip.png&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p> 

讯享网
小讯
上一篇 2025-06-07 20:32
下一篇 2025-05-09 12:32

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/193727.html