ewma模型怎么读(ewma模型和garch)

ewma模型怎么读(ewma模型和garch)svg xmlns http www w3 org 2000 svg style display none svg

大家好,我是讯享网,很高兴认识大家。



 <svg xmlns="http://www.w3.org/2000/svg" style="display: none;"> <path stroke-linecap="round" d="M5,0 0,2.5 5,5z" id="raphael-marker-block" style="-webkit-tap-highlight-color: rgba(0, 0, 0, 0);"></path> </svg> 

讯享网

LLaMA(Large Language Model Meta AI)是由Meta开发的一种大规模语言模型,旨在提高自然语言处理任务的性能。LLaMA基于Transformer机构,并经过大规模数据训练,以便在多种语言任务中表现出色。
LLaMA所采用的Transformer结构和细节,与标准的Transformer结构不同的地方是包括了采用前置层归一化(Pre-normalization)并使用RMSNorm归一化函数(Normalizing Function)、激活函数更换为了SwiGLU,并使用了旋转位置嵌入(RoPE),整体Transformer架构与GPT-2类似。
在这里插入图片描述
讯享网

为了使得模型训练的过程更加稳定,GPT-2相较于GPT就引入了前置层归一化方法,将第一个归一化移动到了多头注意力层之前,第二个归一化也移动到了全连接层之前,同时残差链接的位置也调整到了多头注意力层与全连接层之后。归一化中也采用了RMSNorm归一化函数。针对输入向量RNSNorm函数的计算公式如下:
在这里插入图片描述
代码实现如下:

讯享网

SwiGLU激活函数是相较于ReLU函数在大部分测评中都有不少的提升。在LLaMA中全连接层使用带有SwiGLU激活函数的FFN(Position-wise Feef-Forward Network)计算公式如下:
在这里插入图片描述
其中Swish函数是Sigmoid函数。当取不同的β时,激活函数的图像如下图所示。当β趋近于0时,Swish函数趋近于线性函数y=x;当β趋近于无穷大时,Swish函数趋近于ReLU函数。
在这里插入图片描述
LLaMA中直接将FFN中的ReLU替换为SwiGLU,并将维度放缩为(2/3)*4d
在这里插入图片描述

在位置编码上,使用旋转位置嵌(Rotary Positional Embeddings, RoPE)入代替原来的绝对位置编码。RoPE 借助了 复数的思想,出发点是通过绝对位置编码的方式实现相对位置编码。其目标是通过q,k添加绝对位置信息:
在这里插入图片描述
在这里插入图片描述

 

Alpaca是在LLaMA基础上使用52K指令数据精调的预训练模型;

第一步:构造175条self-instruct种子示例任务;
第二步:基于上述种子任务,利用text-davinci-003爬取指令数据;
第三步:使用爬取下来的52k指令数据在LLaMA 进行精调,最终得到Alpaca;
在这里插入图片描述

讯享网
  • instruction:描述模型需要执行的指令内容;
  • input:任务上下文或输入信息,例如当指令是“对文章进行总结”,则input是文章内容;
  • output:由text-davinci-003生成的针对指令的回复;
    在这里插入图片描述

2023年7月,meta推出了LLaMA-2开源大模型,并推出了LLaMA-2-chat对话模型;

与上一代LLaMA主要区别体现在更多的训练数据、更长的上下文窗口、GQA技术等;
在这里插入图片描述
结构上的变动主要体现在GQA和FFN缩放上:

  • MHA改成GQA:整体参数量会有减少;
  • FFN模块矩阵维度由扩充:增强泛化能力,整体参数量增加;
  • 上下文长度时是LLaMA两倍:训练语料增加约40%,体现在1.4T-&gt;2.0T的okens llama2-34B和llama2-70B使用了GQA,加速模型训练和推理速度;

GQA和MQA都是注意力的变体,其中多个查询头关注相同的键和值头,以减少推理过程中 KV 缓存的大小,并可以显著提高推理吞吐量。

MHA、GQA、MQA的区别和联系,具体的优点如下:

  • Mutil-Head Attention 因为自回归模型生成回答时,需要前面生成的KV缓存起来,来加速计算。
  • Multi-Query Attention 多个头之间可以共享KV对,因此速度上非常有优势,实验验证大约减少30-40%吞吐。
  • Group Query Attention 没有像MQA那么极端,将query分组,组内共享KV,效果接近MQA,速度上与MQA可比较。
    在这里插入图片描述
    Llama-2中使用了8个KV映射,即GQA-8,GQA在多数任务上与MHA效果相当,且平均效果优于MQA;GQA和MQA均比MHA有更好的吞吐量;

LLaMA

  • 开源大模型繁荣发展的开端,一系列相关工作均基于LLaMA开展;
  • 模型规模7B、13B、33B、65B满足了开发者和研究者的不同需求;

Alpaca:通过少量的指令精调赋予LLaMA指令理解与执行的能力

Llama-2

  • LLaMA的二代模型,相关模型性能进一步提升,模型可商用
  • 推出官方对⻬的Chat版本模型,采用了完整的RLHF链条;

Code Llama:专注于代码能力的LLaMA模型,最好的模型代码能力接近GPT-4效果,模型可商用

小讯
上一篇 2025-05-11 22:53
下一篇 2025-04-18 08:33

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/198529.html