<p><blockquote id="357D6TOR">梦晨 发自 凹非寺<br/>量子位 | 公众号 QbitAI<br/></blockquote></p><p id="357D6TN7">复刻OpenAI o1<strong>推理大模型</strong>,开源界传来最新进展:</p><p id="357D6TN8"><strong>LLaMA版o1</strong>项目刚刚发布,来自<strong>上海AI Lab</strong>团队。</p><p id="357D6TN9">简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Ffe458ec8j00smgsre0022d000hs00jhm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TNB">在2024年6月,o1发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力,积累了一些关注。</p><p id="357D6TNC">这次最新开源代码,也在开发者社区引起热议。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2F67db279fj00smgsre001dd000hs00dam.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TNE">OpenAI o1系列发布后,团队开始升级算法,专注于数学奥赛问题,作为OpenAI草莓项目的开源版本。</p><p id="357D6TNF">10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力。</p><p id="357D6TNG">在最难的AIME2024基准测试30道题中,原版LLaMA-3.1-8B-Instruct做对2道,优化后做对8道,超过了除o1-preview和o1-mini之外的其他商业闭源方案。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2F2c83d627j00smgsre001td000hs00atm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TNI">10月底,团队宣布在<strong>基于AlphaGo Zero架构</strong>复刻OpenAI o1的努力中取得了重大进展:</p><p><blockquote id="357D6TOS">已成功使模型在学习过程中通过与搜索树交互获得高级思维能力,<strong>无需人工标注</strong>。<br/></blockquote></p><p id="357D6TNK">不到一周时间,项目便开源了。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fd9a753a4j00smgsre0017d000hs00cqm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TNM">LLaMA版o1最新进展</p><p id="357D6TNN">目前已开源内容包括:<strong>预训练数据集、 预训练模型、强化学习训练代码</strong>。</p><p id="357D6TNO">OpenLongCoT-Pretrain数据集,包含10万+条长思维链数据。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fc19aed4fj00smgsre000dd000hs004ym.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TNQ">每条数据包含一个完整的数学问题推理过程,包含思考内容和评分结果。</p><p id="357D6TNR">例如一个几何问题,包含了问题描述、图形坐标、计算过程和结论推导等完整的推理链路,以及对各个推理步骤的批评和验证内容,对推理过程进行评价和指导。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fd5baa5b8j00smgsre001md000hs008km.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TNT">在此数据集继续预训练后,模型可读取和输出类似o1的长思维链过程。</p><p id="357D6TNU"><strong>预训练代码尚未发布</strong>,目前推荐使用LLaMaFactory代替。</p><p id="357D6TNV">有意思的是虽然项目名为LLaMA-O1,但目前官方给的预训练模型基于谷歌Gemma 2。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fb4b13fbcj00smgsre000dd000hs0058m.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TO1">目前在预训练模型基础上,可以继续进行强化学习训练,从代码中可以看出训练过程如下:</p><p><ul><li id="357D6TOJ">使用蒙特卡洛树搜索进行自我对弈(self-play)以生成经验</li><li id="357D6TOK">将经验存储在优先经验回放缓冲区中</li><li id="357D6TOL">从缓冲区采样批次数据进行训练</li><li id="357D6TOM">更新模型参数和经验优先级</li></ul></p><p id="357D6TO2">论文中也给出了训练过程的图示。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2F0a3b5ff4j00smgsre000pd000hs008zm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fb6e239a4j00smgsre000md000hs007lm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TO6">同时训练代码中使用了以下关键技术点:</p><p><ul><li id="357D6TON">使用LoRA进行参数高效微调</li><li id="357D6TOO">使用PPO算法作为策略优化方法</li><li id="357D6TOP">实现了GAE(Generalized Advantage Estimation)算法用于计算优势函数</li><li id="357D6TOQ">使用优先经验回放提高训练效率</li></ul></p><p id="357D6TO7">最后,LLaMA-O1代码发布在名为<strong>SimpleBerry</strong>的GitHub账号下,并没有特别简介,还比较神秘。</p><p id="357D6TO8">其他与SimpleBerry有关的账号和官网中,只能看出性质是一个研究实验室,也并未透露更多研究方向信息。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Fc9j00smgsre000fd000hs0057m.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TOA">其他o1复刻项目进展</p><p id="357D6TOB">除LLaMA-O1之外,另一个公开进展的o1复刻项目<strong>O1-Journey</strong>来自<strong>上交大</strong>团队。</p><p id="357D6TOC">团队在十月初发布了第一份进展报告,其中介绍了创新Journey Learning范式,以及第一个成功将搜索和学习整合到数学推理中的模型。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2Feb94ddfbj00smgsre001cd000hs009nm.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TOE">O1-Journey核心开发团队主要由上交大大三、大四本科生,以及上交大GAIR实验室(生成式人工智能研究实验室)的一年级博士生组成。</p><p id="357D6TOF">指导教师包括上交大副教授刘鹏飞,姚班校友、斯隆奖得主李远志等。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1105%2F8fa31883j00smgsre000xd000hs009ym.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="357D6TOH">LLaMA-O1:<br/>https://github.com/SimpleBerry/LLaMA-O1<br/>相关论文:<br/>https://arxiv.org/abs/2406.07394<br/>https://arxiv.org/abs/2410.02884</p><p id="357D6TOI">O1-Journey:<br/>https://github.com/GAIR-NLP/O1-Journey/</p>
讯享网

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/174592.html