<p><strong>豆包天团全面进化!</strong></p><p><strong> 欣鱼 | 作者</strong></p><p><strong>AI真探社 | 出品</strong></p><p>未来学家凯文·凯利曾说,技术是人类的延伸,如相机和望远镜是眼睛的延伸,但技术延伸的不是基因,而是人的心智。</p><p>当下,AI大模型的进化就将这一论断体现得淋漓尽致。2025年已过半,大模型从过去仅能对信息进行感知、处理和生成,逐步成长到拥有思考、规划、行动和反思等能力。拿风靡全网的豆包来说,已融入不同年龄段、不同职业背景用户的工作与生活。</p><p>教师用豆包生成定制课,程序员靠它调试代码,学前班的孩子听豆包讲睡前故事,老人用语音与豆包聊天、让豆包教自己用手机……</p><p>如今,豆包大模型再次升级:6月11日,2025火山引擎春季FORCE原动力大会上,火山引擎正式发布豆包大模型1.6、豆包·视频生成模型 Seedance 1.0 pro、豆包·语音播客模型,豆包·实时语音模型在火山引擎全量上线,豆包大模型家族已成为拥有全模态、全尺寸、高性价比的领先模型。</p><p>其中,豆包大模型1.6具有更强的模型效果,在众多权威测评集上,得分均属于国际第一梯队。在推理能力、多模态理解能力、GUI 操作能力上具备领先优势:</p><p>同时,豆包大模型1.6具有边想边搜、DeepResearch 深度研究能力,能独立思考、规划、使用搜索等各种研究工具,有望通过智能体与大模型的结合,进一步帮助人们从这些枯燥繁琐的手工操作任务中解脱出来。</p><p>并且更惊喜的是,这次的豆包大模型1.6采用统一定价模式,首创按“输入长度”区间定价,在企业使用最多的输入区间0-32K 范围内,豆包大模型1.6的价格为输入0.8元/百万 tokens、输出8元/百万 tokens,综合成本比豆包1.5·深度思考模型、DeepSeek R1降低63%。Seedance 1.0 pro 模型每千 tokens 0.015元,相当于每生成一条5秒的1080P 视频只需3.67元,行业最低,这让一众豆包爱好者狂喜。那具体体验如何呢,快跟我们来火山方舟试试吧!</p><p><strong>01</strong></p><p><strong>豆包大模型1.6 测评:推理能力显著提升,“数学冠军”实至名归!</strong></p><p>先来看配置,全新发布的豆包大模型1.6系列由三个模型组成,包括“标准版”、深度思考版和极速版。</p><p>其中,doubao-seed-1.6是All-in-One 的综合模型,是国内首个支持256K 上下文的思考模型,支持深度思考、多模态理解、图形界面操作等多项能力;doubao-seed-1.6-thinking是豆包大模型1.6系列在深度思考方面的强化版本;而doubao-seed-1.6-flash豆包大模型1.6系列的极速版本,支持深度思考、多模态理解,延迟极低。</p><p>首先引起我们关注的是推理能力,正如人类社会的“学好数理化,走遍天下都不怕”,在大模型领域,得推理者得天下!而此次,豆包大模型1.6在推理速度、准确度与稳定性上显著提升,可支撑更复杂的业务场景落地。例如,有媒体针对今年的高考全国新一卷数学单科做了测评,豆包的成绩是144分,全国第一:</p><p>正好,高考结束了,很多即将开启大学生涯的考生在报道前,一定需要一个规划助手,看看聪明的豆包能不能胜任!</p><p>我们打开doubao-seed-1.6,输入指令<strong>“</strong>我是一个来自的高三学生,刚收到北京大学录取通知书,帮我列一份准备入学的清单,包括:衣物、生活用品(适应北方秋冬);适合送给室友的伴手礼(本地特色);报到流程及注意事项(参考北大官网)”。</p><p>可见doubao-seed-1.6有条不紊地执行,先拆解问题找到关键信息点,然后边想边搜,get到“参考北大官网”等关键词,进行多轮搜索,最后给出了清晰的清单、报到流程及注意事项,完全是妈妈级别的:</p><p>在我看来,豆包1.6的“有条不紊”背后,是对问题本质的多维度理解。它不仅仅“回答”,更在“思考”。它会拆解“衣物”背后蕴含的是气候适应性问题;理解“伴手礼”隐含了社交融入的期待;明白“报到流程”需要的是权威指引和实操细节,这种代入式、情境化的思考,人味儿满满。</p><p>不止于此,它不依赖单一的、可能过时的知识库,更懂得主动、精准地去权威源头抓取最新、最可靠的动态信息,让用户不必再在信息的海洋中自行检索,大大减轻了信息搜寻的时间成本和信任焦虑。这种妈妈级别的护航,为无数站在人生关键节点的年轻人,注入了一份底气与安心,让初入江湖的大学生少几分慌乱,多一些从容和温暖~</p><p>而对于打工牛马来说,日常做得最多的莫过于公司调研。那么,豆包大模型能不能代劳呢?</p><p>打开doubao-seed-1.6-thinking<strong>,</strong>让其帮我分析泡泡玛特的商业模式和2024年财务表现,输出一篇1500字左右的行业研究报告,包含结构化摘要,并生成一个可分享的网页摘要版本:</p><p>可见,具备深度思考能力的doubao-seed-1.6-thinking在明确报告结构后,对复杂问题进行深度研究,最终给出一份精致的报告,“摘要、引言、商业模式分析、表现、行业竞争力分析、挑战与展望、结论”井井有条。</p><p>在AI真探社看来,doubao-seed-1.6-thinking令人印象深刻之处,在于其结构化思考的本能。它并非简单堆砌搜索结果,而是在明确报告结构后,对复杂问题进行深度研究。</p><p>同时,它能理解“商业模式”需要拆解分析IP、供应链、社群营销等维度;“财务表现”需对比核心指标;还有进行产业链延伸……这大幅降低了获取深度、结构化专业知识的门槛,把职场人从信息苦役中解放出来,让精力聚焦于更核心的思考与决策。</p><p>一言以蔽之,信息爆炸的时代,获取碎片化信息易,提炼深度洞察难;拼凑模板报告易,产出有价值分析难。相较于胡乱搜集资料进行交差的实习生,豆包大模型妥妥是主管级别的!当然这才仅仅是开胃小菜,多模态、GUI能力才是大招。</p><p><strong>02</strong></p><p><strong>从“认识世界”到改造世界,多模态、GUI能力让豆包知行合一</strong></p><p>为什么多模态理解在大模型竞技领域十分重要?这是因为,多模态的核心是“让模型像人一样理解世界”,通过整合文本的逻辑、图像的直观、视频的动态,整合了人类所有感官的认知逻辑,从“单感官工具”跃升为“综合感官中枢”,战斗力立马就上去了。</p><p>而豆包大模型1.6全系列均原生支持多模态思考能力,让模型可以理解和处理真实世界的问题。该能力不仅支持了豆包 APP 最新的实时视频通话功能,还在企业端可广泛应用,在电商商品审核、自动驾驶标注、安全巡检等场景大放异彩。</p><p>比如,电商商家很头痛的一个问题就是图片审核要求太多,例如不能有水印、阴影、文字、P图痕迹等,人工审核耗时且低效,这时,大模型自动审核就派上用场了。</p><p>上传图片,请豆包大模型1.6帮我审核商品图,判断是否存在违规情况:如明显水印、PS痕迹(如过度磨皮)、插入文字或遮挡原图、并输出审核意见和理由!</p><p>可见豆包详细分析了这些图片,并且给出了准确判断结果,例如:“第一张图片上有ABCD水印不合格”,准确又高效:</p><p>这让人感慨,多模态加持下,AI真正开始理解我们所处的世界,并以可解释、可行动的智慧,守护着产业中每一位辛苦付出的“人”,为真实世界的运行注入一股值得信赖的暖流与韧性。</p><p>比如,在汽车行业中,多模态理解在自动驾驶数据标注、保险风控、驾驶培训有很多应用,比如在自动驾驶数据标注场景中;而在线下场景中,多模态理解在安全巡检、门店巡检、物流巡检中有很强的应用潜力。</p><p>以安全巡检为例,豆包1.6能准确对图片中的信息进行定位和计数,如果无人机增加了这个能力,就可以协助人们在矿山安全检测、森林火灾定位等方面发挥作用。在工地,商城,后厨等场景,模型也能进一步帮助完善规范管理:</p><p>下面,再来看让豆包“动手”能力飞升的GUI。说到动手,就不得不说到今年三月,爆火的“全球首款通用智能体产品”——Manus,给Manus一个简单的指令,它就能自动完成复杂的任务,这背后是行业正完成从“知”到“行”的进化。若说ChatGPT掀起了认知革命,那么如今行业掀起的是操作革命。</p><p>过去大模型困在聊天框里,如今它长出“手和脚”,可以实现点击按钮、拖拽素材等物理交互,这是大模型从“大脑”进化为“躯体”的关键一跃。</p><p>豆包1.6的GUI能力就是最好的体现。比如,我们挑选酒店时有偏好,希望住的酒店是有健身房和浴缸的,在过去,只能靠我自己翻找酒店的房间照片来确认。而通过豆包1.6,不仅可以自动操作软件进行酒店预订,而且可以帮我翻看酒店照片,识别是否有浴缸,省了非常多的功夫:</p><p>再比如,豆包大模型还能帮人整理旅行过程中的很多工作,比如是统计旅行花费,可以让Agent调用豆包APP,自动上传小票,用多模态能力识别购物小票中的消费城市,消费金额信息,换算成人民币,再自动整理到Excel表格中:</p><p>在AI真探社看来,GUI操作系统能力,意味着豆包大模型1.6能更好地“改造世界”,直接外化了人类的思维链条,延伸了从意图到执行的完整心智回路,智能体执行、接管下,用户从操作者变为指令者,只管下任务、监督结果,苦活累活豆包来做!</p><p>多管齐下,当大模型学会理解世界并丝滑改造世界,AI奇点时刻或将提前到来!</p><p><strong>03</strong></p><p><strong>豆包·视频生成模型Seedance 1.0 pro发布,豆包天团全面进化!</strong></p><p>再来看自媒体人翘首以盼的豆包·视频生成模型Seedance 1.0 pro!据介绍,它具备三大特性:无缝多镜头叙事、多动作及随心运镜、稳定运动与真实美感,在电商、影视、游戏等行业应用前景广阔。Seedance 1.0 pro已于发布当天在火山方舟和豆包APP上线了。</p><p>同时,根据第三方权威榜单 Artificial Analysis 最新结果,Seedance 1.0 pro 在文生视频、图生视频两个维度都超越了业界诸多主流模型,登顶全球竞技场第一:</p><p>真的有这么厉害嘛?我们来看一段生成结果:</p><p>结果可见,整体质量很好从全景到近景到特写的组接方式符合电影逻辑跳切,镜头成组流畅,三个画面动作衔接自然无穿帮。从固定镜头到斯坦尼康运镜的切换也很自然,画面构图饱满无越轴。同时布光痕迹明显,明暗对比强烈。这种无缝多镜头叙事与精细指令遵循能力、稳定运动与美感,使得这短短五秒的视频充满了电影感。</p><p>这让人感慨,时代真的变了,传统视频制作中,想“讲好一个故事”,尤其是需要多镜头、复杂运镜、连贯叙事的作品,往往意味着高昂成本、庞大团队和漫长周期,一个简单的“剑士离家多镜头组接”,从分镜设计、场地协调、设备架设、演员调度到后期剪辑,层层叠加的物理限制和人力消耗,让个人创作者和小团队望而却步,灵感的火花常常熄灭在执行的现实中。</p><p>而豆包·视频生成模型的无缝多镜头叙事与随心运镜能力,如同为想象力插上了飞翔的翅膀。它能够自动理解并实现符合电影逻辑的镜头组接,完成精细的跳切和视角转换。</p><p>在AI真探社看来,这本质上是将抽象的叙事意图,直接转化为具象的视听语言流,跨越了物理执行的鸿沟,让个人灵感得以低成本、高效率地“可视化”为连贯流畅的影像叙事,彻底释放了小型工作室和独立创作者的表达潜能。</p><p>从豆包1.6到豆包·视频生成模型,无一不展示了强大的技术力和易用性,也难怪豆包家族一直获得广大用户青睐。去年12月,豆包大模型的日均tokens调用量是4万亿。而截至今年5月底,这个数字已经超过了16.4万亿,相比豆包大模型刚发布时,在一年时间里,实现了超过137倍的高速增长。</p><p>当下,豆包大模型已不仅是工具,与用户高效协作,实现全民级心智延伸,帮助用户解决一个又一个麻烦、完成一项又一项任务。 放眼未来,人机的边界在消融,协作的暖流在交汇,创造的能量被放大,豆包大模型能力升级有望为 Agent 发展持续打开天花板,2025年极有可能是Agent应用爆发的元年。</p><p>站在浪潮之巅,无论是个人还是企业用户,都应该加速拥抱Agent,开门与否已非选择,而是生存必答题。</p>
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/216324.html