本周国内外AI领域密集发布新品与技术突破:大模型方面,OpenAI、Google、阿里、MiniMax等相继推出多款大模型,覆盖轻量推理、语音、多模态等类型;AI Agent快速落地,多款办公、科研、浏览器等产品开放使用;AI创作与工具持续丰富,OpenClaw生态工具目录、视频、编程、漫剧生层等工具不断涌现,降低各类创作与开发门槛;技术层面,VLAW框架、OMNIXTREME框架、AReaL v1.0框架等开源,分别在机器人训练、人形机器人运动学习、强化学习训练等领域实现创新;市场层面,阿里Qwen核心成员离职引发行业关注、OpenClaw项目掀起产业变革,一起来回顾本周发生的AI新鲜事儿吧!
阿里通义实验室发布「Fun-CosyVoice3.5」和「Fun-AudioGen-VD」两款模型
3月2日,阿里通义实验室发布「Fun-CosyVoice3.5」和「Fun-AudioGen-VD」两款支持FreeStyle自然语言指令生成的语音模型,打破传统语音生成依赖预设标签的限制,前者主打多语种复刻与精细化表达控制,实现了自然语言表达控制、新增4个小语种、生僻字读错率大幅降低、韵律音质优化及延迟降低的升级,13种语言相关客观指标居业内领先;后者聚焦声音设计与场景化音频生成,可精细化控制声音和角色特征,还能模拟环境与空间声学打造沉浸式听觉场景,相关指标表现亮眼。两款模型让语音生成从功能工具升级为创作工具,能大幅降低影视动画等领域的创作成本、提升沉浸感,也让语音生成迈入自然语言控制表达的新阶段,声音创作不再受模板和标签限制。
Google DeepMind发布「Gemini 3.1 Flash-Lite」模型
3月4日,Google DeepMind发布「Gemini 3.1 Flash-Lite」模型,是Gemini 3系列中速度最快、性价比最高的版本,专为大规模开发者工作负载设计,其首Token响应和输出速度较2.5 Flash提升2.5倍,每秒输出Tokens数达389个、较2.5 Flash提升45%,多项基准测试成绩超越前代,定价远低于同类及前代模型,目前已向开发者和企业用户开放,标配可调节“思考深度”功能,能适配不同难度的AI任务,获外网网友好评,也为AI应用规模化落地提供了新方案。
OpenAI和Google同日推出轻量AI模型「GPT-5.3 Instant」与「Gemini 3.1 Flash-Lite」
3月4日,OpenAI和Google同日推出轻量AI模型「GPT-5.3 Instant」与「Gemini 3.1 Flash-Lite」,欲打破轻量模型的刻板印象。「GPT-5.3 Instant」全量开放、旧版将退役,主打低幻觉率、自然交互与优质内容创作;「Gemini 3.1 Flash-Lite」以预览版开放,兼具低价高速、可调节思考等级,适配内容审核等高实时性批量任务;两款模型的特性契合OpenClaw等AI代理需求,前者能减少其执行任务的错误、让生成内容更贴合真人习惯,后者则能满足其高频调用下对速度和成本的要求,也明晰了轻量模型人性化交互、高性价比效率的发展方向。
MiniMax稀宇科技为「MiniMax Music 2.5」新增纯音乐创作能力
3月4日,MiniMax稀宇科技为「MiniMax Music 2.5」新增纯音乐创作能力,打破此前以歌曲生成为核心的局限,该模型不仅支持古典管弦、极简主义等多元风格的纯音乐生成,覆盖冥想、助眠、影视配乐等多场景,单一模型可处理不同复杂度的音乐创作且风格切换无需额外调试,还具备出色的跨风格融合能力,能将不同风格自然融合而非简单拼贴,音频品质专业,对中国传统乐器的还原更是处于行业领先水平,目前用户可通过指定网址体验C端产品、对接API接口,还能加入AI筑乐师社**流创作。
YuanLab.ai团队开源发布万亿参数级多模态基础大模型「Yuan3.0 Ultra」
3月4日,YuanLab.ai团队开源发布万亿参数级多模态基础大模型「Yuan3.0 Ultra」,为全球仅有的三个万亿级开源多模态大模型之一,采用统一多模态架构与MoE语言主干网络,通过LAEP算法将参数从1515B优化至1010B,预训练算力效率提升49%,还引入LFA机制强化语义建模;该模型聚焦企业级应用,在多模态文档理解、检索增强生成、表格数据分析等任务的多项评测中领先同类模型,可支撑OpenClaw等智能体构建,其训练策略通过RIRM机制实现“更有效思考”,兼顾精度与计算效率,目前模型权重、代码等已全面开源,源Yuan3.0系列其他版本也将陆续发布。
OpenAI深夜发布旗舰模型「GPT-5.4」,推出多版本并全端上线、接入API与Codex
3月6日,OpenAI深夜发布旗舰模型「GPT-5.4」,推出GPT-5.4 Thinking、Pro版本及极速版GPT-5.4 fast,全端上线并接入API与Codex,该模型实现推理与编程的合流式跨越,是首个具备原生电脑使用能力的通用模型,可像人类一样操控键鼠、操作软件网页,相关测试成功率75%超人类和同类模型,还升级了视觉感知与文档解析能力,支持超高像素图像输入;在多项权威测试中成绩拔尖,媲美人类专家,幻觉率大幅下降,还完整继承编程能力,Token效率创OpenAI新高,引入工具搜索功能让Token使用量减少47%,工具调用、网络搜索能力也大幅升级,且GPT-5.4 Thinking支持思考中途介入调整方向,该模型定价高于前代。
微软开源15B参数的多模态推理模型「Phi-4-reasoning-vision-15B」
3月6日,微软开源15B参数的多模态推理模型「Phi-4-reasoning-vision-15B」,延续Phi系列小模型路线,由Phi-4-Reasoning语言模型和SigLIP-2视觉编码器组成,采用Mid-Fusion多模态架构、动态分辨率视觉编码和混合推理机制,经2000亿token高质量数据训练,强化了视觉理解、文档图表解析、数学科学推理等核心能力,能实现图像与文本联合推理,兼顾推理能力与效率,可应用于教育辅助、智能办公、GUI自动化等场景,相关项目官网、代码及技术报告等均已开放。
通义实验室宣布开源升级后的个人AI助理「CoPaw」
2月28日,通义实验室AgentScope团队开源升级后的个人AI助理「CoPaw」,采用Apache 2.0协议支持免费商用,支持本地与云端部署,能对接多款聊天软件,此次升级聚焦易用性、本地部署等四大方向,实现了模型管理、记忆系统、Agent架构、Channels频道四大模块的优化,支持多类本地与云端模型灵活接入、轻量使用记忆功能,还完成了Agent架构模块化重构和频道架构系统性升级,提供简易的本地安装方式及纯本地模式,团队还规划了多模态交互等后续开发方向,邀开发者共建生态。
上智院联合复旦大学升级星河启智科学智能开放平台,推出高能动性科研智能体「大圣」
3月1日,上智院联合复旦大学升级星河启智科学智能开放平台,推出高能动性科研智能体「大圣」,以“神珍”多模态模型为核心,具备任务拆解、多智能体协作、群体记忆、科研安全防护等能力,还实现“上天入体”科学全域闭环,多项能力达业界前沿。发布会同步启动第四届世界科学智能大赛相关挑战赛,上智院还发起科学智能“加速营”,并与多家企业机构签约合作,共同繁荣科学智能生态、推动成果转化。
阿里「QoderWork」全面开放,双端智能体助力高效办公
3月3日,阿里桌面Agent「QoderWork」全面开放,提供Mac和Windows双版本,用户可从官网直接下载、免额外部署使用;该产品集成全球顶尖模型与Agent框架,将Agent能力从代码领域拓展至日常工作场景,支持自然语言对话完成各类办公任务,还推出标准和旗舰两档模型分级选择器以适配不同需求、降低使用成本,配备预制沙盒环境保障数据隐私,上线涵盖多类垂直场景的技能广场,支持一键安装;能自主理解复杂任务并拆解执行、反馈进展,上线一个月已助力各行业用户提升生产力。
光年之外团队推出首款AI浏览器「Tabbit AI」并开启公测
3月3日,光年之外团队推出首款AI浏览器「Tabbit AI」并开启公测,集浏览、搜索、对话、执行于一体,将AI能力与浏览器深度融合,通过智能代理、沉浸式AI对话、智能标签管理和新一代收藏夹等功能,试图重塑用户处理网络信息的方式。该浏览器摒弃传统“页面加载+人工操作”模式,首创“智能代理后台自治”架构:用户仅需自然语言下达任务指令,即可自动打开多平台、提取结构化数据、跨域流转信息、生成可视化报表,全程无需用户干预。
Google旗下NotebookLM Studio推出全新的「电影级视频概览」功能
3月5日,Google旗下NotebookLM Studio推出全新的「电影级视频概览」功能,由Google多款先进模型组合赋能,区别于市面套用标准模板的同类AI视频工具,能深度理解上传的科研文献、实验数据和笔记等学术源资料,一键生成量身定制的好莱坞级别沉浸式视频,激活成功教程科研内容表达和理解的难题,目前该功能仅向英文区的Ultra用户推出。
OpenClaw工具榜「OpenClaw Directory」出炉39款生态工具上线附全阶教程
3月2日,第三方搭建的OpenClaw生态工具目录网站「OpenClaw Directory」获专业社区认可,该网站收录39款OpenClaw相关工具并按功能精细化分类,支持多标签筛选与多种方式排序,还为各工具标注关键信息助力用户选型;其公布的综合总榜前六的热门工具各有特色,涵盖简化部署管理、极速一键部署、预制智能体配置、本地瞬时运行、一站式部署服务、简化封装上线等不同功能,且网站还设有Blog板块,提供从入门到进阶的保姆级OpenClaw教程与指南,而随着OpenClaw的爆火,相关的上门部署安装服务也随之出现,成为新的相关业态。
Anthropic为旗下命令行AI编程工具Claude Code上线「语音写代码」模式
3月3日,Anthropic为旗下命令行AI编程工具Claude Code上线「语音写代码」模式,现灰度开放5%用户,输入/voice,长按空格说话,松开即完成输入,语音转录内容能实时流入光标位置,和键盘无缝切换,转录Token完全免费。该功能在bug调试、架构讨论等场景优势明显,但对精准代码识别仍有短板,**使用方式是自然语言用语音、精确代码用打字。同期OpenAI的Codex也推出同类功能,二者印证编程工具竞争已转向自然交互,而此前社区已有相关第三方工具,官方功能进一步降低了语音编程门槛,未来编程将融合语音、键盘等多种输入形式,程序员角色也将向编程导演转变。
7.4K Star开源工具「waoowaoo」:AI一键将小说剧本生成完整漫剧视频
3月4日,开源AI漫剧一站式生成工具「waoowaoo」在GitHub迅速走红,短短数日斩获7.4K Star,它是由单开发者打造的工业级全流程AI影视生产平台,能将小说或剧本文本通过AI驱动流程自动转化为含画面、配音的完整视频,核心具备AI剧本分析、角色与场景生成、分镜视频制作、AI配音等功能,还支持中英文双语界面,采用Docker Compose一键部署且技术栈先进,解决了AI生成内容中角色形象不一致的行业难题,实现全流程自动化、低门槛易用的核心亮点,可应用于个人创作、小型内容工作室、教育知识传播、多语言内容创作等场景。
全网首发端到端AI视频导演Agent系统「Zopia」
3月5日,全网首发端到端AI视频导演Agent系统「Zopia」,采用多Agent协作模式,可根据用户输入创意或上传剧本,一键完成从脚本、分镜、角色、场景到成片的全流程制作,可生成AI真人短剧、广告、MV、动漫、科普视频等多类视频,兼容Nano Banana Pro、MJ、GPT等多款图片模型以及wan、可灵、海螺等视频模型,支持参数配置与编辑,生成后可直接下载。
清华陈建宇团队与斯坦福Chelsea Finn团队基于Ctrl-World联合提出「VLAW」框架
2月28日,清华陈建宇团队与斯坦福Chelsea Finn团队基于Ctrl-World联合提出「VLAW」框架,首次实现VLA策略与动作条件世界模型的协同迭代优化,通过真实数据校准世界模型、优化后的模型生成虚拟数据反哺VLA策略的双向闭环,解决了现有世界模型物理保真度低、过度乐观的问题,大幅提升了机器人在复杂物理交互任务中的策略成功率,为世界模型实用化及通用机器人训练奠定了关键基础。
北京通用人工智能研究院、宇树等多家机构联合发布并开源「OMNIXTREME」框架
3月3日,北京通用人工智能研究院、宇树、上海交大和中国科大等机构联合发布并开源「OMNIXTREME」框架,激活成功教程了人形机器人运动学习的“保真度与可扩展性权衡”难题,还解决了仿真学习和物理可执行性两大瓶颈。该框架采用预训练、后训练、机载部署三阶段训练架构,通过流匹配策略聚合运动先验,结合物理约束优化残差策略,让策略与真实硬件高度对齐;该框架在宇树G1机器人上真机部署表现优异,24种高动态运动整体成功率91.08%,后空翻成功率超96%,推理延迟仅10毫秒,模拟测试效果也远超传统方法。该框架为人形机器人灵巧运动发展提供了实践路径,研究团队未来还将融入高保真执行器特性,进一步缩小仿真与现实的差距。
蚂蚁集团与清华大学联合开源全异步强化学习框架「AReaL v1.0」
3月4日,蚂蚁集团与清华大学联合开源全异步强化学习框架「AReaL v1.0」,实现了Agent一键接入RL训练,兼容任意Agent框架且无需改动原有代码,仅需简单配置即可完成对接,还能让Agent在运行中实现无感进化;该框架依托全异步训练和代理网关两大核心架构设计,解耦训练与推理并实现标准化接入,同时通过前缀树序列打包方案大幅提升训练性能、降低显存占用;此外,「AReaL v1.0」还推出了支持5D并行的PyTorch原生训练引擎Archon,能实现千亿MoE模型端到端训练,而这一引擎的快速落地得益于框架集成的系统化AI辅助开发体系,该体系也重构了软件工程角色分工,降低了开发门槛。
阿里Qwen技术总负责人正式离职,阿里CEO明确坚持开源策略
3月5日,阿里巴巴通过内部邮件确认通义实验室核心成员、千问大模型系列技术总负责人林俊旸正式离职。此次变动极具戏剧性:3月3日晚,其团队发布性能显著提升的Qwen3.5小模型系列,获马斯克在X平台公开点赞;3月4日凌晨,林俊旸即发文“再见我亲爱的千问”宣告卸任,随后后训负责人也跟进离职,3月5日阿里完成流程确认。阿里CEO吴泳铭随即回应,明确坚持开源策略、加大AI研发投入,还成立专项小组支持基础模型建设,由前Google Gemini的周浩接手相关工作,不过开源社区对其能力持保留态度。林俊旸入职阿里后主导多款核心模型研发,此次离职折射出大厂开源与商业化的矛盾、AI行业人才竞争的白热化,其后续去向尚未确定。
2026开年爆火的开源项目「OpenClaw」仅60天便掀起中国AI产业变革
3月3日消息,2026开年爆火的「OpenClaw」开源项目,仅60天便掀起中国AI产业变革,其核心是以视觉识别实现屏幕层直接操作,打破传统Agent依赖API的落地困境,推动中国AI智能体迈入跨体系协同时代。国内互联网巨头、模型厂商、硬件厂商等全产业链玩家纷纷跟进,字节、阿里、腾讯等大厂也已在云平台上线OpenClaw服务,月之暗面、MiniMax等模型企业推出适配方案,RPA、SaaS厂商也开启自我革命适配这一趋势,形成全产业链集体进化格局。虽然该项目仍面临执行效率低、成本高、安全风险大等商业化落地难题,且绕开API的操作方式还引发与平台间的利益博弈,但为中国企业数字化转型提供了全新思路,推动AI Agent从技术demo向实际产品转化,成为行业范式转移的导火索。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/230554.html