2026年MIAOYUN ｜每周AI新鲜事儿 260306

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

本周国内外AI领域密集发布新品与技术突破：大模型方面，OpenAI、Google、阿里、MiniMax等相继推出多款大模型，覆盖轻量推理、语音、多模态等类型；AI Agent快速落地，多款办公、科研、浏览器等产品开放使用；AI创作与工具持续丰富，OpenClaw生态工具目录、视频、编程、漫剧生层等工具不断涌现，降低各类创作与开发门槛；技术层面，VLAW框架、OMNIXTREME框架、AReaL v1.0框架等开源，分别在机器人训练、人形机器人运动学习、强化学习训练等领域实现创新；市场层面，阿里Qwen核心成员离职引发行业关注、OpenClaw项目掀起产业变革，一起来回顾本周发生的AI新鲜事儿吧！

阿里通义实验室发布「Fun-CosyVoice3.5」和「Fun-AudioGen-VD」两款模型

3月2日，阿里通义实验室发布「Fun-CosyVoice3.5」和「Fun-AudioGen-VD」两款支持FreeStyle自然语言指令生成的语音模型，打破传统语音生成依赖预设标签的限制，前者主打多语种复刻与精细化表达控制，实现了自然语言表达控制、新增4个小语种、生僻字读错率大幅降低、韵律音质优化及延迟降低的升级，13种语言相关客观指标居业内领先；后者聚焦声音设计与场景化音频生成，可精细化控制声音和角色特征，还能模拟环境与空间声学打造沉浸式听觉场景，相关指标表现亮眼。两款模型让语音生成从功能工具升级为创作工具，能大幅降低影视动画等领域的创作成本、提升沉浸感，也让语音生成迈入自然语言控制表达的新阶段，声音创作不再受模板和标签限制。

‍Google DeepMind发布「Gemini 3.1 Flash-Lite」模型

3月4日，Google DeepMind发布「Gemini 3.1 Flash-Lite」模型，是Gemini 3系列中速度最快、性价比最高的版本，专为大规模开发者工作负载设计，其首Token响应和输出速度较2.5 Flash提升2.5倍，每秒输出Tokens数达389个、较2.5 Flash提升45%，多项基准测试成绩超越前代，定价远低于同类及前代模型，目前已向开发者和企业用户开放，标配可调节“思考深度”功能，能适配不同难度的AI任务，获外网网友好评，也为AI应用规模化落地提供了新方案。

OpenAI和Google同日推出轻量AI模型「GPT-5.3 Instant」与「Gemini 3.1 Flash-Lite」

3月4日，OpenAI和Google同日推出轻量AI模型「GPT-5.3 Instant」与「Gemini 3.1 Flash-Lite」，欲打破轻量模型的刻板印象。「GPT-5.3 Instant」全量开放、旧版将退役，主打低幻觉率、自然交互与优质内容创作；「Gemini 3.1 Flash-Lite」以预览版开放，兼具低价高速、可调节思考等级，适配内容审核等高实时性批量任务；两款模型的特性契合OpenClaw等AI代理需求，前者能减少其执行任务的错误、让生成内容更贴合真人习惯，后者则能满足其高频调用下对速度和成本的要求，也明晰了轻量模型人性化交互、高性价比效率的发展方向。

MiniMax稀宇科技为「MiniMax Music 2.5」新增纯音乐创作能力

3月4日，MiniMax稀宇科技为「MiniMax Music 2.5」新增纯音乐创作能力，打破此前以歌曲生成为核心的局限，该模型不仅支持古典管弦、极简主义等多元风格的纯音乐生成，覆盖冥想、助眠、影视配乐等多场景，单一模型可处理不同复杂度的音乐创作且风格切换无需额外调试，还具备出色的跨风格融合能力，能将不同风格自然融合而非简单拼贴，音频品质专业，对中国传统乐器的还原更是处于行业领先水平，目前用户可通过指定网址体验C端产品、对接API接口，还能加入AI筑乐师社**流创作。

YuanLab.ai团队开源发布万亿参数级多模态基础大模型「Yuan3.0 Ultra」

3月4日，YuanLab.ai团队开源发布万亿参数级多模态基础大模型「Yuan3.0 Ultra」，为全球仅有的三个万亿级开源多模态大模型之一，采用统一多模态架构与MoE语言主干网络，通过LAEP算法将参数从1515B优化至1010B，预训练算力效率提升49%，还引入LFA机制强化语义建模；该模型聚焦企业级应用，在多模态文档理解、检索增强生成、表格数据分析等任务的多项评测中领先同类模型，可支撑OpenClaw等智能体构建，其训练策略通过RIRM机制实现“更有效思考”，兼顾精度与计算效率，目前模型权重、代码等已全面开源，源Yuan3.0系列其他版本也将陆续发布。

OpenAI深夜发布旗舰模型「GPT-5.4」，推出多版本并全端上线、接入API与Codex

3月6日，OpenAI深夜发布旗舰模型「GPT-5.4」，推出GPT-5.4 Thinking、Pro版本及极速版GPT-5.4 fast，全端上线并接入API与Codex，该模型实现推理与编程的合流式跨越，是首个具备原生电脑使用能力的通用模型，可像人类一样操控键鼠、操作软件网页，相关测试成功率75%超人类和同类模型，还升级了视觉感知与文档解析能力，支持超高像素图像输入；在多项权威测试中成绩拔尖，媲美人类专家，幻觉率大幅下降，还完整继承编程能力，Token效率创OpenAI新高，引入工具搜索功能让Token使用量减少47%，工具调用、网络搜索能力也大幅升级，且GPT-5.4 Thinking支持思考中途介入调整方向，该模型定价高于前代。

微软开源15B参数的多模态推理模型「Phi-4-reasoning-vision-15B」

3月6日，微软开源15B参数的多模态推理模型「Phi-4-reasoning-vision-15B」，延续Phi系列小模型路线，由Phi-4-Reasoning语言模型和SigLIP-2视觉编码器组成，采用Mid-Fusion多模态架构、动态分辨率视觉编码和混合推理机制，经2000亿token高质量数据训练，强化了视觉理解、文档图表解析、数学科学推理等核心能力，能实现图像与文本联合推理，兼顾推理能力与效率，可应用于教育辅助、智能办公、GUI自动化等场景，相关项目官网、代码及技术报告等均已开放。

通义实验室宣布开源升级后的个人AI助理「CoPaw」

2月28日，通义实验室AgentScope团队开源升级后的个人AI助理「CoPaw」，采用Apache 2.0协议支持免费商用，支持本地与云端部署，能对接多款聊天软件，此次升级聚焦易用性、本地部署等四大方向，实现了模型管理、记忆系统、Agent架构、Channels频道四大模块的优化，支持多类本地与云端模型灵活接入、轻量使用记忆功能，还完成了Agent架构模块化重构和频道架构系统性升级，提供简易的本地安装方式及纯本地模式，团队还规划了多模态交互等后续开发方向，邀开发者共建生态。

上智院联合复旦大学升级星河启智科学智能开放平台，推出高能动性科研智能体「大圣」

3月1日，上智院联合复旦大学升级星河启智科学智能开放平台，推出高能动性科研智能体「大圣」，以“神珍”多模态模型为核心，具备任务拆解、多智能体协作、群体记忆、科研安全防护等能力，还实现“上天入体”科学全域闭环，多项能力达业界前沿。发布会同步启动第四届世界科学智能大赛相关挑战赛，上智院还发起科学智能“加速营”，并与多家企业机构签约合作，共同繁荣科学智能生态、推动成果转化。

阿里「QoderWork」全面开放，双端智能体助力高效办公

3月3日，阿里桌面Agent「QoderWork」全面开放，提供Mac和Windows双版本，用户可从官网直接下载、免额外部署使用；该产品集成全球顶尖模型与Agent框架，将Agent能力从代码领域拓展至日常工作场景，支持自然语言对话完成各类办公任务，还推出标准和旗舰两档模型分级选择器以适配不同需求、降低使用成本，配备预制沙盒环境保障数据隐私，上线涵盖多类垂直场景的技能广场，支持一键安装；能自主理解复杂任务并拆解执行、反馈进展，上线一个月已助力各行业用户提升生产力。

光年之外团队推出首款AI浏览器「Tabbit AI」并开启公测

3月3日，光年之外团队推出首款AI浏览器「Tabbit AI」并开启公测，集浏览、搜索、对话、执行于一体，将AI能力与浏览器深度融合，通过智能代理、沉浸式AI对话、智能标签管理和新一代收藏夹等功能，试图重塑用户处理网络信息的方式。该浏览器摒弃传统“页面加载+人工操作”模式，首创“智能代理后台自治”架构：用户仅需自然语言下达任务指令，即可自动打开多平台、提取结构化数据、跨域流转信息、生成可视化报表，全程无需用户干预。

Google旗下NotebookLM Studio推出全新的「电影级视频概览」功能

3月5日，Google旗下NotebookLM Studio推出全新的「电影级视频概览」功能，由Google多款先进模型组合赋能，区别于市面套用标准模板的同类AI视频工具，能深度理解上传的科研文献、实验数据和笔记等学术源资料，一键生成量身定制的好莱坞级别沉浸式视频，激活成功教程科研内容表达和理解的难题，目前该功能仅向英文区的Ultra用户推出。

OpenClaw工具榜「OpenClaw Directory」出炉39款生态工具上线附全阶教程

3月2日，第三方搭建的OpenClaw生态工具目录网站「OpenClaw Directory」获专业社区认可，该网站收录39款OpenClaw相关工具并按功能精细化分类，支持多标签筛选与多种方式排序，还为各工具标注关键信息助力用户选型；其公布的综合总榜前六的热门工具各有特色，涵盖简化部署管理、极速一键部署、预制智能体配置、本地瞬时运行、一站式部署服务、简化封装上线等不同功能，且网站还设有Blog板块，提供从入门到进阶的保姆级OpenClaw教程与指南，而随着OpenClaw的爆火，相关的上门部署安装服务也随之出现，成为新的相关业态。

Anthropic为旗下命令行AI编程工具Claude Code上线「语音写代码」模式

3月3日，Anthropic为旗下命令行AI编程工具Claude Code上线「语音写代码」模式，现灰度开放5%用户，输入/voice，长按空格说话，松开即完成输入，语音转录内容能实时流入光标位置，和键盘无缝切换，转录Token完全免费。该功能在bug调试、架构讨论等场景优势明显，但对精准代码识别仍有短板，**使用方式是自然语言用语音、精确代码用打字。同期OpenAI的Codex也推出同类功能，二者印证编程工具竞争已转向自然交互，而此前社区已有相关第三方工具，官方功能进一步降低了语音编程门槛，未来编程将融合语音、键盘等多种输入形式，程序员角色也将向编程导演转变。

7.4K Star开源工具「waoowaoo」：AI一键将小说剧本生成完整漫剧视频

3月4日，开源AI漫剧一站式生成工具「waoowaoo」在GitHub迅速走红，短短数日斩获7.4K Star，它是由单开发者打造的工业级全流程AI影视生产平台，能将小说或剧本文本通过AI驱动流程自动转化为含画面、配音的完整视频，核心具备AI剧本分析、角色与场景生成、分镜视频制作、AI配音等功能，还支持中英文双语界面，采用Docker Compose一键部署且技术栈先进，解决了AI生成内容中角色形象不一致的行业难题，实现全流程自动化、低门槛易用的核心亮点，可应用于个人创作、小型内容工作室、教育知识传播、多语言内容创作等场景。

全网首发端到端AI视频导演Agent系统「Zopia」

3月5日，全网首发端到端AI视频导演Agent系统「Zopia」，采用多Agent协作模式，可根据用户输入创意或上传剧本，一键完成从脚本、分镜、角色、场景到成片的全流程制作，可生成AI真人短剧、广告、MV、动漫、科普视频等多类视频，兼容Nano Banana Pro、MJ、GPT等多款图片模型以及wan、可灵、海螺等视频模型，支持参数配置与编辑，生成后可直接下载。

清华陈建宇团队与斯坦福Chelsea Finn团队基于Ctrl-World联合提出「VLAW」框架

2月28日，清华陈建宇团队与斯坦福Chelsea Finn团队基于Ctrl-World联合提出「VLAW」框架，首次实现VLA策略与动作条件世界模型的协同迭代优化，通过真实数据校准世界模型、优化后的模型生成虚拟数据反哺VLA策略的双向闭环，解决了现有世界模型物理保真度低、过度乐观的问题，大幅提升了机器人在复杂物理交互任务中的策略成功率，为世界模型实用化及通用机器人训练奠定了关键基础。

北京通用人工智能研究院、宇树等多家机构联合发布并开源「OMNIXTREME」框架

3月3日，北京通用人工智能研究院、宇树、上海交大和中国科大等机构联合发布并开源「OMNIXTREME」框架，激活成功教程了人形机器人运动学习的“保真度与可扩展性权衡”难题，还解决了仿真学习和物理可执行性两大瓶颈。该框架采用预训练、后训练、机载部署三阶段训练架构，通过流匹配策略聚合运动先验，结合物理约束优化残差策略，让策略与真实硬件高度对齐；该框架在宇树G1机器人上真机部署表现优异，24种高动态运动整体成功率91.08%，后空翻成功率超96%，推理延迟仅10毫秒，模拟测试效果也远超传统方法。该框架为人形机器人灵巧运动发展提供了实践路径，研究团队未来还将融入高保真执行器特性，进一步缩小仿真与现实的差距。

蚂蚁集团与清华大学联合开源全异步强化学习框架「AReaL v1.0」

3月4日，蚂蚁集团与清华大学联合开源全异步强化学习框架「AReaL v1.0」，实现了Agent一键接入RL训练，兼容任意Agent框架且无需改动原有代码，仅需简单配置即可完成对接，还能让Agent在运行中实现无感进化；该框架依托全异步训练和代理网关两大核心架构设计，解耦训练与推理并实现标准化接入，同时通过前缀树序列打包方案大幅提升训练性能、降低显存占用；此外，「AReaL v1.0」还推出了支持5D并行的PyTorch原生训练引擎Archon，能实现千亿MoE模型端到端训练，而这一引擎的快速落地得益于框架集成的系统化AI辅助开发体系，该体系也重构了软件工程角色分工，降低了开发门槛。

阿里Qwen技术总负责人正式离职，阿里CEO明确坚持开源策略

3月5日，阿里巴巴通过内部邮件确认通义实验室核心成员、千问大模型系列技术总负责人林俊旸正式离职。此次变动极具戏剧性：3月3日晚，其团队发布性能显著提升的Qwen3.5小模型系列，获马斯克在X平台公开点赞；3月4日凌晨，林俊旸即发文“再见我亲爱的千问”宣告卸任，随后后训负责人也跟进离职，3月5日阿里完成流程确认。阿里CEO吴泳铭随即回应，明确坚持开源策略、加大AI研发投入，还成立专项小组支持基础模型建设，由前Google Gemini的周浩接手相关工作，不过开源社区对其能力持保留态度。林俊旸入职阿里后主导多款核心模型研发，此次离职折射出大厂开源与商业化的矛盾、AI行业人才竞争的白热化，其后续去向尚未确定。

2026开年爆火的开源项目「OpenClaw」仅60天便掀起中国AI产业变革

3月3日消息，2026开年爆火的「OpenClaw」开源项目，仅60天便掀起中国AI产业变革，其核心是以视觉识别实现屏幕层直接操作，打破传统Agent依赖API的落地困境，推动中国AI智能体迈入跨体系协同时代。国内互联网巨头、模型厂商、硬件厂商等全产业链玩家纷纷跟进，字节、阿里、腾讯等大厂也已在云平台上线OpenClaw服务，月之暗面、MiniMax等模型企业推出适配方案，RPA、SaaS厂商也开启自我革命适配这一趋势，形成全产业链集体进化格局。虽然该项目仍面临执行效率低、成本高、安全风险大等商业化落地难题，且绕开API的操作方式还引发与平台间的利益博弈，但为中国企业数字化转型提供了全新思路，推动AI Agent从技术demo向实际产品转化，成为行业范式转移的导火索。

2026年MIAOYUN ｜ 每周AI新鲜事儿 260306

相关推荐

2026年MIAOYUN ｜每周AI新鲜事儿 260306