2026年MIAOYUN | 每周AI新鲜事儿 260306

MIAOYUN | 每周AI新鲜事儿 260306本周国内外 AI 领域密集发布新品与技术突破 大模型方面 OpenAI Google 阿里 MiniMax 等相继推出多款大模型 覆盖轻量推理 语音 多模态等类型 AI Agent 快速落地 多款办公 科研 浏览器等产品开放使用 AI 创作与工具持续丰富 OpenClaw 生态工具目录 视频 编程 漫剧生层等工具不断涌现 降低各类创作与开发门槛 技术层面 VLAW 框架 OMNIXTREME 框架 AReaL

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



本周国内外AI领域密集发布新品与技术突破:大模型方面,OpenAI、Google、阿里、MiniMax等相继推出多款大模型,覆盖轻量推理、语音、多模态等类型;AI Agent快速落地,多款办公、科研、浏览器等产品开放使用;AI创作与工具持续丰富,OpenClaw生态工具目录、视频、编程、漫剧生层等工具不断涌现,降低各类创作与开发门槛;技术层面,VLAW框架、OMNIXTREME框架、AReaL v1.0框架等开源,分别在机器人训练、人形机器人运动学习、强化学习训练等领域实现创新;市场层面,阿里Qwen核心成员离职引发行业关注、OpenClaw项目掀起产业变革,一起来回顾本周发生的AI新鲜事儿吧!

阿里通义实验室发布「Fun-CosyVoice3.5」和「Fun-AudioGen-VD」两款模型

3月2日,阿里通义实验室发布「Fun-CosyVoice3.5」和「Fun-AudioGen-VD」两款支持FreeStyle自然语言指令生成的语音模型,打破传统语音生成依赖预设标签的限制,前者主打多语种复刻与精细化表达控制,实现了自然语言表达控制、新增4个小语种、生僻字读错率大幅降低、韵律音质优化及延迟降低的升级,13种语言相关客观指标居业内领先;后者聚焦声音设计与场景化音频生成,可精细化控制声音和角色特征,还能模拟环境与空间声学打造沉浸式听觉场景,相关指标表现亮眼。两款模型让语音生成从功能工具升级为创作工具,能大幅降低影视动画等领域的创作成本、提升沉浸感,也让语音生成迈入自然语言控制表达的新阶段,声音创作不再受模板和标签限制。

Google DeepMind发布「Gemini 3.1 Flash-Lite」模型

3月4日,Google DeepMind发布「Gemini 3.1 Flash-Lite」模型,是Gemini 3系列中速度最快、性价比最高的版本,专为大规模开发者工作负载设计,其首Token响应和输出速度较2.5 Flash提升2.5倍,每秒输出Tokens数达389个、较2.5 Flash提升45%,多项基准测试成绩超越前代,定价远低于同类及前代模型,目前已向开发者和企业用户开放,标配可调节“思考深度”功能,能适配不同难度的AI任务,获外网网友好评,也为AI应用规模化落地提供了新方案。

OpenAI和Google同日推出轻量AI模型「GPT-5.3 Instant」与「Gemini 3.1 Flash-Lite」

3月4日,OpenAI和Google同日推出轻量AI模型「GPT-5.3 Instant」与「Gemini 3.1 Flash-Lite」,欲打破轻量模型的刻板印象。「GPT-5.3 Instant」全量开放、旧版将退役,主打低幻觉率、自然交互与优质内容创作;「Gemini 3.1 Flash-Lite」以预览版开放,兼具低价高速、可调节思考等级,适配内容审核等高实时性批量任务;两款模型的特性契合OpenClaw等AI代理需求,前者能减少其执行任务的错误、让生成内容更贴合真人习惯,后者则能满足其高频调用下对速度和成本的要求,也明晰了轻量模型人性化交互、高性价比效率的发展方向。

MiniMax稀宇科技为「MiniMax Music 2.5」新增纯音乐创作能力

3月4日,MiniMax稀宇科技为「MiniMax Music 2.5」新增纯音乐创作能力,打破此前以歌曲生成为核心的局限,该模型不仅支持古典管弦、极简主义等多元风格的纯音乐生成,覆盖冥想、助眠、影视配乐等多场景,单一模型可处理不同复杂度的音乐创作且风格切换无需额外调试,还具备出色的跨风格融合能力,能将不同风格自然融合而非简单拼贴,音频品质专业,对中国传统乐器的还原更是处于行业领先水平,目前用户可通过指定网址体验C端产品、对接API接口,还能加入AI筑乐师社**流创作。

YuanLab.ai团队开源发布万亿参数级多模态基础大模型「Yuan3.0 Ultra」

3月4日,YuanLab.ai团队开源发布万亿参数级多模态基础大模型「Yuan3.0 Ultra」,为全球仅有的三个万亿级开源多模态大模型之一,采用统一多模态架构与MoE语言主干网络,通过LAEP算法将参数从1515B优化至1010B,预训练算力效率提升49%,还引入LFA机制强化语义建模;该模型聚焦企业级应用,在多模态文档理解、检索增强生成、表格数据分析等任务的多项评测中领先同类模型,可支撑OpenClaw等智能体构建,其训练策略通过RIRM机制实现“更有效思考”,兼顾精度与计算效率,目前模型权重、代码等已全面开源,源Yuan3.0系列其他版本也将陆续发布。

OpenAI深夜发布旗舰模型「GPT-5.4」,推出多版本并全端上线、接入API与Codex

3月6日,OpenAI深夜发布旗舰模型「GPT-5.4」,推出GPT-5.4 Thinking、Pro版本及极速版GPT-5.4 fast,全端上线并接入API与Codex,该模型实现推理与编程的合流式跨越,是首个具备原生电脑使用能力的通用模型,可像人类一样操控键鼠、操作软件网页,相关测试成功率75%超人类和同类模型,还升级了视觉感知与文档解析能力,支持超高像素图像输入;在多项权威测试中成绩拔尖,媲美人类专家,幻觉率大幅下降,还完整继承编程能力,Token效率创OpenAI新高,引入工具搜索功能让Token使用量减少47%,工具调用、网络搜索能力也大幅升级,且GPT-5.4 Thinking支持思考中途介入调整方向,该模型定价高于前代。

微软开源15B参数的多模态推理模型「Phi-4-reasoning-vision-15B」

3月6日,微软开源15B参数的多模态推理模型「Phi-4-reasoning-vision-15B」,延续Phi系列小模型路线,由Phi-4-Reasoning语言模型和SigLIP-2视觉编码器组成,采用Mid-Fusion多模态架构、动态分辨率视觉编码和混合推理机制,经2000亿token高质量数据训练,强化了视觉理解、文档图表解析、数学科学推理等核心能力,能实现图像与文本联合推理,兼顾推理能力与效率,可应用于教育辅助、智能办公、GUI自动化等场景,相关项目官网、代码及技术报告等均已开放。

通义实验室宣布开源升级后的个人AI助理「CoPaw」

2月28日,通义实验室AgentScope团队开源升级后的个人AI助理「CoPaw」,采用Apache 2.0协议支持免费商用,支持本地与云端部署,能对接多款聊天软件,此次升级聚焦易用性、本地部署等四大方向,实现了模型管理、记忆系统、Agent架构、Channels频道四大模块的优化,支持多类本地与云端模型灵活接入、轻量使用记忆功能,还完成了Agent架构模块化重构和频道架构系统性升级,提供简易的本地安装方式及纯本地模式,团队还规划了多模态交互等后续开发方向,邀开发者共建生态。

上智院联合复旦大学升级星河启智科学智能开放平台,推出高能动性科研智能体「大圣」

3月1日,上智院联合复旦大学升级星河启智科学智能开放平台,推出高能动性科研智能体「大圣」,以“神珍”多模态模型为核心,具备任务拆解、多智能体协作、群体记忆、科研安全防护等能力,还实现“上天入体”科学全域闭环,多项能力达业界前沿。发布会同步启动第四届世界科学智能大赛相关挑战赛,上智院还发起科学智能“加速营”,并与多家企业机构签约合作,共同繁荣科学智能生态、推动成果转化。

阿里「QoderWork」全面开放,双端智能体助力高效办公

3月3日,阿里桌面Agent「QoderWork」全面开放,提供Mac和Windows双版本,用户可从官网直接下载、免额外部署使用;该产品集成全球顶尖模型与Agent框架,将Agent能力从代码领域拓展至日常工作场景,支持自然语言对话完成各类办公任务,还推出标准和旗舰两档模型分级选择器以适配不同需求、降低使用成本,配备预制沙盒环境保障数据隐私,上线涵盖多类垂直场景的技能广场,支持一键安装;能自主理解复杂任务并拆解执行、反馈进展,上线一个月已助力各行业用户提升生产力。

光年之外团队推出首款AI浏览器「Tabbit AI」并开启公测

3月3日,光年之外团队推出首款AI浏览器「Tabbit AI」并开启公测,集浏览、搜索、对话、执行于一体,将AI能力与浏览器深度融合,通过智能代理、沉浸式AI对话、智能标签管理和新一代收藏夹等功能,试图重塑用户处理网络信息的方式。该浏览器摒弃传统“页面加载+人工操作”模式,首创“智能代理后台自治”架构:用户仅需自然语言下达任务指令,即可自动打开多平台、提取结构化数据、跨域流转信息、生成可视化报表,全程无需用户干预。

Google旗下NotebookLM Studio推出全新的「电影级视频概览」功能

3月5日,Google旗下NotebookLM Studio推出全新的「电影级视频概览」功能,由Google多款先进模型组合赋能,区别于市面套用标准模板的同类AI视频工具,能深度理解上传的科研文献、实验数据和笔记等学术源资料,一键生成量身定制的好莱坞级别沉浸式视频,激活成功教程科研内容表达和理解的难题,目前该功能仅向英文区的Ultra用户推出。

OpenClaw工具榜「OpenClaw Directory」出炉39款生态工具上线附全阶教程

3月2日,第三方搭建的OpenClaw生态工具目录网站「OpenClaw Directory」获专业社区认可,该网站收录39款OpenClaw相关工具并按功能精细化分类,支持多标签筛选与多种方式排序,还为各工具标注关键信息助力用户选型;其公布的综合总榜前六的热门工具各有特色,涵盖简化部署管理、极速一键部署、预制智能体配置、本地瞬时运行、一站式部署服务、简化封装上线等不同功能,且网站还设有Blog板块,提供从入门到进阶的保姆级OpenClaw教程与指南,而随着OpenClaw的爆火,相关的上门部署安装服务也随之出现,成为新的相关业态。

Anthropic为旗下命令行AI编程工具Claude Code上线「语音写代码」模式

3月3日,Anthropic为旗下命令行AI编程工具Claude Code上线「语音写代码」模式,现灰度开放5%用户,输入/voice,长按空格说话,松开即完成输入,语音转录内容能实时流入光标位置,和键盘无缝切换,转录Token完全免费。该功能在bug调试、架构讨论等场景优势明显,但对精准代码识别仍有短板,**使用方式是自然语言用语音、精确代码用打字。同期OpenAI的Codex也推出同类功能,二者印证编程工具竞争已转向自然交互,而此前社区已有相关第三方工具,官方功能进一步降低了语音编程门槛,未来编程将融合语音、键盘等多种输入形式,程序员角色也将向编程导演转变。

7.4K Star开源工具「waoowaoo」:AI一键将小说剧本生成完整漫剧视频

3月4日,开源AI漫剧一站式生成工具「waoowaoo」在GitHub迅速走红,短短数日斩获7.4K Star,它是由单开发者打造的工业级全流程AI影视生产平台,能将小说或剧本文本通过AI驱动流程自动转化为含画面、配音的完整视频,核心具备AI剧本分析、角色与场景生成、分镜视频制作、AI配音等功能,还支持中英文双语界面,采用Docker Compose一键部署且技术栈先进,解决了AI生成内容中角色形象不一致的行业难题,实现全流程自动化、低门槛易用的核心亮点,可应用于个人创作、小型内容工作室、教育知识传播、多语言内容创作等场景。

全网首发端到端AI视频导演Agent系统「Zopia」

3月5日,全网首发端到端AI视频导演Agent系统「Zopia」,采用多Agent协作模式,可根据用户输入创意或上传剧本,一键完成从脚本、分镜、角色、场景到成片的全流程制作,可生成AI真人短剧、广告、MV、动漫、科普视频等多类视频,兼容Nano Banana Pro、MJ、GPT等多款图片模型以及wan、可灵、海螺等视频模型,支持参数配置与编辑,生成后可直接下载。

清华陈建宇团队与斯坦福Chelsea Finn团队基于Ctrl-World联合提出「VLAW」框架

2月28日,清华陈建宇团队与斯坦福Chelsea Finn团队基于Ctrl-World联合提出「VLAW」框架,首次实现VLA策略与动作条件世界模型的协同迭代优化,通过真实数据校准世界模型、优化后的模型生成虚拟数据反哺VLA策略的双向闭环,解决了现有世界模型物理保真度低、过度乐观的问题,大幅提升了机器人在复杂物理交互任务中的策略成功率,为世界模型实用化及通用机器人训练奠定了关键基础。

北京通用人工智能研究院、宇树等多家机构联合发布并开源「OMNIXTREME」框架

3月3日,北京通用人工智能研究院、宇树、上海交大和中国科大等机构联合发布并开源「OMNIXTREME」框架,激活成功教程了人形机器人运动学习的“保真度与可扩展性权衡”难题,还解决了仿真学习和物理可执行性两大瓶颈。该框架采用预训练、后训练、机载部署三阶段训练架构,通过流匹配策略聚合运动先验,结合物理约束优化残差策略,让策略与真实硬件高度对齐;该框架在宇树G1机器人上真机部署表现优异,24种高动态运动整体成功率91.08%,后空翻成功率超96%,推理延迟仅10毫秒,模拟测试效果也远超传统方法。该框架为人形机器人灵巧运动发展提供了实践路径,研究团队未来还将融入高保真执行器特性,进一步缩小仿真与现实的差距。

蚂蚁集团与清华大学联合开源全异步强化学习框架「AReaL v1.0」

3月4日,蚂蚁集团与清华大学联合开源全异步强化学习框架「AReaL v1.0」,实现了Agent一键接入RL训练,兼容任意Agent框架且无需改动原有代码,仅需简单配置即可完成对接,还能让Agent在运行中实现无感进化;该框架依托全异步训练和代理网关两大核心架构设计,解耦训练与推理并实现标准化接入,同时通过前缀树序列打包方案大幅提升训练性能、降低显存占用;此外,「AReaL v1.0」还推出了支持5D并行的PyTorch原生训练引擎Archon,能实现千亿MoE模型端到端训练,而这一引擎的快速落地得益于框架集成的系统化AI辅助开发体系,该体系也重构了软件工程角色分工,降低了开发门槛。

阿里Qwen技术总负责人正式离职,阿里CEO明确坚持开源策略

3月5日,阿里巴巴通过内部邮件确认通义实验室核心成员、千问大模型系列技术总负责人林俊旸正式离职。此次变动极具戏剧性:3月3日晚,其团队发布性能显著提升的Qwen3.5小模型系列,获马斯克在X平台公开点赞;3月4日凌晨,林俊旸即发文“再见我亲爱的千问”宣告卸任,随后后训负责人也跟进离职,3月5日阿里完成流程确认。阿里CEO吴泳铭随即回应,明确坚持开源策略、加大AI研发投入,还成立专项小组支持基础模型建设,由前Google Gemini的周浩接手相关工作,不过开源社区对其能力持保留态度。林俊旸入职阿里后主导多款核心模型研发,此次离职折射出大厂开源与商业化的矛盾、AI行业人才竞争的白热化,其后续去向尚未确定。

2026开年爆火的开源项目「OpenClaw」仅60天便掀起中国AI产业变革

3月3日消息,2026开年爆火的「OpenClaw」开源项目,仅60天便掀起中国AI产业变革,其核心是以视觉识别实现屏幕层直接操作,打破传统Agent依赖API的落地困境,推动中国AI智能体迈入跨体系协同时代。国内互联网巨头、模型厂商、硬件厂商等全产业链玩家纷纷跟进,字节、阿里、腾讯等大厂也已在云平台上线OpenClaw服务,月之暗面、MiniMax等模型企业推出适配方案,RPA、SaaS厂商也开启自我革命适配这一趋势,形成全产业链集体进化格局。虽然该项目仍面临执行效率低、成本高、安全风险大等商业化落地难题,且绕开API的操作方式还引发与平台间的利益博弈,但为中国企业数字化转型提供了全新思路,推动AI Agent从技术demo向实际产品转化,成为行业范式转移的导火索。

小讯
上一篇 2026-03-30 12:46
下一篇 2026-03-30 12:44

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/230554.html