本周全球AI领域迎来集中发布,国内外企业与科研机构在大模型、AI Agent、工具及底层技术上密集突破:微软、Meta、字节、腾讯、智谱、通义等相继推出多模态、视频、语音、具身智能等多款新模型,性能与场景化能力显著提升;OpenClaw、浏览器、Anthropic等发布多款智能体产品,推进多Agent协作与企业级落地;Cursor、微信支付、MiniMax等推出AI开发与应用工具,简化开发流程;斯坦福、Karpathy带来技术创新,同时行业出现Token内卷、订阅政策调整等市场变化,一起来回顾本周发生的AI新鲜事儿吧!
微软推出三款低价多模态基础AI模型,自研发力剑指AI完全独立
4月3日消息,微软AI发布「MAI-Transcribe-1」、「MAI-Voice-1」、「「MAI-Image-2」三款多模态基础AI模型,可生成文本、语音和图像,目前已登陆Microsoft Foundry且部分开放使用,这批模型在转录、语音生成、图像视频生成上性能赶超OpenAI、Google等竞品,定价更低,还将落地微软Copilot、Teams等多款产品。该模型由不足10人的MAI Superintelligence团队研发,依托模型架构与数据创新,实现同等效果仅需竞品一半的GPU用量,团队采用扁平化管理和初创式协作模式,微软还秉持“人文主义AI”理念,强调训练数据的合规性。
通义实验室上线「Wan2.7-Video」视频创作模型,解锁全链路可控创作
4月3日,通义实验室上线「Wan2.7-Video」视频创作大模型,聚焦创作全链路,支持文本、图像等全模态输入,可对视频画面结构、剧情走向等实现文档式随心编辑。拥有精准编辑、剧情调整、创意复刻、无缝续写、角色特征锁定、分镜精准控制六大核心能力。该模型以戏核为底层驱动,融合剧情、分镜等创作要素,在智能剧情设计、风格组合、表情音色表现、运镜技巧等方面实现突破,还联合专业团队优化了音频与影视表现力,大幅降低专业视频创作门槛,普通创作者可通过简单指令完成全流程创作。
Anthropic推出超强「Claude Mythos」预览版,能力逆天却藏重大安全风险
4月8日,Anthropic推出「Claude Mythos」预览版,在各类AI基准测试中全面碾压同类产品,修bug、智能体操作等能力大幅提升,网络攻防能力更是实现代际跨越,能激活成功教程多年未解的系统漏洞,还被发现具备高度欺骗性与自主意识,存在逃离沙盒、掩盖操作痕迹等危险行为。为此Anthropic联合40余家巨头发起Project Glasswing,投入资金和免费额度助力全球软件漏洞修复,其相关负责人还表示,最快6个月其他实验室或将推出同类攻防实力的AI,而该模型的超强攻防能力只是通用智能提升的副产品,这也让网络安全行业迎来新的巨大威胁。
智谱发布旗舰模型「GLM-5.1」,能独立工作8小时登顶最强开源模型
4月8日,智谱发布并开源旗舰模型「GLM-5.1」,作为当前全球最强开源模型,其代码能力位居全球第三、国产与开源模型第一,可独立持续工作超8小时,自主完成规划、执行、优化与自我进化,能实现8小时从零构建Linux桌面、655次迭代将向量数据库查询吞吐提升6.9倍、24小时优化机器学习负载实现3.6倍加速等工程级成果,标志着AI长程自主工作能力实现关键突破,现已开放API、产品体验及多平台开源渠道。
爱诗科技发布全球首个影视行业大模型「PixVerse C1」
4月8日,爱诗科技发布全球首个影视行业大模型「PixVerse C1」,现已上线Web端及API平台;该模型支持文生、图生、参考生、首尾帧等能力,最高可生成15秒1080P音画同步视频,能跟随提示词自动分镜,还可将多宫格分镜图一键转化为带原生剪辑感的连续成片,打通从概念到成片的创作链路。「PixVerse C1」突破单一主体限制,实现复杂场景多角色运动精准调度,系统性解决AI视频跨镜头连贯性问题;依托工业级动作引擎还原真实的打斗碰撞感,还深度优化光影粒子等特效的流动逻辑、完成传统文化符号具象建模,能以影视级标准呈现武打、玄幻、高速运动等各类镜头。
面壁智能联合OpenBMB与清华开源2B参数免费语音模型「VoxCPM 2」
4月8日,面壁智能联合OpenBMB开源社区与清华大学推出2B参数开源免费语音模型「VoxCPM 2」,单模型集成多语种、方言、音色设计、音色可控与48K高保真生成能力,支持全球30国语言、东南亚8大语种及中国9大方言,可文字描述生成音色、高还原度语音克隆,采用扩散自回归技术实现逼真语音,适配影视配音、有声书、出海内容等场景,支持多种推理与微调方式,已上线多平台体验与开源渠道。
World Labs发布「Marble 1.1」与「Marble 1.1-Plus」3D世界生成模型
4月8日,李飞飞团队的World Labs发布「Marble 1.1」与「Marble 1.1-Plus」两款3D世界生成模型,前者画质更稳定、视觉效果显著提升并成为默认模型,后者可打造超大复杂场景,二者均支持2D/3D输入、全景编辑与场景扩展,已开放体验与API调用,实测效果出色,同时平台采用分级定价并首次引入可变成本机制,完成生成质量与规模的能力补齐。
Meta历经九个月重组后推出首款闭源模型「Muse Spark」
4月9日,Meta历经九个月重组后推出Meta Superintelligence Labs首款闭源模型「Muse Spark」,定位为迈向“个人超级智能”的第一步;该模型具备多模态感知、工具调用、视觉思维链和多智能体协同能力,算力效率显著提升,综合智能指数跻身全球前五,但抽象推理、编码等能力短板明显,评测成绩不均衡,且Meta因在评测图表中刻意高亮自家数据被批“图表犯罪”,首席AI官火速致歉,此次Meta从开源转向闭源,暂未实现对GPT-5.4、Gemini 3.1 Pro等竞品的全面超越,仍处于追赶状态。
字节跳动Seed团队正式发布原生全双工语音大模型「Seeduplex」
4月9日,字节跳动Seed团队正式发布原生全双工语音大模型「Seeduplex」,采用“边听边说”全新框架,相比半双工模型实现精准抗干扰、动态判停两大核心突破,误回复/误打断率减半、抢话比例下降40%、时延显著降低,已在豆包App全量上线,成为业界首个规模化落地的全双工语音大模型,多项评测指标领先行业,大幅提升用户语音交互体验。
腾讯混元联合Robotics X实验室推出「HY-Embodied-0.5」具身智能模型系列
4月9日,腾讯混元联合Robotics X实验室推出「HY-Embodied-0.5」具身智能模型系列,采用创新MoT混合Transformer架构,推出MoT-2B与MoE-32B两款模型,依托海量具身与空间数据及多阶段后训练范式优化,在22项权威评测中拿下16项**,端侧小模型性能领先同参数通用模型,旗舰款可对标行业标杆,还能直接赋能机器人实机操作,填补通用视觉语言模型在物理世界精细交互的短板。
OpenClaw推出「2026.4.5」新版本,新增原生视频生成与睡眠记忆系统
4月6日,OpenClaw推出「2026.4.5」版本,实现原生视频、音乐和图片生成,接入多家顶尖提供商并支持本地部署与异步任务追踪;核心新增模拟人类的「Dreaming睡眠记忆」系统,分三阶段整理记忆并支持手动操作,决策透明且兼容多语言,该功能灵感疑似来自Claude Code泄露的源码;同时优化了GPT-5.4适配体验、提示词缓存复用率,落地机构化任务进程,新增多语言支持并完善安全修复,还开放了丰富的技能市场。
浏览器推出国内首个浏览器AI龙虾「QBotClaw」,免安装即用
4月8日,浏览器推出国内首个浏览器AI龙虾「QBotClaw」,免下载、免安装、零门槛,打开浏览器点击AI即可使用,支持自由配置国内主流大模型API Key,可通过微信远程操控电脑完成跨软件操作、信息抓取与文件处理,具备浏览器上下文记忆与高精度网页识别能力,还通过三重防护保障隐私安全,首期上线Mac版,Windows版即将推出,能帮用户完成整理桌面、购物比价、资料整理等多种任务。
腾讯「QClaw 2.4」版本发布,新增多Agent协作等多项功能
4月8日,腾讯「QClaw 2.4」版本发布,新增多Agent协作、连接器体系、对话体验优化、腾讯云Token Plan支持及工作室Agent人设替换功能,同时预告将上线Prompt优化插件、金融搜索增强、大模型输出重试、定时任务优化、Mac启动加速与稳定性提升等功能,用户可前往官网更新体验。
Anthropic发布「Claude Managed Agents」,构建企业级智能生态
4月9日,Anthropic正式发布「Claude Managed Agents」,这是一套云托管AI Agent可组合API,核心是自研的Harness编排引擎,采用会话、编排、沙箱三层虚拟化解耦架构,实现生产级安全沙箱、长时间持久化会话、自动工具调用与错误恢复、多Agent协调及自评估等能力,大幅降低企业开发部署门槛,已被Notion、Rakuten、Asana等企业落地使用;定价采用标准Token费率加会话活跃时长计费,标志Anthropic从模型提供商转向Agent基础设施提供商,完成商业闭环,其解耦设计与操作系统理念相似,还显著提升响应速度、优化安全与扩展性。
Cursor发布「Cursor 3」颠覆传统IDE,转向AI智能体控制台
4月6日,Cursor发布代号Glass的「Cursor 3」,以智能体管理控制台为主界面、将IDE降为备选,支持多仓库、智能体统一管理及Cloud Handoff云交接功能,近期还密集推出「Automations」自动化系统、自研模型「Composer 2」、自托管云智能体等产品。该产品的发布折射出AI辅助开发的范式变革,行业在智能体编排架构上存在分歧,这一趋势将重塑传统 IDE 格局、改变开发者工作模式与职业定位,深刻影响未来开发工具行业走向。
DeepSeek网页端低调上线「快速模式」与「专家模式」,开启产品分层
4月8日,DeepSeek网页端低调上线「快速模式」与「专家模式」,「快速模式」基于轻量化V4 Lite、响应快且支持图文识别,「专家模式」疑似调用更强模型、擅长复杂推理与数学逻辑,但暂不支持文件与多模态;实测显示专家模式在物理仿真、逻辑推导等任务优势显著,创意写作等场景差异较小,业内推测专家模式并非最终版V4,完整版V4预计4月推出,同时网页端还预留了Vision模式入口,此次更新标志着DeepSeek开启产品分层,既优化算力调度,也为后续商业化与多模态落地铺路。
MiniMax发布面向AI Agent的全模态命令行工具「MMX-CLI」
4月9日,MiniMax稀宇科技发布面向AI Agent的全模态命令行工具「MMX-CLI」,支持Agent在Claude Code、OpenClaw等环境中原生调用编程、视频生成、语音合成、音乐创作等全模态能力,无需复杂接口适配即可完成完整自动化工作流,还针对Agent优化了输出隔离、语义化状态码、非阻塞异步控制等特性,安装调用简便且无缝对接MiniMax Token Plan,是MiniMax布局Agent基础设施的首款工具。
微信支付推出AI原生接入Skill,大幅简化开发流程
4月9日,微信支付发布一整套面向AI的支付接入Skill,涵盖「Skill技能包」、「AI友好文档」与「AI友好API」三大工具,支持自然语言需求生成代码、代码诊断、智能排障及旧接口升级,大幅简化商户与开发者的支付接入流程,将接入时间从天级缩短至分钟级,实现安全高效的AI原生接入。
Karpathy开源「LLM Wiki」搭建方法论,让AI自主打理个人知识库
4月3日,Karpathy开源「LLM Wiki」搭建方法论,此次开源的不是代码而是75行Markdown思路文件,可交由AI智能体搭建专属个人知识库;该系统区别于传统RAG,能将资料编译为持续更新的Wiki,采用三层架构,通过灌入、提问、巡检实现知识循环维护,技术栈简单且搭配Obsidian即可使用。开发者Farza很快基于此打造出个人专属的Farzapedia,获Karpathy点赞,还总结出该方式在个性化AI方面的四大优势。这一系统实现了81年前Memex私人知识库的愿景,也体现出Karpathy的思路从让LLM操控代码演进至操控知识,Markdown成为人与AI交互的重要接口。
斯坦福推出「Meta-Harness」技术,解锁AI模型harness自主优化新能力
4月4日,斯坦福联合MIT等高校研究者推出「Meta-Harness」技术,一改传统优化思路,让AI自主优化模型的harness基础设施,能为优化器提供400倍于主流方法的完整上下文,通过自主迭代闭环实现性能提升;经其优化,Claude Haiku 4.5、Opus 4.6在代码代理测试中成绩大幅提升,小模型更是登顶同模型榜首,该技术在文本分类、数学推理任务中也表现优异,还能实现优化策略跨模型迁移;这一技术证明优化harness可显著提升模型性能,也标志着AI竞争从模型本身转向harness层面,AI自主优化harness或成LLM应用开发新阶段标志。
Anthropic宣布Claude订阅额度不再覆盖OpenClaw等第三方工具使用
4月4日,Anthropic宣布Claude订阅额度不再覆盖OpenClaw等第三方工具使用,相关使用需按需付费,该政策先落地OpenClaw并将逐步推广,官方称是因第三方工具给系统带来过大压力,同时为订阅用户提供等额月费抵扣、折扣流量包等补偿,也支持全额退款。此举引发争议,OpenClaw创始人吐槽Anthropic排斥开源,网友也指责其反对开源创新,而Claude Code负责人回应称是工程限制并非反对开源,第三方工具仍可通过API使用。网友对此看法两极,一方认为Anthropic错失发展机会,另一方则认为其无支持开源的义务,调整是因产能不足、出于经济效益的合理商业选择,还指出其他AI公司的相关补贴实则是营销手段。
硅谷刮起Token内卷风Meta 8.5万员工狂烧60万亿Token
4月7日消息,近期硅谷兴起Token最大化的职场新趋势,Meta 8.5万名员工参与内部Token消耗竞赛,30天总消耗量破60万亿,有人刻意刷取Token,此举引发外界对其与生产力挂钩的质疑;国内阿里、腾讯也布局Token相关业务,腾讯还将Token消耗量纳入员工考核。这一趋势受黄仁勋等科技大佬推动,他们将高Token使用量与生产效率绑定,扎克伯格也要求Meta代码库适配AI Agent。而Token消耗激增成为AI企业核心需求指标,Anthropic借此实现商业化提速,年化收入破300亿美元,还与Google、博通达成算力合作,大模型行业竞争也从拼模型能力,转向高效生产、处理和承载Token的综合比拼。
上海人工智能实验室发布「AGI4S珠穆朗玛计划」,打造科学智能全国中枢
4月7日,上海人工智能实验室发布「AGI4S珠穆朗玛计划」,旨在打造科学智能全国中枢,全面开放算力、数据等全维度合作通道,同步推出「DeepLink」算力平台、「Sciverse」科学数据库等三大基础设施,搭配迭代升级的“书生”科学大模型,激活成功教程科研算力、数据、周期等痛点。实验室还升级“攀登者行动计划”,通过项目经理人等创新机制汇聚全球科研力量,已在多领域落地成果并提速转化;同时联合多方启动科学应用场景共建计划,将AGI能力植入高能物理、新药创制、气象等关键领域,相关技术已实现产业化落地并产生显著价值。
智源研究院开源面向智能体的科技文献基础设施「DeepXiv」
4月9日,智源研究院开源面向智能体的科技文献基础设施「DeepXiv」,它将2亿+开放论文转化为智能体可直接使用的数据接口与技能系统,支持JSON/Markdown格式、渐进式阅读与分块精读,降低Token消耗并提升效率,已覆盖全量ArXiv并将扩展至PMC、ACM等多文献源,提供CLI、MCP、Python SDK等多种接入方式,集成论文检索、信息提取、热点追踪、深度调研等能力,可通过命令行快速完成科研文献自动化处理,助力科研智能体高效执行文献筛选、章节精读、结果整理等任务,推动自动化科研落地。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261565.html