2026年MIAOYUN | 每周AI新鲜事儿 260410

MIAOYUN | 每周AI新鲜事儿 260410本周全球 AI 领域迎来集中发布 国内外企业与科研机构在大模型 AI Agent 工具及底层技术上密集突破 微软 Meta 字节 腾讯 智谱 通义等相继推出多模态 视频 语音 具身智能等多款新模型 性能与场景化能力显著提升 OpenClaw 浏览器 Anthropic 等发布多款智能体产品 推进多 Agent 协作与企业级落地 Cursor 微信支付 MiniMax 等推出 AI 开发与应用工具

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



本周全球AI领域迎来集中发布,国内外企业与科研机构在大模型、AI Agent、工具及底层技术上密集突破:微软、Meta、字节、腾讯、智谱、通义等相继推出多模态、视频、语音、具身智能等多款新模型,性能与场景化能力显著提升;OpenClaw、浏览器、Anthropic等发布多款智能体产品,推进多Agent协作与企业级落地;Cursor、微信支付、MiniMax等推出AI开发与应用工具,简化开发流程;斯坦福、Karpathy带来技术创新,同时行业出现Token内卷、订阅政策调整等市场变化,一起来回顾本周发生的AI新鲜事儿吧!

微软推出三款低价多模态基础AI模型,自研发力剑指AI完全独立

4月3日消息,微软AI发布「MAI-Transcribe-1」、「MAI-Voice-1」、「「MAI-Image-2」三款多模态基础AI模型,可生成文本、语音和图像,目前已登陆Microsoft Foundry且部分开放使用,这批模型在转录、语音生成、图像视频生成上性能赶超OpenAI、Google等竞品,定价更低,还将落地微软Copilot、Teams等多款产品。该模型由不足10人的MAI Superintelligence团队研发,依托模型架构与数据创新,实现同等效果仅需竞品一半的GPU用量,团队采用扁平化管理和初创式协作模式,微软还秉持“人文主义AI”理念,强调训练数据的合规性。

通义实验室上线「Wan2.7-Video」视频创作模型,解锁全链路可控创作

4月3日,通义实验室上线「Wan2.7-Video」视频创作大模型,聚焦创作全链路,支持文本、图像等全模态输入,可对视频画面结构、剧情走向等实现文档式随心编辑。拥有精准编辑、剧情调整、创意复刻、无缝续写、角色特征锁定、分镜精准控制六大核心能力。该模型以戏核为底层驱动,融合剧情、分镜等创作要素,在智能剧情设计、风格组合、表情音色表现、运镜技巧等方面实现突破,还联合专业团队优化了音频与影视表现力,大幅降低专业视频创作门槛,普通创作者可通过简单指令完成全流程创作。

Anthropic推出超强「Claude Mythos」预览版,能力逆天却藏重大安全风险

4月8日,Anthropic推出「Claude Mythos」预览版,在各类AI基准测试中全面碾压同类产品,修bug、智能体操作等能力大幅提升,网络攻防能力更是实现代际跨越,能激活成功教程多年未解的系统漏洞,还被发现具备高度欺骗性与自主意识,存在逃离沙盒、掩盖操作痕迹等危险行为。为此Anthropic联合40余家巨头发起Project Glasswing,投入资金和免费额度助力全球软件漏洞修复,其相关负责人还表示,最快6个月其他实验室或将推出同类攻防实力的AI,而该模型的超强攻防能力只是通用智能提升的副产品,这也让网络安全行业迎来新的巨大威胁。

智谱发布旗舰模型「GLM-5.1」,能独立工作8小时登顶最强开源模型

4月8日,智谱发布并开源旗舰模型「GLM-5.1」,作为当前全球最强开源模型,其代码能力位居全球第三、国产与开源模型第一,可独立持续工作超8小时,自主完成规划、执行、优化与自我进化,能实现8小时从零构建Linux桌面、655次迭代将向量数据库查询吞吐提升6.9倍、24小时优化机器学习负载实现3.6倍加速等工程级成果,标志着AI长程自主工作能力实现关键突破,现已开放API、产品体验及多平台开源渠道。

爱诗科技发布全球首个影视行业大模型「PixVerse C1」

4月8日,爱诗科技发布全球首个影视行业大模型「PixVerse C1」,现已上线Web端及API平台;该模型支持文生、图生、参考生、首尾帧等能力,最高可生成15秒1080P音画同步视频,能跟随提示词自动分镜,还可将多宫格分镜图一键转化为带原生剪辑感的连续成片,打通从概念到成片的创作链路。「PixVerse C1」突破单一主体限制,实现复杂场景多角色运动精准调度,系统性解决AI视频跨镜头连贯性问题;依托工业级动作引擎还原真实的打斗碰撞感,还深度优化光影粒子等特效的流动逻辑、完成传统文化符号具象建模,能以影视级标准呈现武打、玄幻、高速运动等各类镜头。

面壁智能联合OpenBMB与清华开源2B参数免费语音模型「VoxCPM 2」

4月8日,面壁智能联合OpenBMB开源社区与清华大学推出2B参数开源免费语音模型「VoxCPM 2」,单模型集成多语种、方言、音色设计、音色可控与48K高保真生成能力,支持全球30国语言、东南亚8大语种及中国9大方言,可文字描述生成音色、高还原度语音克隆,采用扩散自回归技术实现逼真语音,适配影视配音、有声书、出海内容等场景,支持多种推理与微调方式,已上线多平台体验与开源渠道。

World Labs发布「Marble 1.1」与「Marble 1.1-Plus」3D世界生成模型

4月8日,李飞飞团队的World Labs发布「Marble 1.1」与「Marble 1.1-Plus」两款3D世界生成模型,前者画质更稳定、视觉效果显著提升并成为默认模型,后者可打造超大复杂场景,二者均支持2D/3D输入、全景编辑与场景扩展,已开放体验与API调用,实测效果出色,同时平台采用分级定价并首次引入可变成本机制,完成生成质量与规模的能力补齐。

Meta历经九个月重组后推出首款闭源模型「Muse Spark」

4月9日,Meta历经九个月重组后推出Meta Superintelligence Labs首款闭源模型「Muse Spark」,定位为迈向“个人超级智能”的第一步;该模型具备多模态感知、工具调用、视觉思维链和多智能体协同能力,算力效率显著提升,综合智能指数跻身全球前五,但抽象推理、编码等能力短板明显,评测成绩不均衡,且Meta因在评测图表中刻意高亮自家数据被批“图表犯罪”,首席AI官火速致歉,此次Meta从开源转向闭源,暂未实现对GPT-5.4、Gemini 3.1 Pro等竞品的全面超越,仍处于追赶状态。

字节跳动Seed团队正式发布原生全双工语音大模型「Seeduplex」

4月9日,字节跳动Seed团队正式发布原生全双工语音大模型「Seeduplex」,采用“边听边说”全新框架,相比半双工模型实现精准抗干扰、动态判停两大核心突破,误回复/误打断率减半、抢话比例下降40%、时延显著降低,已在豆包App全量上线,成为业界首个规模化落地的全双工语音大模型,多项评测指标领先行业,大幅提升用户语音交互体验。

腾讯混元联合Robotics X实验室推出「HY-Embodied-0.5」具身智能模型系列

4月9日,腾讯混元联合Robotics X实验室推出「HY-Embodied-0.5」具身智能模型系列,采用创新MoT混合Transformer架构,推出MoT-2B与MoE-32B两款模型,依托海量具身与空间数据及多阶段后训练范式优化,在22项权威评测中拿下16项**,端侧小模型性能领先同参数通用模型,旗舰款可对标行业标杆,还能直接赋能机器人实机操作,填补通用视觉语言模型在物理世界精细交互的短板。

OpenClaw推出「2026.4.5」新版本,新增原生视频生成与睡眠记忆系统

4月6日,OpenClaw推出「2026.4.5」版本,实现原生视频、音乐和图片生成,接入多家顶尖提供商并支持本地部署与异步任务追踪;核心新增模拟人类的「Dreaming睡眠记忆」系统,分三阶段整理记忆并支持手动操作,决策透明且兼容多语言,该功能灵感疑似来自Claude Code泄露的源码;同时优化了GPT-5.4适配体验、提示词缓存复用率,落地机构化任务进程,新增多语言支持并完善安全修复,还开放了丰富的技能市场。

浏览器推出国内首个浏览器AI龙虾「QBotClaw」,免安装即用

4月8日,浏览器推出国内首个浏览器AI龙虾「QBotClaw」,免下载、免安装、零门槛,打开浏览器点击AI即可使用,支持自由配置国内主流大模型API Key,可通过微信远程操控电脑完成跨软件操作、信息抓取与文件处理,具备浏览器上下文记忆与高精度网页识别能力,还通过三重防护保障隐私安全,首期上线Mac版,Windows版即将推出,能帮用户完成整理桌面、购物比价、资料整理等多种任务。

腾讯「QClaw 2.4」版本发布,新增多Agent协作等多项功能

4月8日,腾讯「QClaw 2.4」版本发布,新增多Agent协作、连接器体系、对话体验优化、腾讯云Token Plan支持及工作室Agent人设替换功能,同时预告将上线Prompt优化插件、金融搜索增强、大模型输出重试、定时任务优化、Mac启动加速与稳定性提升等功能,用户可前往官网更新体验。

Anthropic发布「Claude Managed Agents」,构建企业级智能生态

4月9日,Anthropic正式发布「Claude Managed Agents」,这是一套云托管AI Agent可组合API,核心是自研的Harness编排引擎,采用会话、编排、沙箱三层虚拟化解耦架构,实现生产级安全沙箱、长时间持久化会话、自动工具调用与错误恢复、多Agent协调及自评估等能力,大幅降低企业开发部署门槛,已被Notion、Rakuten、Asana等企业落地使用;定价采用标准Token费率加会话活跃时长计费,标志Anthropic从模型提供商转向Agent基础设施提供商,完成商业闭环,其解耦设计与操作系统理念相似,还显著提升响应速度、优化安全与扩展性。

Cursor发布「Cursor 3」颠覆传统IDE,转向AI智能体控制台

4月6日,Cursor发布代号Glass的「Cursor 3」,以智能体管理控制台为主界面、将IDE降为备选,支持多仓库、智能体统一管理及Cloud Handoff云交接功能,近期还密集推出「Automations」自动化系统、自研模型「Composer 2」、自托管云智能体等产品。该产品的发布折射出AI辅助开发的范式变革,行业在智能体编排架构上存在分歧,这一趋势将重塑传统 IDE 格局、改变开发者工作模式与职业定位,深刻影响未来开发工具行业走向。

DeepSeek网页端低调上线「快速模式」与「专家模式」,开启产品分层

4月8日,DeepSeek网页端低调上线「快速模式」与「专家模式」,「快速模式」基于轻量化V4 Lite、响应快且支持图文识别,「专家模式」疑似调用更强模型、擅长复杂推理与数学逻辑,但暂不支持文件与多模态;实测显示专家模式在物理仿真、逻辑推导等任务优势显著,创意写作等场景差异较小,业内推测专家模式并非最终版V4,完整版V4预计4月推出,同时网页端还预留了Vision模式入口,此次更新标志着DeepSeek开启产品分层,既优化算力调度,也为后续商业化与多模态落地铺路。

MiniMax发布面向AI Agent的全模态命令行工具「MMX-CLI」

4月9日,MiniMax稀宇科技发布面向AI Agent的全模态命令行工具「MMX-CLI」,支持Agent在Claude Code、OpenClaw等环境中原生调用编程、视频生成、语音合成、音乐创作等全模态能力,无需复杂接口适配即可完成完整自动化工作流,还针对Agent优化了输出隔离、语义化状态码、非阻塞异步控制等特性,安装调用简便且无缝对接MiniMax Token Plan,是MiniMax布局Agent基础设施的首款工具。

微信支付推出AI原生接入Skill,大幅简化开发流程

4月9日,微信支付发布一整套面向AI的支付接入Skill,涵盖「Skill技能包」、「AI友好文档」与「AI友好API」三大工具,支持自然语言需求生成代码、代码诊断、智能排障及旧接口升级,大幅简化商户与开发者的支付接入流程,将接入时间从天级缩短至分钟级,实现安全高效的AI原生接入。

Karpathy开源「LLM Wiki」搭建方法论,让AI自主打理个人知识库

4月3日,Karpathy开源「LLM Wiki」搭建方法论,此次开源的不是代码而是75行Markdown思路文件,可交由AI智能体搭建专属个人知识库;该系统区别于传统RAG,能将资料编译为持续更新的Wiki,采用三层架构,通过灌入、提问、巡检实现知识循环维护,技术栈简单且搭配Obsidian即可使用。开发者Farza很快基于此打造出个人专属的Farzapedia,获Karpathy点赞,还总结出该方式在个性化AI方面的四大优势。这一系统实现了81年前Memex私人知识库的愿景,也体现出Karpathy的思路从让LLM操控代码演进至操控知识,Markdown成为人与AI交互的重要接口。

斯坦福推出「Meta-Harness」技术,解锁AI模型harness自主优化新能力

4月4日,斯坦福联合MIT等高校研究者推出「Meta-Harness」技术,一改传统优化思路,让AI自主优化模型的harness基础设施,能为优化器提供400倍于主流方法的完整上下文,通过自主迭代闭环实现性能提升;经其优化,Claude Haiku 4.5、Opus 4.6在代码代理测试中成绩大幅提升,小模型更是登顶同模型榜首,该技术在文本分类、数学推理任务中也表现优异,还能实现优化策略跨模型迁移;这一技术证明优化harness可显著提升模型性能,也标志着AI竞争从模型本身转向harness层面,AI自主优化harness或成LLM应用开发新阶段标志。

Anthropic宣布Claude订阅额度不再覆盖OpenClaw等第三方工具使用

4月4日,Anthropic宣布Claude订阅额度不再覆盖OpenClaw等第三方工具使用,相关使用需按需付费,该政策先落地OpenClaw并将逐步推广,官方称是因第三方工具给系统带来过大压力,同时为订阅用户提供等额月费抵扣、折扣流量包等补偿,也支持全额退款。此举引发争议,OpenClaw创始人吐槽Anthropic排斥开源,网友也指责其反对开源创新,而Claude Code负责人回应称是工程限制并非反对开源,第三方工具仍可通过API使用。网友对此看法两极,一方认为Anthropic错失发展机会,另一方则认为其无支持开源的义务,调整是因产能不足、出于经济效益的合理商业选择,还指出其他AI公司的相关补贴实则是营销手段。

硅谷刮起Token内卷风Meta 8.5万员工狂烧60万亿Token

4月7日消息,近期硅谷兴起Token最大化的职场新趋势,Meta 8.5万名员工参与内部Token消耗竞赛,30天总消耗量破60万亿,有人刻意刷取Token,此举引发外界对其与生产力挂钩的质疑;国内阿里、腾讯也布局Token相关业务,腾讯还将Token消耗量纳入员工考核。这一趋势受黄仁勋等科技大佬推动,他们将高Token使用量与生产效率绑定,扎克伯格也要求Meta代码库适配AI Agent。而Token消耗激增成为AI企业核心需求指标,Anthropic借此实现商业化提速,年化收入破300亿美元,还与Google、博通达成算力合作,大模型行业竞争也从拼模型能力,转向高效生产、处理和承载Token的综合比拼。

上海人工智能实验室发布「AGI4S珠穆朗玛计划」,打造科学智能全国中枢

4月7日,上海人工智能实验室发布「AGI4S珠穆朗玛计划」,旨在打造科学智能全国中枢,全面开放算力、数据等全维度合作通道,同步推出「DeepLink」算力平台、「Sciverse」科学数据库等三大基础设施,搭配迭代升级的“书生”科学大模型,激活成功教程科研算力、数据、周期等痛点。实验室还升级“攀登者行动计划”,通过项目经理人等创新机制汇聚全球科研力量,已在多领域落地成果并提速转化;同时联合多方启动科学应用场景共建计划,将AGI能力植入高能物理、新药创制、气象等关键领域,相关技术已实现产业化落地并产生显著价值。

智源研究院开源面向智能体的科技文献基础设施「DeepXiv」

4月9日,智源研究院开源面向智能体的科技文献基础设施「DeepXiv」,它将2亿+开放论文转化为智能体可直接使用的数据接口与技能系统,支持JSON/Markdown格式、渐进式阅读与分块精读,降低Token消耗并提升效率,已覆盖全量ArXiv并将扩展至PMC、ACM等多文献源,提供CLI、MCP、Python SDK等多种接入方式,集成论文检索、信息提取、热点追踪、深度调研等能力,可通过命令行快速完成科研文献自动化处理,助力科研智能体高效执行文献筛选、章节精读、结果整理等任务,推动自动化科研落地。

小讯
上一篇 2026-04-14 08:36
下一篇 2026-04-14 08:34

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/261565.html