- 月之暗面发布Kimi K2 Thinking模型
#1 - OpenRouter上线新stealth模型Polaris Alpha
#2 - 科大讯飞发布讯飞星火X1.5及AI产品
#3 - inceptionlabs发布下一代扩散模型Mercury
#4 - Gemini API 发布文件搜索工具
#5 - OpenAI修复云任务问题并提供免费积分
#6 - VS Code内联补全功能开源
#7 - Zed编辑器新增Auggie CLI和Opencode智能体
#8 - Novita AI宣布KAT-Coder API 限时免费
#9 - CodeBuddy国内版三端同步上线GLM-4.6
#10 - LMArena发布Arena Expert专家级评估框架
#11 - NotebookLM手机应用更新
#12 - Google Finance新增Deep Search等功能
#13 - Google Labs将Opal扩展至160+国家
#14 - GPT-5.1 thinking字符现身OpenAI网站
#15 - Maya Research发布Maya1开源AI语音模型
#16 - MiniMax与OpenRouterAI合作推出interleaved thinking统一协议
#17 - vLLM发布多项重大更新支持Kimi K2 Thinking与混合模型
#18 - Google推出第七代TPU Ironwood芯片
#19 - 微软组建MAI超级智能团队推进人本主义超级智能战略
#20 - Snap与Perplexity达成4亿美元合作
#21 - Google洽谈加深对Anthropic的投资
#22
月之暗面发布了其最强开源思考模型Kimi K2 Thinking,该模型拥有 1万亿参数和强大的自主工具调用能力,并在多项基准测试中刷新纪录。
月之暗面(MoonshotAI) 发布了其迄今能力最强的开源思考模型Kimi K2 Thinking。该模型基于“模型即Agent”理念构建,是一个拥有1万亿总参数的混合专家(MoE)模型,原生掌握“边思考,边使用工具”的能力,可自主执行高达200至300轮的连续工具调用。Kimi K2 Thinking在多项基准测试中取得SOTA成绩,并在推理、Agentic搜索和编程方面有显著提升。该模型支持原生INT4量化以提高效率,现已通过API和开源权重等方式提供。
Kimi K2 Thinking是Kimi K2模型家族的最新成员,被构建为一个“Thinking Agent”。通过同时扩展思考Token和工具调用轮次,实现更强的Agent和推理性能。模型采用混合专家(MoE)架构,总参数量为1万亿,激活参数为320亿,上下文窗口为256K。其核心能力在于能够无需人类干预,自主实现高达200至300轮的连续工具调用,并在此过程中保持连贯的多轮思考,以解决复杂问题。
Kimi K2 Thinking在多个评估推理、编码和Agent能力的基准测试中刷新了记录。在Agentic Reasoning方面,于“人类最后的考试”(Humanity‘s Last Exam, HLE)基准测试中,当使用搜索、Python和网络浏览工具时,取得了44.9%的SOTA分数,并成功通过23次推理与工具的交错调用解决了一个博士级别的数学问题。在Agentic Search and Browsing方面,于BrowseComp基准测试中获得60.2%的成绩,显著超过29.2%的人类基准,成为新的SOTA模型。在Agentic Coding方面,模型在SWE-Multilingual、SWE-Bench Verified和Terminal-Bench等测试中分别得分61.1%、71.3%和47.1%。此外,根据Artificial Analysis的独立测试,该模型在𝜏²-Bench Telecom Agentic基准测试中以93%的成绩位列第一。
为提升推理效率,Kimi K2 Thinking在后训练阶段采用了量化感知训练(QAT),对MoE组件应用了INT4纯权重(weight-only)量化。这使其能够支持原生的INT4推理,生成速度提升约2倍,并有效降低了延迟和GPU显存占用。所有基准测试成绩均在INT4精度下取得。此举也使模型文件大小从先前FP8版本的1.03TB减少到约594GB。
除了Agentic能力,模型在通用能力方面也得到升级。创意写作方面,表达更生动,情感共鸣更强;在学术与研究等实用性写作中,分析深度和逻辑结构均有提升;在处理个人或情感问题时,回答更具同理心和平衡感。
Kimi K2 Thinking现已上线http://kimi.com网站和最新版Kimi手机应用的常规对话模式,但为保证体验,仅部署了部分工具并减少了调用轮次。其完整的Agentic模式将在后续更新。模型的API已在Kimi开放平台上线,定价与K2非思考版本一致,支持256K上下文,并提供标准和Turbo两种速率选项。模型的开源权重已在Hugging Face和ModelScope等平台发布,采用定制修改的MIT许可证。同时,该模型也可通过OpenRouter等第三方平台访问。
https://moonshotai.github.io/Kimi-K2/thinking.html
https://mp.weixin..com/s/oQp1kFpoYFhYQ8GzbwZLyA
OpenRouter推出了一款名为Polaris Alpha的全新stealth模型,该模型定位为功能强大的通用模型,特别擅长编码和工具调用,并支持 256k上下文窗口。
OpenRouter宣布推出名为Polaris Alpha的新型stealth模型(不公开供应商),现已上线。该模型被定位为功能强大的通用模型,在现实世界任务中表现优异,尤其在编码、工具调用和指令跟随方面表现突出。该模型支持256k上下文窗口,为复杂任务提供了充足的处理空间。
https://openrouter.ai/openrouter/polaris-alpha
科大讯飞发布了基于全国产算力的讯飞星火X1.5深度推理大模型,该模型在数学等多个核心能力上表现优异,并支持超过 130种语言。
科大讯飞正式发布基于全国产算力的讯飞星火X1.5深度推理大模型。
讯飞星火X1.5采用MoE架构,总参数293B,激活参数30B,单台昇腾标配服务器即可部署,推理效率相较X1提升100%,端到端性能达到国际竞品效率的93%以上。模型在语言理解、文本生成、知识问答、逻辑推理、数学、代码六大核心能力上对标国际主流大模型,数学能力持续保持国际领先。高考数学测评中,星火X1.5得分145分,超越GPT‑5的141分和DeepSeek V3.2‑Exp的140分;在国际数学奥林匹克竞赛IMO 2025第三题中,星火X1.5给出正确答案。教育与医疗大模型在辅助教学、辅助学习、考试评测及医疗知识问答、诊疗推荐等任务上均超过GPT‑5和DeepSeek V3.2‑Exp,教育模型平均得分突破85分门槛。
星火X1.5的多语言能力升级后支持130+种语言,整体性能达到ChatGPT‑5的95%以上,拉美、东盟等14个重点语言效果领先;星火语音同传大模型2.0在IDC发布的《中国AI翻译技术评估》中8项核心维度评测均获行业第一。
https://mp.weixin..com/s/sW18MtR3k58YBuGhVg6rxw
Inception Labs对其旗舰扩散语言模型Mercury进行了重大升级,通过扩大模型规模、优化架构和改进训练推理算法,提升了模型整体能力。
Inception Labs宣布推出其旗舰扩散语言模型Mercury的重大升级版本。新版Mercury的主要改进包括:更大的模型和更多数据,增加参数数量并在更广泛、更高质量的数据集上训练;关键架构升级,改进去噪器架构以提高效率、表现力和整体模型能力;主要的训练和推理改进,设计新的训练目标、引入更快更准确的推理算法、构建优化的内核并推出全新的服务引擎。
升级后的Mercury模型已在Inception Labs的API平台以及通过合作伙伴OpenRouter和Poe提供。新用户可获得1000万个免费token,API与OpenAI API兼容,只需几秒钟即可集成。Mercury的定价保持不变:每100万输入token 0.25美元,每100万输出token 1.00美元。
https://www.inceptionlabs.ai/blog/mercury-refreshed http://platform.inceptionlabs.ai/ http://chat.inceptionlabs.ai/
Gemini API推出了File Search Tool,这是一个内置于API中的全托管RAG系统,旨在简化开发流程并提供强大的向量搜索和引用功能。
Gemini API 宣布推出File Search Tool,这是一个完全托管的检索增强生成(RAG)系统,直接构建在Gemini API中。该工具简化了RAG开发流程,让开发者能够专注于构建应用。
File Search Tool的核心优势在于其简化的开发者体验。该工具自动管理文件存储、最优分块策略、嵌入生成以及检索到的上下文动态注入到提示中,与现有的generateContent API无缝集成。它使用最新的Gemini Embedding模型进行向量搜索,能够理解用户查询的含义和上下文,即使没有使用确切的词汇也能找到相关信息。
该工具还提供内置引用功能,模型的响应自动包含引用,指定用于生成答案的文档部分,并支持广泛的文件格式,包括PDF、DOCX、TXT、JSON以及许多常见的编程语言文件类型。
在定价方面,为了让File Search对所有开发者都简单且负担得起,Google DeepMind实行了新的计费模式:存储和查询时的嵌入生成完全免费,开发者只需在首次索引文件时支付嵌入生成费用,固定费率为每100万个token 0.15美元(或适用的嵌入模型成本,在这种情况下是gemini-embedding-001)。
https://blog.google/technology/developers/file-search-gemini-api/ https://ai.google.dev/gemini-api/docs/file-search
OpenAI修复了Codex云任务的使用追踪问题,并为受影响的 Plus和 Pro用户提供了 200美元的免费积分作为补偿。
OpenAI Developers宣布已修复多项Codex云任务使用追踪问题,并表示更多效率改进即将推出。为感谢用户耐心等待,OpenAI向过去一个月使用云任务的Plus和Pro用户提供了200美元免费积分,有效期至11月20日。
OpenAI还计划在未来几天推出令人兴奋的更新,帮助用户在CLI和IDE扩展中获得更多使用量和积分价值。
https://x.com/OpenAIDevs/status/ https://x.com/embirico/status/
微软VS Code团队宣布其AI编辑器开源计划达到第二个里程碑,将内联补全功能作为Copilot Chat扩展的一部分正式开源。
微软VS Code团队宣布开源AI编辑器取得第二个里程碑,内联补全(inline suggestions)功能现已成为Copilot Chat扩展的一部分。在今年5月首次宣布开源AI编辑器计划,6月达到第一个里程碑开源GitHub Copilot Chat扩展后,团队今日完成了第二个里程碑,将内联补全功能开源。
开源之旅的下一个阶段是将Copilot Chat扩展中的一些AI功能和组件重构到VS Code核心中。团队将继续积极改进内联补全体验,开发者可以关注最新的迭代计划。
https://code.visualstudio.com/blogs/2025/11/04/openSourceAIEditorSecondMilestone https://github.com/microsoft/vscode-copilot-chat/tree/main/src/extension/completions-core
Zed编辑器宣布新增支持Auggie CLI和OpenCode两款AI智能体,用户可通过扩展商店快速安装使用。
Zed编辑器宣布现已支持两个新的AI智能体:Auggie CLI和OpenCode。这两个智能体通过ACP原生运行,用户可以从扩展商店快速安装并开始使用。
这两个新智能体可以与Zed编辑器中已有的其他AI工具协同工作,包括Claude Code、Gemini CLI和Codex,为开发者提供更加丰富的代码辅助功能选择。
https://x.com/augmentcode/status/0
Novita AI宣布其平台上的编程辅助工具KAT-CoderAPI将限时免费开放,以推广其先进的编程辅助技术。
Novita AI宣布其平台上的KAT-Coder限时免费使用。Kat Coder Pro V1版本已可用,平台方表示,这一举措旨在让更多开发者能够体验到先进的编程辅助技术,降低开发门槛,提升编程效率。用户可以通过访问@Trae_ai来体验KAT-Coder的各项功能。
https://x.com/KwaiAICoder/status/ https://x.com/novita_labs/status/
CodeBuddy国内版已在 IDE、插件和 CLI三端全面内置GLM-4.6并免费开放,同时 IDE更新至 1.2版本,带来多项功能优化。
CodeBuddy国内版已在IDE、插件、CLI三端全面内置GLM-4.6,CodeBuddy国内版免费开放。与此同时,CodeBuddy IDE已更新至1.2版本,为日常开发体验带来多项优化功能。具体包括:内置浏览器增强,新增DOM编辑与尺寸切换功能,结合模型能力实现对预览页面的微调与代码同步;新增历史对话记录一键清除功能,便于管理会话空间;支持展示MCP返回的图片内容;支持双击Mermaid图像以SVG格式预览源码,便于细节校对;同时修复了若干问题。
https://mp.weixin..com/s/NRjcq7qa2YlKcaNUHNYaDQ https://copilot.tencent.com/
LMArena团队发布了Arena Expert评估框架,通过引入专家级真实问题和 23个职业类别的评估体系,为大语言模型提供更严格、更具区分度的性能评估。
LMArena团队正式发布了Arena Expert,这是一个革命性的大语言模型评估框架,专门针对专家级真实问题进行测试。该框架不仅引入了新的专家排行榜,还建立了23个职业类别的评估体系,为AI模型在各个专业领域的性能提供了全面的评估标准。
Arena Expert的核心创新在于其能够识别和标记来自真实用户的专家级提示,这些提示来自各行各业的前沿专家。与之前的Arena Hard方法相比,Expert更加严格,Expert类别仅包含约5.5%的LMArena总提示,而Hard类别包含约三分之一。这种更严格的筛选产生了更明显的模型区分度,Expert排行榜上顶级模型的分数差异达到约80分,而整体排行榜的分数差异约为60分。
为了进一步推动研究,LMArena同时发布了包含5千个专家对话的数据集及其职业类别标记,该数据集已在Hugging Face上发布。这些评估体系的重要特点是它们能够持续自动更新,随着平台上有机使用量的增长而不断完善,为高质量人工评估提供了可扩展的替代方案。
https://news.lmarena.ai/arena-expert/
Google更新了NotebookLM手机应用,同步了Web端的抽认卡和测验功能,并基于最新的Gemini模型大幅提升了聊天质量和上下文处理能力。
Google更新NotebookLM手机应用,同步Web端已上线的抽认卡、测验等功能。同时,移动端的聊天功能也得到重大改进,质量提升50%,上下文窗口扩大4倍,对话记忆长度增加6倍,这些改进都基于最新的Gemini模型。
https://blog.google/technology/google-labs/notebooklm-app-quizzes-flashcards/
Google Finance推出重大更新,新增Deep Search复杂问题研究功能,引入预测市场数据,并首次扩展至 印度市场。
Google Finance正在进行重大功能更新,推出了多项新特性。其中包括Deep Search功能,允许用户提出最复杂的研究问题;引入来自Kalshi和Polymarket的Prediction markets数据,使用户能够探索关于未来市场事件的问题;以及首次进行国际化扩展,正式进入印度市场。这些新功能现已通过Google Finance beta版本向用户开放。
https://x.com/NewsFromGoogle/status/
Google Labs宣布将其无代码AI应用构建器Opal的服务范围扩展至全球 160多个国家,让更多用户能通过自然语言构建应用。
Google Labs宣布将其无代码AI应用构建器Opal扩展至全球160多个国家。Opal具备强大的功能,包括自动化复杂研究任务和从单一想法生成完整营销活动的能力。该平台允许构建者使用自然语言描述需求,系统自动生成相应的应用程序。
https://opal.google https://blog.google/technology/google-labs/opal-expansion-160/
据报道, OpenAI网站的 CDN资源中出现了gpt-5-1-thinking字符串,引发了关于GPT-5.1模型即将发布的猜测。
据报道,在OpenAI网站CDN资源中发现了gpt-5-1-thinking的字符,这被解读为GPT-5.1模型即将发布的确认信号。有观点认为,OpenAI很可能在Google发布Gemini 3.0的同一天推出GPT-5.1 thinking模型。目前这些消息主要来自社交媒体上观察者和技术爱好者,尚未有OpenAI官方消息。
https://x.com/btibor91/status/
Maya Research发布了开源文本转语音AI模型Maya1,该模型基于Llama架构,支持通过自然语言描述实时生成具有多种情感的语音。
Maya Research发布了Maya1模型,这是一个具备语音设计功能的开源文本转语音AI模型。Maya1采用3B参数的Llama架构,支持通过自然语言描述进行实时语音生成,具备20多种情感表达能力,使用场景涵盖游戏角色语音生成、播客和 audiobook制作、AI语音助手、视频内容创作、客户服务AI和辅助工具等。模型采用Apache 2.0开源许可证,支持商业使用,提供完整的vLLM集成和自动前缀缓存功能。
MiniMax与 OpenRouterAI合作,为MiniMax-M2模型提供了interleaved thinking支持,并致力于推动该协议成为行业统一标准。
MiniMax与OpenRouterAI宣布合作,为MiniMax-M2提供interleaved thinking支持。
OpenAI Chat Completion API长期缺乏proper interleaved thinking支持。基于OpenRouterAI的Preserve Reasoning Tokens能力,双方合作开发了新的解决方案。MiniMax-M2的响应现在包含独立的reasoning_details字段,开发者只需在后续请求中传递该字段,即可维持interleaved thinking并解锁MiniMax-M2的完整性能。只需在请求中添加reasoning_split参数即可使用该功能。
双方正积极与更多编程工具合作伙伴协作,推动该协议成为Chat Completion API中支持interleaved thinking的统一标准,让更多模型和开发者受益。
https://x.com/SkylerMiao7/status/ https://openrouter.ai/docs/use-cases/reasoning-tokens#preserving-reasoning-blocks
vLLM项目宣布重大更新,正式支持 Kimi的Kimi K2 Thinking模型,并全面支持Qwen3-Next等混合模型。
vLLM项目宣布了一系列重要更新,包括对Kimi K2 Thinking模型的官方支持以及混合模型的全面支持。在Kimi K2 Thinking支持方面,vLLM与Kimi Moonshot合作,为这款最先进的开源思考模型提供官方支持。在混合模型支持方面,vLLM宣布对Qwen3-Next、Nemotron Nano 2和Granite 4.0等混合模型提供全面支持。这是vLLM社区将混合模型从V0版本的实验性功能提升为V1版本的重要里程碑。PyTorch生态系统中的这些混合模型现在在vLLM中得到了完全支持。
https://pytorch.org/blog/hybrid-models-as-first-class-citizens-in-vllm
Google宣布其迄今最强大的第七代 TPU芯片Ironwood (TPU v7)已广泛提供给 Google Cloud客户,其峰值性能相比TPU v5p提升了 10倍。
Google宣布其第七代TPU芯片Ironwood (TPU v7)即将进入正式上市(GA)阶段,并已广泛提供给Google Cloud客户。根据官方声明,Ironwood是Google迄今为止最强大的TPU。与TPU v5p相比,其峰值性能实现了10倍的提升。在与TPU v6e (Trillium)的比较中,Ironwood在训练和推理两种工作负载下的单芯片性能均提升了超过4倍。另有信息指出,其速度是前代产品的4倍。
在系统扩展性方面,单个pod能够连接超过9000个TPU。Google内部已使用TPU来训练和服务其前沿模型,其中包括Gemini。该芯片最早于四月份被介绍。
https://x.com/Google/status/
微软人工智能部门 CEO 穆斯塔法・苏莱曼宣布成立MAI超级智能团队,旨在开发以人类利益为中心的人本主义超级智能(HSI)系统。
微软人工智能部门首席执行官穆斯塔法・苏莱曼宣布成立MAI超级智能团队,致力于开发人本主义超级智能系统。该团队由苏莱曼与Karén Simonyan领导,旨在通过聚焦特定领域问题解决而非无限制自主发展,打造始终服务于人类利益的超级智能技术。
微软AI部门在其官方博客中详细阐述了人本主义超级智能(HSI)的核心理念。HSI强调以人类利益为中心的AI发展路径,通过谨慎校准和情境化的AI系统来探索最先进AI技术,同时确保人类保持控制权并加速解决全球最紧迫挑战。该方法拒绝AGI竞赛叙事,将技术发展视为改善人类生活前景的更广泛人文努力的一部分。
https://microsoft.ai/news/towards-humanist-superintelligence/
Snap与AI搜索引擎 Perplexity达成一项价值 4亿美元的合作协议, Perplexity将从 2026年起成为 Snapchat的默认搜索引擎。
Snap与AI搜索引擎Perplexity签署合作协议,Perplexity将支付Snap总计4亿美元的现金和股权,作为回报,Perplexity的AI搜索引擎将从2026年开始成为Snapchat内的默认搜索选项。
https://techcrunch.com/2025/11/06/perplexity-to-pay-snap-400m-to-power-search-in-snapchat/
据报道, Google正在洽谈加深对 Anthropic的投资,这笔潜在交易可能使 Anthropic的估值超过 3500亿美元。
根据报道,Google正处于早期洽谈阶段,计划加深对Anthropic的投资。此次潜在的新融资可能使Anthropic的估值超过3500亿美元,具体交易形式仍在协商中,可能包括提供额外云计算服务的战略投资、可转换票据或明年初的定价融资轮。
Google与Anthropic在10月宣布了一项价值数百亿美元的大规模云计算协议,该协议使Anthropic能够使用多达一百万个Google定制设计的TPU。同时,Anthropic也与Amazon保持着紧密的合作关系。Amazon已向Anthropic投资140亿美元,后者使用AWS的定制芯片来构建和部署其AI模型。Anthropic上月表示,其仍然“致力于与我们的主要训练合作伙伴和云提供商Amazon的合作关系”。此外,Anthropic也使用NVIDIA的GPU来训练和驱动其模型。
https://www.businessinsider.com/google-deepen-investment-in-ai-anthropic-2025-11
提示:内容由AI辅助创作,可能存在幻觉和错误。
作者橘鸦Juya,视频版在同名哔哩哔哩。欢迎点赞、关注、分享。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/219458.html