2026年AI Compass前沿速览：聚焦 OmniShow、Gemini 3.1 Flash TTS 与新混元3D世界模型 2.0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

AI-Compass 不只是一个 AI 资源汇总仓库，更是一套覆盖“学习认知、技术选型、工程实践、项目落地”的开源导航系统。无论你是刚进入 AI 领域的初学者，还是正在推进 RAG、Agent、多模态、推理部署等项目的开发者，都能在这里快速找到清晰的学习路径、关键资料与可复用的实践方案。

项目围绕博客、可运行代码、基础知识、技术框架、应用实践、产品与工具、学习资源、企业开源、社区与平台九大模块持续沉淀内容，既适合个人系统学习，也适合作为团队做技术调研、方案选型和能力建设的长期参考。把仓库放到本地后，还可以直接结合 Codex、Claude Code 等 AI 编程助手进行知识问答、专题检索、项目拆解和路线梳理，让仓库从“能看”真正升级为“能用”。

github地址：AI-Compass
gitee地址：AI-Compass

 如果本项目对您有所帮助，请为我们点亮一颗星！

有道宝库是网易有道推出的AI知识管理工具，支持用户上传多格式文档并结合在线搜索构建专属知识库，可基于知识库实现精准问答与多模态内容生成，帮助用户快速处理资料、深化知识理解，提升学习与工作效率。

1.1.1 核心功能

私有知识库构建：支持PDF、Word等多格式文档批量上传，结合全网/学术搜索补充资料，打造专属知识体系。
精准溯源问答：基于知识库内容对话式答疑，所有回答标注原文来源，可一键跳转验证，消除AI幻觉。
多模态内容生成：一键生成可二次编辑的PPT、脑图、播客、信息图等，支持自定义模板风格与内容参数。
文档翻译处理：提供文档级别翻译功能，助力用户快速解析英文等外文专业文献。

1.1.2 技术原理

采用大语言模型架构，对上传文档进行NLP语义分析与信息抽取，自动构建知识图谱实现内容结构化存储；基于检索增强生成（RAG）技术，从知识库精准匹配信息生成问答内容，确保输出可溯源；依托多模态生成模型，将文本内容转化为PPT、音频等多元格式，同时通过端到端加密架构保障用户数据安全。

1.1.3 应用场景

学术研究辅助：科研人员上传领域文献，通过问答提取核心观点，生成带溯源的研究综述，提升文献处理效率。
职场汇报场景：职场人导入项目文档、数据表格，快速生成专业PPT，用于年度总结、竞品分析等工作汇报。
陌生领域学习：学习者上传专业资料，借助脑图梳理知识框架、播客利用碎片时间吸收，快速建立领域认知。
内容创作支持：内容创作者导入素材，一键生成图文稿、播客脚本，降低内容整理与生产的人力成本。

官网：https://baoku.youdao.com/

Gemini 3.1 Flash TTS是谷歌推出的新一代文本转语音模型，支持70余种语言，通过音频标签技术实现对语音风格、语速的精准控制，音质在第三方评测中排名靠前，且所有生成音频嵌入SynthID隐形水印，兼具高性价比与安全性，可通过Google AI Studio、Vertex AI等平台使用。

1.2.1 核心功能

高自然度语音合成：生成的语音比前代更自然流畅，达到当前顶尖的合成音质水准。
音频标签精准控制：可在文本中嵌入自然语言指令，精确调节语音风格、语速和表达方式。
多角色对话支持：原生适配多说话人场景，能通过Audio Profiles保持角色音色和风格的一致性。
场景化导演功能：可定义环境背景和对话指令，让角色在多轮交互中保持情境化表达。
跨平台参数导出：能将调试好的语音参数导出为Gemini API代码，确保在不同项目和平台中声音一致。
内置水印安全机制：所有生成音频自动嵌入SynthID隐形水印，可可靠检测AI生成内容，防范虚假信息。

1.2.2 技术原理

该模型基于谷歌Gemini架构打造，采用神经声码器与端到端TTS算法，实现高自然度语音合成。音频标签技术通过语义解析模型，将自然语言指令转换为声学特征参数，实时调节语音的韵律、语调等维度。多角色对话依赖音色指纹（Audio Profiles）技术，通过声纹特征提取与匹配确保角色声音一致性。SynthID水印技术将身份标识信息嵌入音频频域，实现不可感知且鲁棒的AI内容溯源。模型采用分布式推理架构，支持多语言并行处理，适配云端大规模部署。

1.2.3 应用场景

有声内容制作：开发者可利用音频标签控制旁白和角色对话的情感表达，为有声书、播客创建多角色沉浸式叙事内容。
虚拟客服系统：企业可构建具备独特音色和情感表达的AI客服，通过自然语言指令实时调整语调以适配不同服务场景。
游戏内容开发：游戏开发者可为NPC分配专属Audio Profiles，定义场景背景，让角色在交互中保持声音一致性和情境化表演。
本地化教育内容：教育机构可借助70余种语言支持，制作本地化语音教材，通过调整语速和发音风格适配不同年龄段学习者。
无障碍辅助服务：开发者可集成高自然度语音为视障用户提供屏幕朗读功能，同时依靠SynthID水印确保内容来源透明可信。

项目官网：https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

SearchClaw是中国人民大学信息检索实验室推出的自托管式AI深度研究智能体，基于FastAPI构建并配备Web交互界面。用户提交问题后，系统可自动完成多轮网络搜索、页面抓取、论文检索与内容综合，最终生成带引用链接的详实报告，支持多种大语言模型与持久化记忆，适合科研人员、分析师开展可溯源的自动化调研。

1.3.1 核心功能

自主多轮研究循环：自动迭代执行搜索、抓取、阅读、引用操作，直至生成达标答案，无需人工干预迭代过程。
多源信息检索：集成网页、学术论文、新闻及微信公众号文章搜索，覆盖中英文多类异构信息来源，适配跨境调研场景。
浏览器深度集成：通过Playwright/CDP技术渲染JavaScript页面，支持登录态抓取，可获取需认证或JS渲染的内容。
质量门禁系统：内置钩子检查机制，对引用数量、来源多样性及答案完整性进行校验，不达标则自动补充研究。
跨会话持久记忆：自动保存并复用过往研究中的高质量来源、用户偏好与关键事实，优化后续调研效率。

1.3.2 技术原理

采用“工具+钩子”的架构设计，基于FastAPI搭建本地服务器，通过litellm实现多LLM提供商的路由兼容。核心运行机制为：用户问题经WebSocket传入后，LLM驱动agentic research loop，自主调用web_search、academic_search等工具集完成信息获取；通过research_plan工具拆解复杂查询为子任务，借助builtin_hooks钩子执行质量校验；采用双阶段上下文压缩机制管理长会话的上下文窗口，结合文件存储的持久记忆系统实现跨会话信息复用；支持Playwright/CDP两种浏览器渲染模式，解决JS页面与登录内容抓取难题。

1.3.3 应用场景

学术文献综述：科研人员可使用该工具自动检索Semantic Scholar与arXiv论文，快速生成带引用的领域进展摘要，提升文献调研效率。
市场竞品监测：行业分析师能借助其追踪新闻源与微信公众号动态，自动整合信息并输出带时间戳的竞品分析报告，掌握市场态势。
政策与法规研究：合规从业者可通过工具抓取政府网站与智库报告，整合多语言来源形成合规分析报告，辅助政策解读与合规判断。
技术选型评估：开发人员可利用其搜索技术博客、GitHub讨论与学术论文，对比不同技术框架的社区评价与性能数据，支撑技术选型决策。

GitHub仓库：https://github.com/RUC-NLPIR/SearchClaw
GitHub仓库：https://github.com/RUC-NLPIR/SearchClaw.git

MAI-Image-2-Efficient是微软推出的MAI-Image-2轻量版文生图模型，主打高性价比商业量产。在保持照片级图像质量的同时，实现成本降低41%、生成速度提升22%，GPU效率提升4倍，为企业级高频视觉内容生产提供经济型解决方案。

1.4.1 核心功能

高保真图像生成：可生成照片级真实图像，擅长产品摄影、UI原型和营销素材等商业视觉内容创作。
图像内文本渲染：稳定渲染图像内短文本，清晰生成标题、标签、按钮文案等文字内容。
批量异步处理：支持批量异步生成任务，满足企业级高吞吐量、自动化的生产需求。
OpenAI兼容API：提供OpenAI兼容的REST API，便于开发者无缝集成和迁移现有代码。
企业级安全保障：集成Azure企业级安全合规体系，支持私有端点和VNET网络隔离确保数据安全。

1.4.2 技术原理

该模型基于MAI-Image-2架构进行轻量化优化，通过模型蒸馏和结构剪枝技术压缩参数量，在NVIDIA H100 GPU上实现4倍GPU效率提升。采用优化的扩散模型采样算法，将生成速度提升22%，同时保持照片级生成质量。支持与OpenAI DALL-E 3兼容的API协议，底层基于Azure AI Inference SDK实现高效推理，通过私有端点和VNET网络隔离构建企业级安全部署架构。

1.4.3 应用场景

电商产品视觉：电商运营人员可批量生成产品主图、详情页素材，替代传统摄影降低成本。
UI/UX设计：设计师可快速将线框图渲染为高保真界面原型，加速设计评审迭代。
营销内容生产：营销人员可自动化生成社交媒体配图、广告Banner，满足高频内容更新需求。
实时交互应用：开发者可为在线配置器等场景提供即时视觉反馈，支持用户自定义参数的图像生成。

项目官网：https://microsoft.ai/news/mai-image-2-efficient/

Marble 1.1是李飞飞World Labs推出的新一代生成式世界模型，主打画质优化，能将图片、视频或全景图转化为可自由探索的沉浸式3D场景，可有效改善光照与色彩表现，适合室内设计、游戏场景重建等对画质要求较高的3D可视化场景。

1.5.1 核心功能

2D转3D世界生成：支持将单张或多张图片、视频、全景图转化为可自由探索的沉浸式3D场景，补全空间信息。
画质增强优化：精准提升画面光照效果与对比度，大幅减少过曝、泛白等瑕疵，还原真实饱满的色彩与细节。
360°空间重建：基于空间智能技术构建具备真实空间感的可交互环境，支持用户自由切换视角漫游。
快速原型制作：3-5分钟即可完成生成，帮助设计师、开发者快速将概念图转化为可预览的3D空间。

1.5.2 技术原理

该模型属于生成式世界模型，基于Transformer架构与扩散算法实现2D到3D的空间转换；通过多视角几何感知网络重建360°空间结构，结合光照估计模型优化场景光影表现；采用特征对齐算法匹配输入内容的材质与色彩特征，降低视觉伪影；依托云端分布式推理框架，实现3-5分钟的快速生成。

1.5.3 应用场景

室内设计：设计师将房间照片转化为可漫游的3D空间，用于家装方案展示与空间改造效果预览，提升客户沟通效率。
游戏开发：开发者快速将概念图转化为《我的世界》风格、密室逃脱等游戏关卡原型，支持360°视角探索与迭代。
房产可视化：将建筑内部照片生成高精度3D场景，用于虚拟看房，还原真实光照与材质细节，降低线下带看成本。
影视内容创作：复刻影视场景或创建科幻、童话等概念空间，支持全景视频制作，辅助影视前期概念验证。

GenieAI是腾讯云CodeBuddy推出的AI应用生成平台，支持用户通过自然语言描述需求，自动生成包含前后端和数据库的全栈应用，覆盖从构思到部署的全流程。该平台无需用户具备编程基础，适合产品经理、创业者及非技术人员快速验证创意，生成的可直接上线使用的完整产品而非演示demo。

1.6.1 核心功能

自然语言生成应用：用户输入一句话描述需求，即可自动生成网页、小程序、游戏、PPT等完整应用，无需编程基础。
全流程开发覆盖：从需求分析、界面设计、代码开发到一键部署，生成包含前后端和数据库的完整全栈项目，可直接上线。
可视化迭代优化：支持框选页面区域进行精准修改，可上传截图或文档指导AI调整细节，实现可视化的应用迭代。
AI主动功能建议：基于已生成的应用功能，AI会自动提出优化建议，如添加动画、提醒功能等，助力应用体验升级。
多端小程序适配：基于Taro框架生成代码，可编译到微信、支付宝等多平台，实现一套代码多端运行。

1.6.2 技术原理

GenieAI基于大语言模型实现自然语言到代码的转换，通过需求拆解算法将用户的自然语言描述转化为结构化的开发任务。前端采用Taro跨端框架实现多端代码生成与兼容，后端依托腾讯云的云原生架构自动配置数据库、存储和身份认证服务。平台集成计算机视觉技术支持可视化框选编辑，通过强化学习模型实现AI主动功能建议，利用容器化技术实现一键零配置部署，确保生成的应用具备生产环境可用性。

1.6.3 应用场景

个人效率工具搭建：职场人士和学生无需编程，快速搭建待办清单、习惯打卡等专属效率工具，定制符合个人工作流的应用。
创业MVP快速验证：独立开发者和创业者可在几小时内将产品概念转化为可上线的全栈应用，低成本验证市场需求。
教育辅助工具定制：教师和家长可定制英语写作评分平台、单词记忆工具等教学应用，利用AI交互功能辅助学生学习。
多端小程序开发：商家和创作者一键生成微信、支付宝等多端小程序，覆盖健身打卡、会员管理等场景，快速布局小程序生态。

LPM 1.0是Anuttacon推出的17B参数视频角色表演生成模型，支持实时全双工音视频对话，可将单图转化为能说话、倾听、带细腻微表情的数字人，且能保持无限时长身份一致。它可作为AI对话、虚拟直播、游戏NPC等场景的通用视觉引擎，解决了传统模型难以同时实现高表现力、实时推理和长时身份稳定性的困境。

1.7.1 核心功能

实时全双工对话：支持同时进行说话和倾听的实时互动，双方可随时打断，能生成回应前的停顿、目光转移等自然反应，让交互更贴近真实人际沟通。
无限时长身份一致：基于图像输入，可保持角色外貌、牙齿、表情纹路、侧脸轮廓等细节在数小时长视频中稳定不变，避免出现“越生成越失真”的问题。
三模态控制：通过文本控制动作与表情、音频驱动口型与节奏、参考图像保持身份，实现对角色表演的精准联合控制，满足多样化创作需求。
零样本泛化：无需针对特定领域微调，就能支持写实人类、2D动漫、3D游戏角色、非人生物等任意风格的角色生成，具备极强的适配能力。
情感表演：能够生成犹豫、思考、呼吸节奏等细腻微表情，还可支持唱歌时的旋律对齐嘴型，让角色表演更具情感张力和真实感。

1.7.2 技术原理

数据构建：通过严格质量过滤（保留率<10%）去除剪辑痕迹、美颜滤镜等缺陷，利用改进的LR-ASD模型标注每帧说话/倾听/空闲状态并实现音频分离，同时构建全局外观、多视角身体和面部表情的多粒度身份参考条件，形成大规模多模态数据集。
Base LPM：基于14B图像到视频预训练模型增加3B参数交错音频交叉注意力块，形成17B扩散Transformer（DiT），联合学习语音驱动动态、倾听反应、文本控制和多参考身份保持，训练超17万亿多模态token，实现高质量角色表演生成。采用 interleaved dual-audio injection策略，在偶数层处理说话音频、奇数层处理倾听音频，提升参数与计算效率，同时利用多参考图像token注入和RoPE位置编码实现身份一致性。
Online LPM：通过四阶段自回归蒸馏课程将Base LPM转化为因果流式生成器，采用Backbone-Refiner架构，Backbone维护时序潜变量轨迹，Refiner恢复高保真细节，实现低延迟实时推理和无限长度身份一致生成。训练过程采用ODE初始化、DMD（Distribution Matching Distillation）等方法，优化在线生成的稳定性与质量。
系统架构：与A2A音频模型即插即用兼容，循环处理倾听、说话、空闲三状态，实时生成对应视频流。采用滑动窗口解码、预RoPE KV缓存、sink tokens等技术，保障长时生成的效率与稳定性。

1.7.3 应用场景

对话式人工智能代理：为AI助手赋予具象化的人类视觉存在感，支持面对面真实互动，可应用于客户支持、虚拟助理、数字人类等场景，提升用户交互体验。
互动NPC与游戏角色：打造具备语境对话、倾听行为和情感连贯肢体语言的开放世界NPC，无需单独动作捕捉就能实现互动叙事，为游戏增添沉浸式体验。
直播与虚拟主持：实现实时虚拟流媒体，可在数小时长直播、亚秒延迟下保持身份一致性和视觉质量，支持24小时全天候播出，适用于虚拟主播、在线活动主持等场景。
教育与个性化辅导：AI导师具备持续视觉存在感，可在长时间教学中保持身份一致，实现从热情讲解到专注倾听的自然切换，为个性化教育提供支持。
游戏伴侣：实时AI伙伴通过上下文评论、情感鼓励和自然表情响应游戏过程，为单人游戏增加社交互动体验，提升游戏趣味性和陪伴感。

arXiv技术论文：https://arxiv.org/pdf/2604.07823
项目官网：https://large-performance-model.github.io/

MiniMax Music 2.6是稀宇科技推出的新一代AI音乐生成模型，实现了从底层架构到创作体验的全维进化。该模型将首包延迟压缩至20秒内，可精准控制BPM、段落结构与情绪表达，同时优化了人声、低频及国风音色表现，还支持Cover跨风格翻唱与AI Agent生态集成，为用户提供高效、可控的音乐创作体验。

1.8.1 核心功能

智能音乐生成：输入自然语言描述或歌词，即可自动生成多风格完整歌曲，支持精准控制BPM、调性及14种段落结构，满足多样化创作需求。
Cover翻唱与重制：上传参考音频后，可提取旋律骨架进行跨风格改编，或嵌入新歌词生成翻唱作品，为音乐二次创作提供新路径。
AI Agent Music Skill：面向开发者开源三项技能，包括AI自动音乐生成、个性歌单编排及虚拟角色演唱，助力AI Agent集成音乐能力。
专业级音频控制：支持精准锁定节拍速度与调性，通过14种段落标签规划音乐结构，解决AI音乐创作的不可控问题，忠实还原创作意图。
多语言人声合成：优化人声表现，呈现自然真实的演唱感，支持中英文歌词生成，在国风场景下可精准模拟传统乐器与戏曲唱腔的动态变化。

1.8.2 技术原理

该模型基于abab 7系列大模型架构打造，通过底层架构深度重构实现首包延迟压缩至20秒以内。采用精准的BPM锁定算法与段落结构控制机制，结合声学模型优化，提升人声自然度与低频表现。针对国风场景，通过专项训练实现传统乐器音色与戏曲唱腔的精准还原。同时，构建开源AI Agent Music Skill生态，通过API接口实现与外部系统的集成，支持音乐生成、歌单编排等功能的灵活调用。

1.8.3 应用场景

个人音乐创作：普通用户无需音乐基础，通过自然语言描述即可创作原创歌曲，适用于生日祝福、情感表达等场景，满足个性化音乐需求。
游戏与互动娱乐：专为游戏配乐优化中低频表现，可生成贴合游戏氛围的背景音乐与音效，开发者可通过API批量生成适配不同关卡的音频资源。
短视频与社交媒体：为短视频创作者、主播等提供定制化背景音乐，快速生成与内容情绪匹配的配乐，解决版权音乐受限问题。
AI Agent集成：通过开源的Music Skill，为AI智能体赋予音乐生成、歌单编排等能力，可应用于智能客服、虚拟陪伴等场景，提升交互体验。
国风内容创作：利用国风专项优化能力，为古风视频、传统文化宣传等生成符合风格的音乐，精准还原传统乐器与戏曲唱腔的韵味。

官网地址：https://www.minimaxi.com/audio/music
项目官网：https://www.minimaxi.com/audio/music，登录账号（新用户需注册

GLM-5.1是智谱推出的开源大语言模型，在SWE-bench Pro复杂软件工程测试中超越Claude Opus 4.6，登顶全球**，同时拿下Coding综合榜单开源第一、国产第一、全球第三的成绩，可高效完成全链路项目交付与复杂数据处理任务。

1.9.1 核心功能

全链路代码开发：能自主拆分前后端开发任务，从目录结构搭建到代码编写、配置调整全流程完成，还支持本地文件操作授权确认，可控性强。
跨模态数据调研：可主动调用Web Search验证信息，完成多源数据检索、过滤与交叉验证，自动生成结构化报告并保存为指定格式文件。
长链路任务执行：具备稳定的长文本记忆与目标感，能在多小时的复杂任务中保持流程推进，自行检测并修复代码报错，确保任务交付。
API与配置管理：可开发本地运行的API管理系统，支持密钥的增删改查、分类管理、脱敏展示与调用测试，还能记录调用日志与响应信息。

1.9.2 技术原理

基于Transformer架构优化，强化长上下文窗口的注意力机制，实现稳定的长文本记忆与任务目标追踪；集成联网检索模块，通过多源信息交叉验证提升数据准确性；内置代码自修复算法，可定位语法与编码错误并自动修正；兼容Claude工程化Harness，支持跨文件工程架构解析与端到端项目调度。

1.9.3 应用场景

独立开发者：借助GLM-5.1快速开发Web应用、本地工具等项目，无需手动编写大量代码，只需补充关键配置即可完成交付，提升开发效率。
数据分析师：让模型自动完成行业数据调研、多维度信息对比分析，并生成标准化报告文档，减少人工检索与整理的时间成本。
企业技术团队：用于内部工具开发、API资产管理等场景，降低中小工具的开发门槛，提升团队的流程自动化水平。
科研人员：利用其长链路调研能力，快速收集领域内多源研究信息，整理成结构化分析材料，辅助科研选题与文献综述撰写。

HY-World 2.0是腾讯混元推出的开源多模态3D世界模型，支持从文本、单图、多视图或视频生成可漫游的3D高斯溅射（3DGS）场景。它采用全景生成、轨迹规划、世界扩展、3D重建四阶段架构，实现“文/图生3D世界”与“视频重建3D世界”的统一，生成场景支持物理碰撞、角色探索，可导出至Unity/UE引擎，性能对标闭源商业产品Marble。

2.1.1 核心功能

世界生成：基于文本或单张图片生成360°可漫游的3DGS/Mesh沉浸式场景，满足创意内容快速制作需求。
世界重建：从多视图图像或视频输入重建高保真3D数字孪生空间，为现实场景数字化提供高效解决方案。
全景图生成：通过HY-Pano 2.0将任意视角图片或文字转换为360°全景图，无需相机元数据，适配真实场景图片。
轨迹智能规划：依靠WorldNav解析场景语义并规划探索路径，避免穿墙等不合理行为，提升场景探索合理性。
角色冒险模式：支持操控角色在生成场景中自由行走探索，结合物理碰撞检测，带来真实交互体验。
多格式导出：支持3DGS、Mesh、点云、视频等多种格式及主流引擎对接，方便后续开发与应用。

2.1.2 技术原理

全景图生成（HY-Pano 2.0）：采用端到端隐式学习方案，通过多模态Diffusion Transformer（MMDiT）自主学习从透视图到360°等距圆柱投影（ERP）的空间映射。引入圆形填充和像素混合技术解决ERP边界不连续问题，结合真实全景与UE合成数据混合训练，提升全景生成质量。
轨迹规划（WorldNav）：通过几何与语义场景解析获取全景点云、Mesh、语义分割、NavMesh等数据，采用五种启发式轨迹模式（常规、环绕、重建感知、漫游、空中），以最大化信息覆盖为目标规划碰撞-free路径，确保场景探索全面性。
世界扩展（WorldStereo 2.0）：基于关键帧生成而非连续视频生成，引入全局几何记忆（GGM）和空间立体记忆（SSM++）机制，保证多视角一致性。通过模型蒸馏提升效率，实现沿规划路径的场景扩展与细节补全，解决长轨迹漫游视觉连贯性问题。
世界重建（WorldMirror 2.0）：采用前馈式3D预测模型，运用归一化位置编码、显式法线监督和深度掩码预测优化几何精度。结合3D高斯溅射进行最终场景融合与优化，支持从生成视图和真实输入进行鲁棒重建，提升重建准确性与适用性。

2.1.3 应用场景

游戏开发领域：开发者可使用模型快速生成具备物理碰撞的可交互3D场景原型，显著降低传统关卡设计的时间和技术门槛，加快游戏开发进度。
虚拟现实应用：构建高保真沉浸式VR/AR空间，支持终端用户在生成环境中自由行走和实时探索，为VR/AR内容创作提供丰富素材。
数字孪生构建：用户仅需提供少量照片或短视频，即可自动重建真实物理世界的高精度3D数字副本，适用于智慧城市、工业制造等领域的数字化管理。
机器人仿真训练：为具身智能和自动驾驶系统提供物理一致、可交互的虚拟训练环境，支持算法安全验证，降低真实场景训练成本与风险。
影视虚拟制片：生成360°全景虚拟背景资产，用于电影预演、虚拟摄影棚拍摄及后期特效合成制作，提升影视制作效率与创意空间。

GitHub仓库：https://github.com/Tencent-Hunyuan/HY-World-2.0
HuggingFace模型库：https://huggingface.co/tencent/HY-World-2.0
技术论文：https://3d-models.hunyuan.tencent.com/world/world2_0/HY_World_2_0.pdf
项目官网：https://3d-models.hunyuan.tencent.com/world/

Relax是小红书AI平台团队开源的全模态大模型强化学习训练引擎，基于Megatron-LM与SGLang构建，采用服务化异步架构实现训练与推理解耦。它支持文本、图像、音频、视频统一训练，在Qwen3-Omni-30B上验证了四模态稳定收敛，16×H800全异步模式较Colocate提速76%，较veRL提速20%，具备分钟级故障恢复与弹性扩缩容能力。

2.2.1 核心功能

全模态RL训练：统一支持文本、图像、音频、视频端到端强化学习后训练，已验证Qwen3-Omni系列稳定收敛超2000步。
异步训练架构：通过TransferQueue实现Rollout、Actor、Critic角色完全解耦并行，消除GPU空转，在Qwen3-Omni-30B上实现2倍训练速度提升。
服务化容错机制：每个RL角色作为独立Ray Serve部署，采用两级恢复策略，故障可在分钟级恢复且无需回退磁盘检查点。
弹性扩缩容：通过HTTP REST API动态增减Rollout推理引擎，支持同集群与跨集群联邦推理，资源调度灵活高效。
MoE高效支持：R3（Rollout Routing Replay）开销仅1.9%，解决MoE模型训练与推理路由不匹配问题，远低于竞品32%的开销。

2.2.2 技术原理

服务化异步架构：采用六层服务化设计，将Actor、Critic、Rollout等角色封装为独立Ray Serve服务，通过TransferQueue实现流式微批传输，计算与数据完全解耦，支持Colocate与全异步两种部署模式。
全模态数据处理：内建Omni Processor统一处理多模态数据，采用模态感知并行策略（ViT张量并行、编码器感知流水线放置），通过Field-Level存储实现同一样本不同字段独立读写，适配RL多阶段计算特性。
分布式权重同步：DCS（分布式检查点服务）实现NCCL/TCP双通道低延迟权重广播，支持GPU-GPU直接同步，避免磁盘IO开销，跨集群场景自动切换TCP传输。
异步一致性控制：通过max_staleness参数统一控制On/Off-Policy模式，StreamingDataLoader支持增量消费，DCS权重同步与训练计算重叠，平衡吞吐与策略新鲜度。

2.2.3 应用场景

全模态大模型后训练：针对Qwen3-Omni等支持多模态输入的大模型，通过RL后训练强化跨模态理解与生成能力，适用于通用AI助手开发。
Agentic智能体开发：训练具备多轮工具调用、环境交互能力的智能体，支持“执行→观察→决策”闭环，适用于视觉推理、代码执行等复杂任务。
视觉语言任务优化：对视觉问答（VQA）、图像描述、视频理解等任务进行RL后训练，提升模型多模态推理准确性，适用于智能医疗、自动驾驶等领域。
数学与代码推理增强：基于GRPO/GSPO算法，强化大模型数学求解、代码生成与逻辑推理能力，适用于教育、软件开发场景。
MoE模型高效训练：为Qwen3-30B-A3B等MoE架构模型提供低开销R3支持，降低训练成本，适用于超大规模大模型生产部署。

GitHub仓库：https://github.com/redai-infra/Relax
arXiv技术论文：https://arxiv.org/pdf/2604.11554

OmniShow是字节跳动联合港中文、港大等机构开源的多模态人-物交互视频生成模型，是首个支持参考图+音频+姿势全模态输入的端到端框架，以12.3B参数的高效架构可生成10秒高质量视频，在HOIVG-Bench基准多项任务达SOTA，能为视频创作提供多维度精准控制。

2.3.1 核心功能

全模态条件输入：支持参考图像、音频、姿势信号和文本描述四种模态同时输入，实现对人-物交互视频的全面精准控制。
多任务统一生成：通过灵活组合输入条件，可在单一架构内完成参考图生成、音频驱动数字人、姿势驱动动画等多种视频生成任务。
高质量长视频合成：原生支持生成10秒连续视频，保持角色外观一致性的同时，实现口型、表情和肢体动作与音频的精确同步。
创意视频编辑：支持在保留人物动作和姿势的前提下替换视频物体，或重组不同来源的姿势、物体和人物参考进行二次创作。

2.3.2 技术原理

采用统一通道条件注入技术，在通道维度拼接参考图像和姿势信号注入预训练模型，避免破坏基础模型预训练先验；创新门控局部上下文注意力机制，以掩码注意力配合可学习门控向量，动态关联音频特征与局部人体区域，实现音视频精确同步；使用解耦-联合训练策略，分别训练R2V和A2V专用子模型，通过权重插值融合后在联合数据微调，解决异构数据规模不平衡问题。

2.3.3 应用场景

电商产品展示：电商运营者可在保持模特动作不变的情况下，快速替换视频中的服装、配饰等商品，高效生成商品展示视频。
数字人内容创作：内容创作者输入人物照片和语音，即可生成口型同步的数字人说话、唱歌视频，用于虚拟主播、社交媒体内容制作。
互动娱乐开发：游戏开发者借助姿势驱动功能，将用户动作捕捉转化为游戏角色动画，打造支持全身姿态控制的实时互动娱乐体验。
广告营销生产：营销人员通过全模态输入，精确控制代言人外观、台词音频和肢体动作，批量生成风格统一的品牌宣传视频素材。

GitHub仓库：https://github.com/Correr-Zhou/OmniShow
项目官网：https://correr-zhou.github.io/OmniShow/

ERNIE-Image是百度文心团队开源的8B参数文生图模型，基于Diffusion Transformer架构，主打高可控性与精准长文本渲染。提供标准版（50步高质量）与Turbo版（8步快速）双版本，仅需24GB显存可本地运行，为设计师和开发者提供开箱即用的中文场景图像生成解决方案。

2.4.1 核心功能

高可控生成：支持复杂结构化布局控制，可精确安排多对象间的空间位置关系，GENEval基准测试得分0.8856。
长文本渲染：针对中英双语长文本在图像中的精准呈现进行优化，LongTextBench测试得分0.9733，适配海报和漫画创作。
双版本模式：标准版50步高质量渲染，Turbo版8步快速蒸馏，分别满足精细创作与快速迭代需求。
全流程处理：内置生成、编辑、合成、放大的完整图像处理工作流，支持从草图到成品的端到端创作。
智能提示增强：配备轻量级Prompt Enhancer模块，自动将用户简短输入扩展为结构丰富的生成描述。

2.4.2 技术原理

采用单流Diffusion Transformer（DiT）架构，8B参数规模统一编码文本与图像信号，实现跨模态深度对齐，提升生成一致性与复杂场景理解能力。针对中文排版优化，改进注意力机制与位置编码，解决文字幻觉、模糊问题。Turbo版通过知识蒸馏将教师模型能力迁移至轻量学生模型，8步推理实现速度提升。原生支持1024×1024分辨率，优化显存占用，24GB显存即可本地部署。

2.4.3 应用场景

商业海报设计：适用于电商促销、活动宣传等场景，生成包含中英双语品牌标语、促销信息的海报，文字清晰无需后期修图。
漫画与插画创作：支持复杂分镜布局，可生成带有对话气泡、旁白文字的漫画页面，实现从草稿到成稿的一站式生产。
信息图制作：将结构化数据转化为包含图表、标签的视觉信息图，适用于报告封面、教学材料等内容制作。
电商商品图生成：精准控制产品主体、价格标签、卖点文案的空间位置，快速生成符合平台规范的商品主图与详情页。
出版印刷物料：精准渲染中文字符，确保书籍封面、杂志内页等印刷品文字准确，避免传统AI生成的文字乱码问题。

HuggingFace模型库：https://huggingface.co/Baidu/ERNIE-Image-Turbo
HuggingFace模型库：https://huggingface.co/baidu/ERNIE-Image
项目官网：https://ernie.baidu.com/blog/posts/ernie-image/

这是谷歌开源大模型Gemma 4的本地部署指南，涵盖手机、Mac及OpenClaw的部署方法。该模型在开源榜排名第三，具备优异的数学、编程能力，支持免费商用，能让用户免API额度、零成本本地使用，保障数据隐私。

2.5.1 核心功能

多设备本地部署：支持在手机、Mac设备上部署运行，满足不同场景的本地使用需求。
多模态交互：支持文本对话、图片识别分析、语音转录翻译等多模态任务处理。
工具扩展调用：支持通过Agent Skills调用外部工具，拓展模型能力边界。
免费商用：基于Apache2.0协议，可免费用于商业场景，降低使用成本。
高性能推理：适配苹果MLX框架，在Mac上可实现推理速度翻倍。

2.5.2 技术原理

Gemma 4采用Transformer架构，支持MoE（混合专家）模型结构，26B MoE版本可在资源充足时实现高效推理。原生支持function calling，可直接对接AI Agent；依托苹果MLX框架，针对Mac设备的硬件特性做了底层优化，实现推理加速。本地部署时，通过Ollama作为模型运行容器，提供轻量化的模型管理与推理环境，OpenClaw则作为网关实现模型的Web UI调用与扩展能力集成。

2.5.3 应用场景

个人日常办公：普通职场人可在本地部署E2B版本，处理文档摘要、基础翻译、日常对话等轻量级任务，无需依赖云端API。
专业技术研发：开发人员可部署高规格版本，借助其编程能力辅助代码编写、调试，通过function calling对接开发工具链。
移动场景使用：商务人士在无网络环境下，可通过手机部署的模型处理邮件分析、语音转录等工作，保障数据安全。
教育辅助学习：学生可利用模型的数学、知识问答能力，在本地完成作业答疑、知识点梳理，避免数据上传云端。

Mano-P 1.0是明略科技开源的GUI-VLA智能体模型，采用纯视觉驱动，无需API即可直接操控桌面软件与网页界面。它提供72B完整版与4B量化版，支持Apple M4芯片本地部署，实现数据零上云与物理隔离级隐私保护，在OSWorld等13项国际基准测试中取得SOTA成绩。

2.6.1 核心功能

GUI全链路操控：具备感知、理解、规划、操作与验证的完整能力，可直接操控桌面软件、网页界面及复杂图形化工作流，支持点击、文本输入等闭环动作。
纯视觉理解：不依赖底层API、CDP协议或HTML解析，通过像素级视觉理解直接“看懂”屏幕内容，可处理非标准应用、3D软件及跨系统协作场景。
端侧本地部署：支持Apple M4芯片设备本地运行，也可通过USB 4.0连接算力棒，数据零上云，无网环境下仍可自主执行长任务。
Agent生态集成：作为Skill无缝接入OpenClaw、Claude Code等AI Agent，为其提供GUI执行能力底座，解决复杂工作流中的人工干预瓶颈。

2.6.2 技术原理

采用GUI-VLA架构，基于视觉-语言-动作多模态框架，直接解析屏幕像素信息，结合自然语言指令输出具体操作坐标与动作。通过三阶段渐进训练（监督微调→离线强化学习→在线强化学习）形成闭环优化，搭配GSPruning剪枝加速与4-bit量化方案，使4B模型在M4芯片端侧实现476 tokens/s推理速度，内存占用仅4.3GB。同时采用端云双版本设计，72B模型处理复杂任务，4B模型专注端侧运行。

2.6.3 应用场景

跨应用办公自动化：企业办公人员可使用该模型自动在Excel、ERP、邮件客户端间迁移数据，完成报表生成、邮件分发等跨系统办公流。
复杂软件操控：设计人员可借助它直接操控Photoshop、CAD、3D建模等专业设计软件，以及无API接口的legacy系统。
端到端软件测试：测试人员利用其自动执行UI界面点击、表单填写、结果验证，完成无人工干预的全流程应用测试。
隐私敏感业务处理：金融、医疗行业从业者可在本地运行该模型处理财务报表、医疗记录等敏感数据，确保信息不出本机。
离线场景自动化：野外作业或无网络环境下的工作人员，可依靠它自主完成数据录入、文档处理、系统运维等长周期复杂任务。

GitHub仓库：https://github.com/Mininglamp-AI/Mano-P

PokeClaw是首个完全本地离线运行的开源Android手机AI代理，基于Google Gemma 4模型通过LiteRT-LM运行时在设备端推理，无需联网、账户或API密钥即可自主控制手机，支持WhatsApp自动回复、通知汇总等功能，同时可接入云端模型增强复杂任务能力，全方位保障用户隐私。

2.7.1 核心功能

全本地离线运行：基于Google Gemma 4模型在设备端推理，数据全程本地化处理，彻底杜绝隐私泄露风险。
手机自动化控制：通过Android无障碍服务读取屏幕UI树，自主执行点击、滑动、输入、发送消息等操作。
上下文感知自动回复：监控WhatsApp等应用消息，自动读取对话历史生成贴合语境的回复内容。
技能系统：将通用工具组合成可复用工作流，如自动回复、晨间简报，支持用户自定义技能扩展。
云端模型可选增强：可接入OpenAI、Anthropic等云端API，实时显示token消耗和费用，满足复杂任务需求。

2.7.2 技术原理

采用本地优先架构，默认通过LiteRT-LM运行时在设备端部署Google Gemma 4模型，支持原生工具调用（Tool Calling）能力。通过Android无障碍服务获取屏幕UI树的文本化表示，结合预设技能系统（Skills）构建任务工作流，AI模型根据当前屏幕状态自主选择工具并执行操作，形成“感知-决策-执行”的闭环代理流程。同时提供云端模型兼容层，支持会话内无缝切换模型，适配不同复杂度任务需求。

2.7.3 应用场景

消息自动化管理：用户在驾车、会议等无法手动操作的场景下，自动回复WhatsApp等应用的消息，或在错过电话后发送跟进短信。
设备状态监控与优化：实时检查电池健康、存储空间、手机温度等状态，自动生成清理建议，适用于设备日常维护和性能优化。
跨应用信息整合：根据用户指令在多应用间切换操作，如在YouTube搜索视频、复制邮件主题到Chrome进行搜索，满足信息调研需求。
隐私敏感数据处理：在离线模式下分析剪贴板内容、汇总通知信息，确保敏感数据不会传输到外部服务器，适用于商务、医疗等场景。
无障碍操作辅助：行动不便或视觉障碍用户可通过自然语言指令，让AI完成点击、输入等操作，降低手机使用门槛。

GitHub仓库：https://github.com/agents-io/PokeClaw，首次启动时自动下载约

这是基于HelloAgents框架打造的开源多智能体协作文旅规划平台TripStar，通过LLM与多智能体架构，根据用户输入的目的地、日期及偏好，自动生成含行程、住宿、景点等信息的完整攻略，解决旅行规划的信息过载与决策疲劳问题，目前主要支持国内城市。

2.8.1 核心功能

个性化行程生成：根据用户目的地、旅行日期及交通、住宿、兴趣等偏好，快速输出包含每日行程、景点路线的专属攻略。
多维度行程展示：提供知识图谱可视化、暗黑主题地图动态绘制路线、预算明细面板，清晰呈现各项花销。
沉浸式伴游问答：生成攻略后支持多轮深度上下文追问，可解答行程相关细节问题。
实用信息整合：自动整合景点预约提醒、实时天气数据、小红书真实避坑指南及实拍照片。

2.8.2 技术原理

采用前后端分离架构，前端基于Vue 3+Vite实现响应式动态组件渲染，后端以FastAPI为服务层，搭配异步轮询任务系统解决LLM超长文本生成的网关超时问题。核心采用多智能体协作架构，主控Agent基于React模式拆解任务，调用旅程总控、天气管家、酒店专员、景点提取四大Agent分工协作，通过SSR抓取小红书游记数据，经LLM提纯后为用户输出结构化行程信息。

2.8.3 应用场景

个人自由行规划：适合独立旅行者，输入需求即可快速获取完整攻略，替代手动耗时查资料的过程。
短途周边游规划：针对2-3天周末出行需求，生成紧凑合理的短途行程，自动计算景点距离避免折返。
深度文化体验游：适合追求在地化体验的用户，依托小红书真实游记获取非网红景点推荐与避坑指南。
预算敏感型出行：帮助学生、背包客等群体，通过预算明细面板精准控制各维度花销，避免超支。

GitHub仓库：https://github.com/1sdv/TripStar
ModelScope模型库：https://modelscope.cn/studios/lcclxy/Journey-to-the-China
ModelScope模型库：https://modelscope.cn/studios/lcclxy/Journey-to-the-China。输入目的地、旅行日期、偏好设置（交通方式、住宿风格、旅行兴趣等

这是一款开源的Claude Code系统化使用指南，从“氛围编程”进阶到“智能体工程”，收录86+条实战技巧，涵盖Agents、Commands等核心模块，对比10+套主流开发工作流，被Claude Code创造者多次引用，为开发者提供从入门到进阶的完整学习路径。

2.9.1 核心功能

系统化知识库：全面拆解Claude Code核心模块，提供从入门到进阶的完整学习路径。
热门功能追踪：实时更新Beta功能表格，涵盖Ultraplan、Auto Mode等最新特性。
工作流对比：横向对比10+套主流开发工作流，标注Star数和适用场景。
实战技巧库：收录69+条社区踩坑经验，覆盖提示工程、上下文管理等。
资源聚合：整理官方团队的文章、推文和视频教程。

2.9.2 技术原理

基于Anthropic Claude大模型构建，采用智能体工程架构，通过Subagents实现多角色任务分工，利用Commands注入知识到现有上下文，Skills实现技能的配置化与预加载。通过Model Context Protocol（MCP）连接外部工具与API，采用Git-based Checkpointing实现代码编辑的自动追踪与回滚。支持插件化扩展，可集成技能、子代理、钩子等组件，通过Hierarchical Configuration System实现多维度权限与模型配置管理。

2.9.3 应用场景

个人开发者效率提升：查阅69条实战技巧，快速掌握提示工程、上下文管理和调试方法，避免常见踩坑。
团队工作流选型：通过对比10+套主流方案，为团队选择最适合的AI辅助开发模式。
新功能快速落地：借助Hot Features表格即时了解Beta功能的配置方法，抢先体验新能力。
代码质量控制：采用内置的Code Review工作流或TDD-first方案，结合Subagents实现多智能体PR审查和漏洞捕捉。
大型项目管理：通过CLAUDE.md规则文件和Agent Teams功能，在Monorepo或多模块项目中实现并行开发和上下文隔离。

直达仓库：https://github.com/shanraisshan/claude-code-best-practice

TapNow是一款AI视频创作平台，其上线的Seedance 2.0功能可支持用户零门槛制作AI视频，平台开源了《牌子》《纸手机》等爆款视频的完整工作流，能帮助创作者大幅缩短从灵感到成片的制作周期，降低AI视频创作的技术门槛。

2.10.1 核心功能

内置上万版权合规的AI演员素材库，覆盖古今中外各类角色，支持一键应用，零基础用户也能快速选角。
支持自定义创建AI演员，通过文生图节点生成人物图片，经合规验证后可用于视频制作，满足个性化创作需求。
配备AI全能导演Agent功能，接收用户创作指令后，可自动完成素材对齐、视频生成等工作，还能提供多版备选镜头。
提供TapTV板块，收录大量创作者开源的AI视频工作流，涵盖广告、动画、短片等多种类型，可直接学习复用。

2.10.2 技术原理

采用节点式可视化架构，将文生图、视频生成等功能模块化，用户可通过画布节点拼接实现创作流程。基于自研的Seedance 2.0视频生成模型，结合提示词解析与多模态对齐算法，能精准将文本指令转化为符合要求的动态视频。AI Agent功能依托大语言模型的任务拆解与规划能力，自动协调各模块完成视频制作，通过多轮迭代生成多版本备选内容。

2.10.3 应用场景

自媒体创作者：利用平台现成工作流和AI演员库，快速制作剧情短片、创意广告类视频，降低创作成本与周期。
影视爱好者：借助自定义AI演员和Agent导演功能，将个人创意转化为AI视频作品，实现影视创作的入门尝试。
广告从业者：使用平台丰富的角色素材和视频生成能力，高效制作产品宣传广告、品牌推广短片。
学生与新手创作者：通过学习平台开源的爆款视频工作流，快速掌握AI视频创作的方法与技巧。

官网：https://www.tapnow.ai

AI-Compass 将为你和社区提供在 AI 技术海洋中航行的方向与指引。它并不是一个简单的资料收集仓库，而是一个经过系统化组织、可持续扩展的 AI 学习与实践生态。项目覆盖从基础认知到工程落地的完整链路，帮助用户少走弯路，更高效地完成从“知道”到“做出来”的跨越。

我们深度整合了大语言模型、多模态 AI、机器学习、深度学习、计算机视觉、自然语言处理、推荐系统、强化学习等核心技术领域，并持续补充 RAG、Agent、GraphRAG、MCP+A2A 等前沿应用架构。除了内容阅读之外，仓库也非常适合作为 AI 编程助手的本地知识库，方便你用 Codex、Claude Code 等工具直接对仓库做问答、检索、拆解与学习规划。

github地址：AI-Compass👈
gitee地址：AI-Compass👈

🌟 如果本项目对您有所帮助，请为我们点亮一颗星！🌟

🎯 项目价值：

系统化学习地图：覆盖从入门认知到进阶实战的完整路径，帮助学习者快速建立 AI 知识框架
工程落地参考库：聚合训练、推理、评估、RAG、Agent 等关键技术资料，方便开发者做方案选型与项目推进
可复用实战资产：同时提供博客沉淀与可运行代码，降低从理论理解到动手实践的切换成本
AI 助手知识底座：仓库天然适合作为本地知识库，可直接结合 Codex、Claude Code 等工具做项目拆解和智能问答
持续更新的前沿入口：跟踪模型、工具、框架和行业动态，方便个人与团队持续掌握 AI 最新趋势

📋 核心模块架构：

✍️ 博客模块：沉淀体系化技术文章、面试经验与项目解析，帮助读者建立结构化认知
💻 Code模块：提供可运行的 AI 实战代码与 Demo，便于调试、复用和让 AI 做代码级拆解
🧠 基础知识模块：涵盖 AI 导航工具、Prompt 工程、LLM 测评、语言模型、多模态模型等核心理论基础
⚙️ 技术框架模块：包含 Embedding 模型、训练框架、推理部署、评估框架、RLHF 等关键技术栈
🚀 应用实践模块：聚焦 RAG+workflow、Agent、GraphRAG、MCP+A2A 等前沿应用架构
🛠️ 产品与工具模块：整合 AI 应用、AI 产品、竞赛资源等实战内容，帮助快速了解行业工具生态
📖 学习资源模块：汇聚课程、文章、教材、面试与实战材料，补齐从学习到求职的成长链路
🏢 企业开源模块：汇集华为、腾讯、阿里、百度飞桨、Datawhale 等企业级开源资源
🌐 社区与平台模块：提供学习平台、技术文章、社区论坛等生态资源，帮助连接更广阔的 AI 社区

📚 适用人群：

AI初学者：提供系统化学习路径和基础知识体系，帮助快速建立 AI 技术认知框架
技术开发者：通过深度技术资源与工程实践指南，提升 AI 项目开发、调试与部署能力
产品经理：借助 AI 产品案例与方法论，提升对技术边界、应用场景和产品化路径的理解
研究人员：通过前沿技术趋势、论文线索和开源项目，拓展研究视野与应用边界
企业团队：获得较完整的 AI 技术选型、知识沉淀与落地参考，加速企业 AI 能力建设
求职者：结合项目实战、知识体系和面试资料，更高效地提升 AI 方向竞争力

2026年AI Compass前沿速览：聚焦 OmniShow、Gemini 3.1 Flash TTS 与 新混元3D世界模型 2.0