MiniCPM-o 4.5:消费级显卡跑全双工全模态AI助手

MiniCPM-o 4.5:消费级显卡跑全双工全模态AI助手不用联网 仅用一张消费级显卡 就能在个人电脑上拥有一个 边看 边听 边说 还能主动提醒 的类人 AI 助手 这不是概念 MiniCPM o 4 5 已经把它变成了可以在你电脑上直接跑起来的东西 MiniCPM o 4 5 是面壁智能联合清华大学发布的业界首个端到端全双工全模态大模型 仅 9B 参数规模 却实现了多模态感知 流式语音交互的完整闭环 模型在 Hugging Face

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



不用联网、仅用一张消费级显卡,就能在个人电脑上拥有一个「边看、边听、边说、还能主动提醒」的类人 AI 助手。这不是概念,MiniCPM-o 4.5 已经把它变成了可以在你电脑上直接跑起来的东西。

MiniCPM-o 4.5 是面壁智能联合清华大学发布的业界首个端到端全双工全模态大模型,仅 9B 参数规模,却实现了多模态感知 + 流式语音交互的完整闭环。模型在 Hugging Face 上的下载量已突破 25 万+。

简单说,它是一个可以同时「看视频、听声音、说话回复、主动提醒」的 AI 助手模型。跟传统大模型最大的区别是:

  • 全双工交互:不用等它说完你再说话,你可以随时打断、插话,它能实时感知
  • 全模态:视频、音频、文本输入 + 文本、语音输出,一个模型全搞定
  • 断网可用:全部本地运行,数据不出你的电脑

无需注册、无需下载,直接打开浏览器体验:

  • 电脑端:https://minicpmo45.modelbest.cn/
  • 手机端(推荐):https://minicpmo45.modelbest.cn/mobile/

Demo 展示了三种交互模式:传统轮次对话、语音双工交互、视频双工交互,并可完整调节 Prompt、参考音频等参数。

面壁提供了 Windows/macOS 桌面安装包,集成模型下载、环境安装和 Demo 运行能力。

Windows 版本:

  • GitHub:https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-Setup-win64.exe
  • ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-Windows-x64.exe
  • 硬件要求:12GB+ 显存 GPU(RTX 4080/4090/5070/5080/5090)

macOS 版本:

  • GitHub:https://github.com/tc-mb/llama.cpp-omni/releases/latest/download/Comni-macOS-arm64.dmg
  • ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-o-4_5-gguf/resolve/master/app/Comni-macOS-arm64.dmg
  • 硬件要求:M1-M5 Max/M5 Pro,建议 16GB 以上内存

API 端点:https://api.modelbest.cn/minicpmo45/v1/

目前免费开放,支持全模态全双工实时交互,无需 VAD 机制控制对话轮次。API 文档:https://api.modelbest.cn/minicpmo45/docs

Demo 前后端代码已完全开源:https://github.com/OpenBMB/MiniCPM-o-Demo

Linux 用户可克隆代码仓并部署完整的 Demo 服务,这是首批可本地部署的全双工全模态交互演示项目之一。

MiniCPM-o 4.5 的核心突破是 Omni-Flow 流式全模态框架。它创造了一个共享的毫秒级时间轴,把视觉、音频、语言等所有信息流都精准对齐到时间片上。模型以每秒一次的高频持续刷新环境认知,自主决定何时说话、何时提醒。

模型架构由四大模块组成:

  • 视觉编码器(0.4B):SigLIP-ViT,负责「看」
  • 音频编码器(0.3B):Whisper-Medium,负责「听」
  • LLM 基座(8B):Qwen3-8B,负责「思考」
  • 语音 Token 解码器(~0.3B):轻量级 Llama 架构,负责将文本转化为语音

不要被 9B 参数骗了,MiniCPM-o 4.5 在多个维度表现亮眼:

  • 视觉能力:OpenCompass 综合得分 77.6,MMBench 英文得分 87.6,与 Gemini 2.5 Flash 相当
  • 全模态交互:在 Daily-Omni、Video-Holmes 等评测中全面超越 Gemini 2.5 Flash 和 Qwen3-Omni
  • 推理效率:INT4 量化版仅需 12GB 显存,解码速度达 212 tokens/s,比 Qwen3 快 40%+
  • 语音生成:中英文语音生成质量和情感表现力均优于 CosyVoice2

MiniCPM-o 4.5 的全双工能力解锁了一系列传统轮次对话模型无法胜任的场景:

  • 主动式伴侣:在你烹饪、修理或运动时,实时指导和提醒
  • 无障碍辅助:成为视障人士的「眼睛」,持续观察环境并主动播报关键信息
  • 智能座舱:持续监控路况和驾驶员状态,主动提示安全预警
  • 具身智能:作为机器人的「大脑」,持续感知动态环境并自主决策

  • 技术报告:https://github.com/OpenBMB/MiniCPM-o/blob/main/docs/MiniCPM_o_45_technical_report.pdf
  • Hugging Face:https://huggingface.co/openbmb/MiniCPM-o-4_5
  • ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5
  • Demo 仓库:https://github.com/OpenBMB/MiniCPM-o-Demo

小讯
上一篇 2026-04-29 23:15
下一篇 2026-04-29 23:13

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/282698.html