Liquid AI发布LFM2.5-VL-450M 实现边缘设备250ms以内视觉语言推理并支持多语言与框选预测

Liquid AI发布LFM2.5-VL-450M 实现边缘设备250ms以内视觉语言推理并支持多语言与框选预测Liquid AI 在原有 LFM2 VL 450M 基础上发布了 LFM2 5 VL 450M 保持 450M 参数规模 却在功能与性能上实现了多项突破 模型采用 LFM2 5 350M 语言骨干 SigLIP2 NaFlex 86M 视觉编码器 支持 32 768 长度上下文和 65 536 词表 能够原生处理 512 512 像素图像并保持宽高比不失真 边界框预测 模型可直接输出

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



Liquid AI在原有LFM2-VL-450M基础上发布了 LFM2.5-VL-450M,保持 450M 参数规模,却在功能与性能上实现了多项突破。模型采用 LFM2.5-350M 语言骨干 + SigLIP2 NaFlex 86M 视觉编码器,支持 32,768 长度上下文和 65,536 词表,能够原生处理 512×512 像素图像并保持宽高比不失真。

  • 边界框预测:模型可直接输出 JSON 结构的归一化坐标,RefCOCO‑M 上取得 81.28 分,首次实现视觉‑语言统一的空间定位。
  • 多语言增强:MMMB 分数从 54.29 提升至 68.09,覆盖阿拉伯语、中文、法语、德语、日语、韩语、葡萄牙语和西班牙语,实现跨语言视觉理解。
  • 指令遵循与函数调用:MM‑IFEval 提升至 45.00,文本指令执行更可靠;新增函数调用能力(BFCLv4 21.08),可在对话中触发外部 API。
  • 高效推理配置:提供可调的图像 token 上限与切片数,用户可在不同算力平台间灵活权衡速度与质量。

BenchmarkLFM2.5‑VL‑450M前代 LFM2‑VL‑450M备注RefCOCO‑M(框选)81.280首次支持空间输出MMMB(多语言)68.0954.2913 分提升MM‑IFEval(指令)45.0032.93更强约束遵循POPE86.93-文本理解领先OCRBench684-仍有提升空间CountBench73.3147.64计数能力显著增强

整体上模型在视觉理解、跨模态推理和语言指令三个维度均实现正向突破,唯一下降的是 MMMU(知识密集)表现略有回落。

采用 Q4_0 量化后,模型在多类边缘硬件上均保持 250 ms 以下 的响应时间:

  • NVIDIA Jetson Orin:256×256 图像 233 ms,512×512 图像 242 ms。
  • Snapdragon 8 Elite(Samsung S25 Ultra):256×256 950 ms,512×512 2.4 s(仍在可交互范围)。
  • AMD Ryzen AI Max+ 395:256×256 637 ms,512×512 944 ms。

这些延迟足以支撑 4 FPS 视频流的实时视觉语言理解,满足工业机器人、智能眼镜等低功耗场景的需求。

  1. 工业自动化:在仓库、物流车辆或农业机械上本地化运行,输出带坐标的物体检测结果,省去云端传输和二次处理。
  2. 可穿戴设备:智能眼镜、随身助理等需长时在线的设备,可在本地完成图像理解并返回结构化指令,保障隐私。
  3. 零售与电商:货架监控、商品检索、目录自动生成等场景,利用多语言能力直接服务全球用户。

LFM2.5‑VL‑450M 将 小模型体积 + 边缘实时推理 + 多语言 + 空间定位 四大要素有机结合,填补了当前大多数视觉语言模型仅能在云端高算力环境运行的空白。随着边缘算力的持续提升和对本地化 AI 隐私需求的增长,这类高效 VLM 有望在工业、消费和公共安全等领域快速落地。

“模型的核心竞争力在于能够在保持低延迟的同时,提供结构化的空间输出,这对实际部署意义重大。”——Liquid AI 官方技术博客

如需获取模型权重、详细技术文档或合作方案,请访问 Liquid AI 官方博客或关注其社交媒体渠道。

小讯
上一篇 2026-04-14 21:59
下一篇 2026-04-14 21:57

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/258512.html