Liquid AI发布LFM2.5-VL-450M 实现边缘设备250ms以内视觉语言推理并支持多语言与框选预测

科技前沿 • 2026-04-14 21:58 • 阅读 2

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

Liquid AI在原有LFM2-VL-450M基础上发布了 LFM2.5-VL-450M，保持 450M 参数规模，却在功能与性能上实现了多项突破。模型采用 LFM2.5-350M 语言骨干 + SigLIP2 NaFlex 86M 视觉编码器，支持 32,768 长度上下文和 65,536 词表，能够原生处理 512×512 像素图像并保持宽高比不失真。

边界框预测：模型可直接输出 JSON 结构的归一化坐标，RefCOCO‑M 上取得 81.28 分，首次实现视觉‑语言统一的空间定位。
多语言增强：MMMB 分数从 54.29 提升至 68.09，覆盖阿拉伯语、中文、法语、德语、日语、韩语、葡萄牙语和西班牙语，实现跨语言视觉理解。
指令遵循与函数调用：MM‑IFEval 提升至 45.00，文本指令执行更可靠；新增函数调用能力（BFCLv4 21.08），可在对话中触发外部 API。
高效推理配置：提供可调的图像 token 上限与切片数，用户可在不同算力平台间灵活权衡速度与质量。

BenchmarkLFM2.5‑VL‑450M前代 LFM2‑VL‑450M备注RefCOCO‑M（框选）81.280首次支持空间输出MMMB（多语言）68.0954.2913 分提升MM‑IFEval（指令）45.0032.93更强约束遵循POPE86.93-文本理解领先OCRBench684-仍有提升空间CountBench73.3147.64计数能力显著增强

整体上模型在视觉理解、跨模态推理和语言指令三个维度均实现正向突破，唯一下降的是 MMMU（知识密集）表现略有回落。

采用 Q4_0 量化后，模型在多类边缘硬件上均保持 250 ms 以下 的响应时间：

NVIDIA Jetson Orin：256×256 图像 233 ms，512×512 图像 242 ms。
Snapdragon 8 Elite（Samsung S25 Ultra）：256×256 950 ms，512×512 2.4 s（仍在可交互范围）。
AMD Ryzen AI Max+ 395：256×256 637 ms，512×512 944 ms。

这些延迟足以支撑 4 FPS 视频流的实时视觉语言理解，满足工业机器人、智能眼镜等低功耗场景的需求。

工业自动化：在仓库、物流车辆或农业机械上本地化运行，输出带坐标的物体检测结果，省去云端传输和二次处理。
可穿戴设备：智能眼镜、随身助理等需长时在线的设备，可在本地完成图像理解并返回结构化指令，保障隐私。
零售与电商：货架监控、商品检索、目录自动生成等场景，利用多语言能力直接服务全球用户。

LFM2.5‑VL‑450M 将 小模型体积 + 边缘实时推理 + 多语言 + 空间定位 四大要素有机结合，填补了当前大多数视觉语言模型仅能在云端高算力环境运行的空白。随着边缘算力的持续提升和对本地化 AI 隐私需求的增长，这类高效 VLM 有望在工业、消费和公共安全等领域快速落地。

“模型的核心竞争力在于能够在保持低延迟的同时，提供结构化的空间输出，这对实际部署意义重大。”——Liquid AI 官方技术博客

如需获取模型权重、详细技术文档或合作方案，请访问 Liquid AI 官方博客或关注其社交媒体渠道。

Liquid AI发布LFM2.5-VL-450M 实现边缘设备250ms以内视觉语言推理并支持多语言与框选预测

相关推荐