Liquid AI在原有LFM2-VL-450M基础上发布了 LFM2.5-VL-450M,保持 450M 参数规模,却在功能与性能上实现了多项突破。模型采用 LFM2.5-350M 语言骨干 + SigLIP2 NaFlex 86M 视觉编码器,支持 32,768 长度上下文和 65,536 词表,能够原生处理 512×512 像素图像并保持宽高比不失真。
- 边界框预测:模型可直接输出 JSON 结构的归一化坐标,RefCOCO‑M 上取得 81.28 分,首次实现视觉‑语言统一的空间定位。
- 多语言增强:MMMB 分数从 54.29 提升至 68.09,覆盖阿拉伯语、中文、法语、德语、日语、韩语、葡萄牙语和西班牙语,实现跨语言视觉理解。
- 指令遵循与函数调用:MM‑IFEval 提升至 45.00,文本指令执行更可靠;新增函数调用能力(BFCLv4 21.08),可在对话中触发外部 API。
- 高效推理配置:提供可调的图像 token 上限与切片数,用户可在不同算力平台间灵活权衡速度与质量。
整体上模型在视觉理解、跨模态推理和语言指令三个维度均实现正向突破,唯一下降的是 MMMU(知识密集)表现略有回落。
采用 Q4_0 量化后,模型在多类边缘硬件上均保持 250 ms 以下 的响应时间:
- NVIDIA Jetson Orin:256×256 图像 233 ms,512×512 图像 242 ms。
- Snapdragon 8 Elite(Samsung S25 Ultra):256×256 950 ms,512×512 2.4 s(仍在可交互范围)。
- AMD Ryzen AI Max+ 395:256×256 637 ms,512×512 944 ms。
这些延迟足以支撑 4 FPS 视频流的实时视觉语言理解,满足工业机器人、智能眼镜等低功耗场景的需求。
- 工业自动化:在仓库、物流车辆或农业机械上本地化运行,输出带坐标的物体检测结果,省去云端传输和二次处理。
- 可穿戴设备:智能眼镜、随身助理等需长时在线的设备,可在本地完成图像理解并返回结构化指令,保障隐私。
- 零售与电商:货架监控、商品检索、目录自动生成等场景,利用多语言能力直接服务全球用户。
LFM2.5‑VL‑450M 将 小模型体积 + 边缘实时推理 + 多语言 + 空间定位 四大要素有机结合,填补了当前大多数视觉语言模型仅能在云端高算力环境运行的空白。随着边缘算力的持续提升和对本地化 AI 隐私需求的增长,这类高效 VLM 有望在工业、消费和公共安全等领域快速落地。
“模型的核心竞争力在于能够在保持低延迟的同时,提供结构化的空间输出,这对实际部署意义重大。”——Liquid AI 官方技术博客
如需获取模型权重、详细技术文档或合作方案,请访问 Liquid AI 官方博客或关注其社交媒体渠道。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/258512.html