近年来,大型多模态模型(LMMs)在自然图像领域取得了显著进展,能够实现细粒度的视觉理解和对话。然而,这些模型在遥感(RS)领域的表现却明显不足。遥感图像具有独特的俯视视角、目标尺度变化大以及高分辨率图像中存在大量小目标等特点,给区域级理解带来了独特挑战。此外,现有遥感数据集缺乏细粒度的、领域特定的接地数据,严重阻碍了LMMs在遥感领域接地对话能力的发展。为了解决这些问题,研究人员提出了GeoPixel——首个端到端的高分辨率遥感LMM,支持像素级接地,能够生成交错掩码以实现细粒度的视觉感知,并支持高达4K的高清分辨率,适用于高精度遥感图像分析。
主要背景
通用LMM在遥感(RS)领域面临的独特挑战:
- 视角独特:遥感图像是俯视视角,与自然图像差异大。
- 尺度多变:图像中物体尺寸变化巨大,且包含大量小目标。
- 分辨率高:现有LMM通常处理低分辨率图像(如224×224),无法充分利用高分辨率遥感图像的细节。
- 缺乏细粒度数据:缺少将语言描述与像素级分割掩码精确关联的遥感领域数据集。
GeoPixel是首个支持像素级接地(Pixel-level Grounding)的端到端高分辨率遥感LMM,能够生成交织着分割掩码的对话,支持高达4K分辨率、任意宽高比的图像输入。
Grounding LLMs
任务范式
相较于早期的LLM,在此基础上增加了一个空间指向的维度。它的逻辑是:
输入:一张图片 + 一个涉及图像内容的查询(问题或指令)。
输出:一段文本回答,并且在这段回答中,某些关键名词或短语会与图像中的特定空间区域关联起来。这种关联可以以不同形式呈现。
主要任务形式:
【Referring Grounding / 指代接地】
- 输入:图片 + 文本指代(如“左下角那辆红色的车”)
- 输出:定位该指代对象(生成一个边界框或分割掩码)
- 逻辑:模型需要理解文本中的空间、属性描述,并将其映射到图像中的正确像素集合。
【Grounded Captioning / 接地描述生成】
- 输入:一张图片
- 输出:一段详细的图片描述,描述中的某些对象名词会自动关联到它们在图像中的位置
- 逻辑:模型在生成描述时,需要同时进行物体识别、关系推理和空间定位,并将定位信息“编织”进语言流中。
【Grounded Visual Question Answering / 接地视觉问答】
- 输入:图片 + 一个问题(如“哪个建筑最高?”)
- 输出:答案(如“中间那座塔楼”)+ 该答案所指物体的定位
- 逻辑:模型不仅需要正确回答问题,还需要提供视觉证据,证明其答案的依据来源于图像的哪个部分。
技术方案
【高分辨率理解模块】
- 自适应图像分割器:动态地将输入图像分割成局部图块和一个全局视图。具体来说,将图像上采样并填充到最接近的网格尺寸。
- 视觉编码器:采用缩放后的CLIP ViT-L/14分别编码全局视图和各个局部图块的特征
- 特征融合与投影:将全局特征和局部图块特征与特殊分隔符拼接,然后通过一个两层MLP(视觉投影器 Pv)投影到语言模型(InternLM2 7B)的嵌入空间。
- 高效对齐:在LLM的视觉令牌上应用部分LoRA,实现高效的多模态对齐,同时保留模型原有的语言能力。
【像素接地模块】
- 接地视觉编码器:使用预训练并冻结的SAM-2编码器提取鲁棒的图像特征
- 词汇扩展:在LLM的词表中添加一个特殊的
令牌。 - 像素解码器:一个轻量级的可训练模块,接收来自冻结的SAM-2编码器的图像特征和来自LLM的
令牌嵌入(通过一个文本投影层映射后),生成分割掩码。
核心创新点
【模型架构创新】
- 动态高分辨率处理:支持动态图像分割,适应高达4K的输入,突破了传统LMM的分辨率限制。
- 端到端像素接地:首次在遥感LMM中实现从文本描述到像素级分割掩码的端到端生成,而非传统的边界框坐标。
- 数据集创新:GeoPixelD
- 规模与质量:构建了一个包含53,816个接地短语、关联600,817个物体掩码的大规模、高质量遥感视觉接地对话生成数据集。
核心方法:“先验引导的标记集提示法”,基本方法如下。
- 输入:一张有掩码的图(来自iSAID)
- 在物体上打数字标记:在掩码中心贴一个小的数字标记(如“1”)
- 告诉模型先验信息:不是让模型瞎猜,而是直接告诉它:“标记1位于图像中心区域,它是一个跑道。请描述它。”
- 模型生成描述:大模型(如ChatGPT)根据这个“带答案的提示”,生成准确描述:“位于图像中心的是一个400米椭圆形跑道...”
主要下游任务
【遥感视觉接地对话生成】
任务描述:输入高分辨率遥感图像,模型生成一段详细的自然语言描述,并在描述中交织多个目标物体的分割掩码。模型能根据物体尺度和密度,自适应选择实例掩码(针对大而分散的物体)或语义掩码(针对小而密集的物体集群)。
【遥感指代表达式图像分割】
任务描述:给定一个遥感图像和一个指代表达式(如“右下角的红色屋顶”),模型生成该指代物体的精确分割掩码。
Future
加入我们的学术社区
点亮创新之光 照亮科研梦想
这是一个致力于共同成长、资源共享的科研平台。我们期待您的到来,一起在科研道路上走得更远、更稳!^o^y
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/259905.html