GeoPixel：遥感中像素定位的大型多模态模型

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

近年来，大型多模态模型（LMMs）在自然图像领域取得了显著进展，能够实现细粒度的视觉理解和对话。然而，这些模型在遥感（RS）领域的表现却明显不足。遥感图像具有独特的俯视视角、目标尺度变化大以及高分辨率图像中存在大量小目标等特点，给区域级理解带来了独特挑战。此外，现有遥感数据集缺乏细粒度的、领域特定的接地数据，严重阻碍了LMMs在遥感领域接地对话能力的发展。为了解决这些问题，研究人员提出了GeoPixel——首个端到端的高分辨率遥感LMM，支持像素级接地，能够生成交错掩码以实现细粒度的视觉感知，并支持高达4K的高清分辨率，适用于高精度遥感图像分析。

主要背景

通用LMM在遥感（RS）领域面临的独特挑战：

视角独特：遥感图像是俯视视角，与自然图像差异大。
尺度多变：图像中物体尺寸变化巨大，且包含大量小目标。
分辨率高：现有LMM通常处理低分辨率图像（如224×224），无法充分利用高分辨率遥感图像的细节。
缺乏细粒度数据：缺少将语言描述与像素级分割掩码精确关联的遥感领域数据集。

GeoPixel是首个支持像素级接地（Pixel-level Grounding）的端到端高分辨率遥感LMM，能够生成交织着分割掩码的对话，支持高达4K分辨率、任意宽高比的图像输入。

Grounding LLMs

任务范式

相较于早期的LLM，在此基础上增加了一个空间指向的维度。它的逻辑是：

输入：一张图片 + 一个涉及图像内容的查询（问题或指令）。

输出：一段文本回答，并且在这段回答中，某些关键名词或短语会与图像中的特定空间区域关联起来。这种关联可以以不同形式呈现。

主要任务形式：

【Referring Grounding / 指代接地】

输入：图片 + 文本指代（如“左下角那辆红色的车”）
输出：定位该指代对象（生成一个边界框或分割掩码）
逻辑：模型需要理解文本中的空间、属性描述，并将其映射到图像中的正确像素集合。

【Grounded Captioning / 接地描述生成】

输入：一张图片
输出：一段详细的图片描述，描述中的某些对象名词会自动关联到它们在图像中的位置
逻辑：模型在生成描述时，需要同时进行物体识别、关系推理和空间定位，并将定位信息“编织”进语言流中。

【Grounded Visual Question Answering / 接地视觉问答】

输入：图片 + 一个问题（如“哪个建筑最高？”）
输出：答案（如“中间那座塔楼”）+ 该答案所指物体的定位
逻辑：模型不仅需要正确回答问题，还需要提供视觉证据，证明其答案的依据来源于图像的哪个部分。

技术方案

【高分辨率理解模块】

自适应图像分割器：动态地将输入图像分割成局部图块和一个全局视图。具体来说，将图像上采样并填充到最接近的网格尺寸。
视觉编码器：采用缩放后的CLIP ViT-L/14分别编码全局视图和各个局部图块的特征
特征融合与投影：将全局特征和局部图块特征与特殊分隔符拼接，然后通过一个两层MLP（视觉投影器 Pv）投影到语言模型（InternLM2 7B）的嵌入空间。
高效对齐：在LLM的视觉令牌上应用部分LoRA，实现高效的多模态对齐，同时保留模型原有的语言能力。

【像素接地模块】

接地视觉编码器：使用预训练并冻结的SAM-2编码器提取鲁棒的图像特征
词汇扩展：在LLM的词表中添加一个特殊的令牌。
像素解码器：一个轻量级的可训练模块，接收来自冻结的SAM-2编码器的图像特征和来自LLM的令牌嵌入（通过一个文本投影层映射后），生成分割掩码。

核心创新点

【模型架构创新】

动态高分辨率处理：支持动态图像分割，适应高达4K的输入，突破了传统LMM的分辨率限制。
端到端像素接地：首次在遥感LMM中实现从文本描述到像素级分割掩码的端到端生成，而非传统的边界框坐标。
数据集创新：GeoPixelD
规模与质量：构建了一个包含53,816个接地短语、关联600,817个物体掩码的大规模、高质量遥感视觉接地对话生成数据集。

核心方法：“先验引导的标记集提示法”，基本方法如下。

输入：一张有掩码的图（来自iSAID）
在物体上打数字标记：在掩码中心贴一个小的数字标记（如“1”）
告诉模型先验信息：不是让模型瞎猜，而是直接告诉它：“标记1位于图像中心区域，它是一个跑道。请描述它。”
模型生成描述：大模型（如ChatGPT）根据这个“带答案的提示”，生成准确描述：“位于图像中心的是一个400米椭圆形跑道...”

主要下游任务

【遥感视觉接地对话生成】

任务描述：输入高分辨率遥感图像，模型生成一段详细的自然语言描述，并在描述中交织多个目标物体的分割掩码。模型能根据物体尺度和密度，自适应选择实例掩码（针对大而分散的物体）或语义掩码（针对小而密集的物体集群）。

【遥感指代表达式图像分割】

任务描述：给定一个遥感图像和一个指代表达式（如“右下角的红色屋顶”），模型生成该指代物体的精确分割掩码。

Future

加入我们的学术社区

点亮创新之光照亮科研梦想

这是一个致力于共同成长、资源共享的科研平台。我们期待您的到来，一起在科研道路上走得更远、更稳！^o^y

GeoPixel：遥感中像素定位的大型多模态模型

相关推荐