
<p id="359I279Q"> <strong>项目概述</strong></p><p id="359I279R">OmniParser 是微软研究院开发的一个创新项目,旨在增强大型视觉语言模型(如 GPT-4V)在操作图形用户界面(GUI)时的能力。</p><p id="359I279S">该项目由微软研究院和微软通用 AI 团队共同开发。</p><p id="359I279T">https://microsoft.github.io/OmniParser/</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1106%2Fa7ae583fj00smich00072d200u000crg00i8007q.jpg&thumbnail=660x&quality=80&type=jpg"/><br/> <strong>核心问题与解决方案</strong><br/></p><p id="359I279U">传统视觉语言模型在处理 GUI 操作时面临两个主要挑战:</p><p><ol><li id="359I27B8"></p><p id="359I279V"> 难以可靠识别界面中的可交互图标</p><p></li><li id="359I27B9"></p><p id="359I27A0"> 难以准确理解截图中各元素的语义并将预期操作与屏幕区域关联</p><p></li></ol></p><p id="359I27A1">OmniParser 通过以下方式解决这些问题:</p><p><ul><li id="359I27BA"></p><p id="359I27A2"> 开发了专门的交互式图标检测数据集</p><p></li><li id="359I27BB"></p><p id="359I27A3"> 设计了针对性的模型微调方案</p><p></li><li id="359I27BC"></p><p id="359I27A4"> 提供了结构化的界面元素解析方法</p><p></li></ul></p><p id="359I27A5">OmniParser 项目包含两个重要的数据集:</p><p><ol><li id="359I27BD"></p><p id="359I27A6">可交互图标检测数据集:</p><p><ul><li id="359I27BE"></p><p id="359I27A7"> 包含 67,000 个独特的截图样本</p><p></li><li id="359I27BF"></p><p id="359I27A8"> 基于 DOM 树标注的边界框标签</p><p></li><li id="359I27BG"></p><p id="359I27A9"> 来源于 clueweb 数据集中的 100,000 个流行网页 URL</p><p></li></ul></li><li id="359I27BH"></p><p id="359I27AA">图标描述数据集:</p><p><ul><li id="359I27BI"></p><p id="359I27AB"> 包含 7,000 对图标-描述配对数据</p><p></li><li id="359I27BJ"></p><p id="359I27AC"> 用于微调说明模型</p><p></li></ul></li></ol><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1106%2Fae8dd6fcj00smich200jmd200u000i0g00i800ax.jpg&thumbnail=660x&quality=80&type=jpg"/> <strong>性能优势</strong></p><p id="359I27AD">OmniParser 在多个基准测试中都展现出优秀表现:</p><p><ul><li id="359I27BK"></p><p id="359I27AE"> SeeClick 基准测试</p><p></li><li id="359I27BL"></p><p id="359I27AF"> Mind2Web 基准测试</p><p></li><li id="359I27BM"></p><p id="359I27AG"> AITW 基准测试</p><p></li></ul></p><p id="359I27AH">特别值得注意的是,仅使用截图输入的 OmniParser 性能超过了需要额外信息的 GPT-4V 基线模型。</p><p id="359I27AI">OmniParser 可以作为插件与多个视觉语言模型配合使用:</p><p><ul><li id="359I27BN"></p><p id="359I27AJ"> GPT-4V</p><p></li><li id="359I27BO"></p><p id="359I27AK"> Phi-3.5-V</p><p></li><li id="359I27BP"></p><p class="f_center"> Llama-3.2-V <img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1106%2F26fa199bj00smich2007pd200u0006vg00hk0040.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1106%2F41f277c5j00smich3002id200ty008mg00hk0051.jpg&thumbnail=660x&quality=80&type=jpg"/><br/></p><p></li></ul><strong>工作流程</strong></p><p id="359I27AM">OmniParser 的处理流程包括:</p><p><ol><li id="359I27BQ"></p><p id="359I27AN">输入:</p><p><ul><li id="359I27BR"></p><p id="359I27AO"> 用户任务描述</p><p></li><li id="359I27BS"></p><p id="359I27AP"> UI 截图</p><p></li></ul></li><li id="359I27BT"></p><p id="359I27AQ">输出:</p><p><ul><li id="359I27BU"></p><p id="359I27AR"> 解析后的截图(包含边界框和数字 ID 标注)</p><p></li><li id="359I27BV"></p><p id="359I27AS"> 局部语义信息(包含提取的文本和图标描述)</p><p></li></ul></li></ol><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1106%2F65edcb52j00smich40069d200u000bjg00i80070.jpg&thumbnail=660x&quality=80&type=jpg"/> <strong>安装、运行</strong></p><p id="359I27AT"><strong>安装</strong></p><pre></pre></p><p id="359I27AU"><strong>模型下载</strong>:</p><p id="359I27AV">地址:https://huggingface.co/microsoft/OmniParser</p><p id="359I27B0">把文件放在weights/目录下</p><p id="359I27B1">目录结构: weights/icon_detect, weights/icon_caption_florence, weights/icon_caption_blip2.</p><p id="359I27B2"><strong>模型转换</strong>:</p><pre></pre></p><p id="359I27B3"><strong>运行程序</strong>:</p><pre></pre><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1106%2F706ad723j00smich5004ed200u000crg00i8007q.jpg&thumbnail=660x&quality=80&type=jpg"/></p><p id="359I27B6"><strong>⬆️</strong><strong>关注:领取Python、机器学习资料包</strong><strong>⬆️</strong></p>
讯享网

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/191833.html