发布时间:2025-03-08 12:30:43 浏览:
【新智元导读】OmniParser V2可将屏幕截图转换为结构化元素,帮助LLM理解和操作GUI;在检测小图标和推理速度上显著提升,延迟降低60%,与多种LLM结合后表现优异。 然而,使用通用大型语言模型(LLM)作为GUI智能体仍然存在难点:1)如何可靠地识别用户界面中的可交互图标,谈球吧入口以及 2)理解截图中各种元素的语义,并准确地将预期的操作与屏幕上的相应区域关联起来。 OmniParser通过将UI截图从像素空间「token化」为LLM可解释的结构化元素,弥合了这一差距,使得LLM能够在一组已解析的可交互元素基础上进行基于检索的下一步动作预测。 从UI屏幕中识别可交互区域是推理用户任务应执行何种操作的关键步骤。与其直接让GPT-4o预测屏幕上应操作的xy坐标,研究人员采用Set-of-Marks,在UI截图上叠加可交互图标的边界框,并让GPT-4V生成要操作的边界框ID。 具体而言,研究人员构建了一个独特UI截图的可交互图标检测数据集,每张图片都标注了从DOM tree提取的可交互图标的边界框。 数据采集时,首先从Bing Index热门网址中随机抽取100,000个URL,并从其DOM中提取网页的可交互区域边界框。部分网页及其可交互区域示例如图2所示。 研究人员发现,仅输入带有边界框和对应ID的UI截图,往往会导致GPT-4o产生误导性预测,这一局限性可能源于GPT-4o在同时执行两个任务时的能力受限:一是识别每个图标的语义信息,二是预测特定图标的下一步操作。 为了解决这一问题,研究人员在提示(prompt)中加入功能的局部语义信息。 具体而言,对于可交互区域检测模型识别出的每个图标,使用一个微调模型生成该图标的功能描述。 通过构建专门的图标描述数据集,研究人员发现该模型在常见应用图标的描述上更加可靠;在UI截图的视觉提示基础上,加入局部边界框的语义信息(以文本提示的形式)能够显著提升GPT-4o的理解效果。 可交互图标检测数据集:该数据集来源于Bing Index热门网页,并经过自动化标注以突出可点击和可操作区域。 “呀,我想起来了,你是阿蛮姐,给我讲过很多故事,还说要带我去看赤羽鹤,对我可好了。”小不点突然想起了小女孩是谁。 02月26日,蓝天立:感谢“小东北虎”“小雾凇”“小冻梨”们和广西的双向奔赴, 小不点从千斤铜鼎举起,一路猛进,而后竟然举起了重达五千斤的黑金鼎,石村一群人全部石化。 02月26日,(两会声音)全国人大代表欧阳黔森:脚上沾满泥土才能开出芬芳的花朵, 拖着疲惫的躯壳,暴风刮得着实吓人,汽车不再奔驰,人影不在路边出现,成堆的垃圾代替了整齐的房子,干涸的河床显现出来,干瘪的鱼骨在河床上“站立”,这真的是我们以后想要的吗? 这样一串骨珠乃是罕见的强大宝具,就这样被战矛击碎,化成神精,消散于天地间,让诸多族老都心疼。 四个玉罐看着很小,但是入手很重,内部装着不同颜色的宝血,极其珍贵,血脉力几乎等若太古遗种,价值连城。谈球吧入口 风声呼啸,这一次青鳞鹰俯冲下来,大部分的猛兽全都躲避了,不敢撄其锋,因为它实在太强大了。 02月26日,2024中国农民丰收节村歌大赛总决赛颁奖仪式在山东莱阳举办, 新闻信息服务许可证音像制品出版许可证广播电视节目制作经营许可证网络视听许可证网络文化经营许可证