欧洲杯体育反应出该区域在采样中的一致性进度-开云(中国)kaiyun体育网址登录入口
无需海量数据标注,智能体也能精确识别定位斟酌元素了!
来自浙大等机构的研究东谈主员冷漠GUI-RCPO——一种自我监督的强化学习要领,不错让模子在莫得标注的数据上自主提高 GUI grounding(图形界面定位)智商。
何谓 GUI grounding?为什么要提高这项智商?
简便而言,连年来,以视觉 - 话语模子为骨架的 GUI 智能体正在迅猛发展,只需要一句话语指示,它们就能像东谈主相同手眼协同地操作电脑、手机、网页等界面。
GUI 智能体的一个重要智商在于 GUI grounding,也等于凭据用户给出的当然话语指示,GUI 智能体需要在用户界面中精确地识别并定位可操作的斟酌元素。
邃密的 GUI grounding 智商不错使得 GUI 智能体更好地意会图形界面,以及完成愈加精确地界面交互。
关联词,想要查抄这么一种看似简便的智商,却需要大界限高质料的标注数据——现时绝大多数要领动辄需要上百万级的标注数据,而构建这么的高质料的标注数据需要大都的东谈主工和时辰本钱。
而 GUI-RCPO 正值搞定了上述问题,其中枢旨趣如下:
通过转变性地将 Test-time Reinforcement Learning 的想想迁徙到 GUI grounding 任务上,诈欺模子在屡次采样之间呈现出来的区域一致性来指挥模子在无标签的数据上进行自我提高。
具体内容如下——
GUI-RC:模子采样"求同存异"
当模子针对团结指示进行屡次掂量时,由于坐标空间的连气儿性妥协码政策带来的立地性,模子会产生不同的掂量区域。
尽管这些掂量区域的范围可能互不疏导,可是它们会存在一定的空间重迭,这种空间重迭骨子上蕴含了一种隐式的置信度信号,重迭进度越高潜在地证明了模子对该区域的置信度越高,研究团队将这种空间重迭界说为模子采样中的区域一致性。
基于这一知悉,研究团队早先野心了一种基于区域一致性进行空间投票的 test-time scaling 要领——GUI-RC。
早先构建一张与屏幕截图疏导大小的投票网格来纪录模子每次采样中掂量的区域,关于每一个掂量恶果,将其在网格上对应的区域记上一票,淌若模子的掂量恶果是点坐标,则将其延迟成大小的方框,再投射到网格上。
一王人投票轨则后,这张网格便纪录了模子在采样经过中总体上对每一个像素点的置信度,票数越高的区域代表模子对该区域的信心越强。
随后,索求出网格中票数最高且面积最大的连气儿区域作为模子采样中的"共鸣区域"。
临了,诈欺这块共鸣区域来进行 GUI 定位,即可在无需查抄的情况下,获取一个愈加精确可靠的掂量恶果。
GUI-RCPO:让模子在无标签数据上自我提高
研究团队进一步冷漠了一种 test-time reinforcement learning 要领——GUI-RCPO,将模子采样中的区域一致性调动成一种自监督的奖励信号来请示模子的政策优化。
关于每一个掂量恶果,GUI-RCPO 会赋予其掂量区域内的平均票数与最大票数之比的奖励,反应出该区域在采样中的一致性进度,一致性进度越高的区域会被赋予越高的奖励。
这么一来,GUI-RCPO 便不错在无需任何标注数据和外部监督的情况下,诈欺这种区域一致性奖励来请示模子进行政策优化,让模子的输出愈加精确且自信,进而提高奖励的可靠性和质料,从而达成在无标签数据上的自我提高。
践诺分析
研究团队将 GUI-RC 和 GUI-RCPO 两种要领区分应用到不同的通用模子和 GUI 专用模子上,并在三个主流的 GUI 定位基准上进行了全面的评估。
关于 GUI-RCPO 要领,团队使用去掉真值标签的 ScreenSpot-v2 作为查抄数据集。
践诺恶果标明,两种要领在不同模子上都有一致的提高。
其中 GUI-RCPO 带来的提高早先了 GUI-RC,证明模子在 GUI-RCPO 查抄经过中并不是在简便地拟合共鸣区域,而是在简直地学会一种更好的定位政策。
此外,GUI-RCPO 关于照旧在 GUI 任务上进行过预查抄的模子仍然会带来进一步的提高,证明了要领的有用性。
此外,GUI-RCPO 还展现出邃密的泛化智商,尽管模子只在针对通用场景的 ScreenSpot-v2 数据集上进行查抄,可是在更有挑战性的针对专考场景的 ScreenSpot-Pro 基准上依然有显赫的提高。
而且跟着查抄步数的增多,模子在三个基准上的进展都有默契的提高,进一步证明了 GUI-RCPO 的泛化智商。
研究团队还尝试在 GUI-RCPO 查抄之后,络续使用 GUI-RC 进行空间区域投票,并发现模子的进展还能进一步提高,证明通过这种自我强化的轮回,模子不错在莫得任何标注数据和外部监督的情况下,收敛打破预期的性能上限。
案例分析
研究团队提供了两个案例,区分展示了 GUI-RC 不错搞定的 GUI 定位中存在的两类幻觉。
误导性幻觉
在一个电商界面里,用户指示条目 GUI 智能体在前锋购物区中查抄低于 50 好意思元的鞋子(图片中蓝色方框框选的区域),而在无餍解码政策下,模子却被附进的语义与版面布局迷惑,造作地框选到了"低于 25 好意思元的上衣"区域(左侧图片中红色方框框选的区域),这是典型的语义错配导致的误导性幻觉。
GUI-RC 通过对团结指示进行屡次采样,并投票选出采样中的共鸣区域(右侧图片中绿色方框框选的区域),生效地将模子的防护力默契地团员到正确的区域,从而矫正了单次掂量的误导性造作,给出更精确的定位。
偏差性幻觉
在一个电子平台界面里,用户指示条目 GUI 智能体"相关销售"(图片中蓝色方框框选的区域),而在无餍解码政策下,模子却把右侧的整张信息卡片四肢斟酌(左侧图片中红色方框框选的区域),而不是精确地框选可点击的"相关销售"按钮。
GUI-RC 通过屡次采样投票的神志,把一次次略有偏差的掂量团员并索求出一个愈加精确、自信的共鸣区域(右侧图片中绿色方框框选的区域),生效地完成了精确的定位,排斥了这类偏差性幻觉。
小结一下
研究团队早先野心了一种无需查抄的 test-time scaling 要领—— GUI-RC,通过诈欺模子在采样经过中呈现出来的空间区域一致性索求出模子的共鸣区域,从而达成愈加精确自信的定位。
为了络续发掘区域一致性的后劲,团队进一步冷漠了一种 test-time reinforcement learning 要领—— GUI-RCPO,将区域一致性改换为一种自监督的奖励信号,使得模子大致在无需任何标注数据的情况下收敛地进行自我提高。
实考据明了该要领有等闲的适用性和邃密的泛化智商。
团队的研究揭示了 test-time training 在 GUI 智能体领域中的后劲,为构建愈加数据高效的 GUI 智能体提供了一个可行的主义。
论文相连:https://arxiv.org/abs/2508.05615
技俩主页:https://zju-real.github.io/gui-rcpo/
代码仓库:https://github.com/ZJU-REAL/GUI-RCPO
一键三连「点赞」「转发」「防卫心」
迎接在批驳区留住你的见解!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见欧洲杯体育