体育游戏app平台仅仅因为它简直学会了「看懂屏幕并操作」这件事-开云(中国)Kaiyun·官方网站 - 登录入口

栏目分类
资讯

你的位置:开云(中国)Kaiyun·官方网站 - 登录入口 > 资讯 > 体育游戏app平台仅仅因为它简直学会了「看懂屏幕并操作」这件事-开云(中国)Kaiyun·官方网站 - 登录入口

体育游戏app平台仅仅因为它简直学会了「看懂屏幕并操作」这件事-开云(中国)Kaiyun·官方网站 - 登录入口

发布日期:2026-04-25 07:48    点击次数:155

体育游戏app平台仅仅因为它简直学会了「看懂屏幕并操作」这件事-开云(中国)Kaiyun·官方网站 - 登录入口

ClawGUI团队 投稿

量子位 | 公众号 QbitAI

大开新闻客户端 莳植3倍流通度

莫得东说念主工插手,莫得预设剧本,AI我方看屏幕、判断场面、盘算推算排斥旅途、点击扩充。

看着它一步步把方块消掉,狼狈有种解压感。

这不是游戏外挂,而是一个通用GUI智能体在「认真责任」:它用的是和操作手机App、填写表单、浏览网页完全疏浚的视觉会通与操控手艺。能玩消消乐,仅仅因为它简直学会了「看懂屏幕并操作」这件事。

那么问题来了:一个能我方玩消消乐的AI,离替你完成普通手机操作还有多远?不是那种「帮我设个闹钟」的语音助手,而是确切像东说念主通常,看屏幕、会通界面、滑动点击、渐渐完成复杂任务的智能体。

现时GUI智能体询查渊博濒临一个结构性挑战:教师、评测、部署三个要津彼此割裂,难以形成闭环。模子在仿真环境里教师完成后,每每死力配套的工程旅途迁徙到真实树立;评测体系尺度不一,不同框架下的数字难以横向比拟;而部署到真实树立,又需要零丁搭建一套工程基础活动。三个要津各利己战,全体鼓舞的资本极高。

今天,来自ZJU-REAL的团队带来了ClawGUI,一个笼罩GUI智能体在线RL教师、尺度化评测、真机部署好意思满人命周期的开源框架。不是三个零丁器用的省略拼接,而是一条买通的活水线:用ClawGUI-RL教师,用ClawGUI-Eval评测,用OpenClaw-GUI部署,端到端考据。

基于这套活水线,一个仅2B参数的小模子ClawGUI-2B,在MobileWorld基准上取得17.1 SR,大幅卓著基线的11.1,达到了接近8B模子的水平。

△ ClawGUI系统架构总览

ClawGUI-RL:让GUI模子在环境中稳步莳植

GUI Agent的RL教师需要与真实树立进行握续交互,截屏、融会、操作、得到响应,形成好意思满的episode。这意味着教师基础活动不仅需要模子教师框架,还需要大限度环境仿真和树立不断手艺。ClawGUI-RL是当今开源社区中为数未几的、经过端到端考据的GUI Agent Online RL处罚有计算。

具体来说,ClawGUI-RL将扫数这个词教师基础活动拆解为三层:环境不断、奖励联想、计策优化。

环境层面,扫数树立后端(Docker编造机和物理手机)被合伙综合为销亡套接口,教师代码无需分离底层是模拟器如故真机。每个环境遵照「重置→扩充→评估→回收」的尺度人命周期,配合Spare Server轮转和周期性重启,保证长时间教师的厚实性。

奖励层面,ClawGUI-RL剿袭二元效力奖励+PRM渐渐奖励的双层联想。效力奖励在episode末端时给出顺利/失败的0/1信号,PRM则在每一步操作后把柄前后截图和历史四肢判断现时操作是否有用鼓舞了任务,两者相加组成最终奖励。这种茂密的渐渐响应极大缓解了GUI长序列决策中奖励稀疏的问题,让优化器能够分离哪些中间时势是有价值的、哪些是无效绕路。

计策优化层面,ClawGUI-RL撑握GRPO、GiGPO等主流强化学习算法,并提供合伙的教师接口,浮浅询查者把柄任务特质生动切换和对比不同优化计策。

△ ClawGUI-RL架构图

ClawGUI-RL在线环境教师Demo:

大开新闻客户端 莳植3倍流通度

编造环境与真机教师

基于Docker的Android编造环境,ClawGUI-RL撑握大宗编造Android环境同期并行开动。内置的Spare Server轮移动制保证了教师的鲁棒性,当某个容器截图失败或树立不健康时,系统自动切换至备用奇迹器,教师不中断。团队提供了经过考据的端到端真机RL教师进程,物理手机和云手机均可接入。真机教师的交互条约与编造环境完全一致,为后续大限度云手机教师铺平了说念路。

PRM渐渐奖励:不啻看效力,每一步都给分

尺度GRPO为扫数这个词Episode分拨一个单一的上风分数,顺利了即是1,失败了即是0,中间时势好不好完全岂论。这就像现实只看总分,不知说念哪说念题作念对了哪说念作念错了。ClawGUI-RL通过引入过程奖励模子(PRM)调动了这小数,对每一步操作进行评估,提供更密集的梯度信号,罢了更密致的计策优化。

实验效力

以MAI-UI-2B为基座,ClawGUI-2B在MobileWorld基准上的推崇:

几个重要数字:ClawGUI-2B达到17.1 SR,大幅卓著MAI-UI-2B基线(11.1),莳植幅度达6%。一个2B小模子,达到了接近8B模子的水平。

ClawGUI-Eval:95.8%复现率,让评测效力的确

GUI模子评测边界永远濒临复现一致性的挑战:不同框架、不同罢了细节下,销亡模子的评测数字每每存在彰着互异。差个prompt时势、搞混坐标系、调错分辨率,效力就可能偏差数个百分点。

ClawGUI-Eval通过尺度化的Infer→Judge→Metric三阶段活水线系统性地处罚了这个问题。

△ ClawGUI-Eval评测框架

笼罩6大Benchmark(ScreenSpot-Pro、ScreenSpot-V2、UIVision、MMBench-GUI、OSWorld-G、AndroidControl),撑握11+模子(Qwen3-VL、Qwen2.5-VL、UI-TARS、MAI-UI、GUI-G2、UI-Venus、Gemini、Seed 1.8等)。48个有官方基准的格子中顺利复现46个,总体复现率95.8%。前沿模子Gemini 3.0 Pro和Seed 1.8在ScreenSpot-Pro上罢了100%复现,并初度评测了Gemini 3.1 Pro(85.01)。

踩坑踩出来的复现Tips

比数字更有价值的,是团队回来的重要复现资格,每一条都是用准确率换来的警戒:

1. 坐标系统不匹配=准确率归零。Qwen2.5-VL输出豪阔像素坐标,Qwen3-VL输出[0,1000]归一化,StepGUI用[0,999],搞混一个即是厄运。

2. 图文输入礼貌(tv vs. vt)可导致数个百分点互异。大部分模子需要图片在前(vt),MAI-UI需要文本在前(tv),用错平直崩盘。

3. 哪怕一句”You are a helpful assistant.”也能带来约1%的莳植。System prompt必须严格对王人官方。

4. Prompt时势必须逐字对王人。措辞渺小互异就可能影响效力。

5. 温度提倡设为0.0。非零温度影响坐标精度。

扫数推理效力已沿路开源,迎接下载考据。

OpenClaw-GUI:一句话戒指手机

GUI智能体确切的价值,在于能够在用户手边的真实树立上开动、帮东说念主完成骨子任务。OpenClaw-GUI恰是为此而生,把GUI智能体带到真机上落地。

基于nanobot框架构建,OpenClaw-GUI罢了了通过当然言语戒指真实手机。接入飞书、QQ、Telegram、Discord、Slack、钉钉等12+聊天平台,用户在聊天窗口发一句教导,Agent就能截屏会通界面、盘算推算操作旅途、扩充点击和输入。

OpenClaw-GUI操控手机Demo:

大开新闻客户端 莳植3倍流通度

更重要的是,OpenClaw-GUI把评测也集成进来了。说一句「帮我测一下qwen3vl在screenspot-pro上的经营」,Agent会自动完成环境检测→多GPU推理→判分→经营狡计→效力对比。这自身即是CLI+GUI互助的绝佳例证,狡计密集型责任由CLI高效完成,东说念主机交互和效力呈现依赖GUI。

中枢手艺:跨平台撑握Android(ADB)、鸿蒙(HDC)、iOS(XCTest);多模子接入AutoGLM、MAI-UI、GUI-Owl、Qwen-VL、UI-TARS;个性化挂念,自动学惯用户偏好,跨任务握续复用;Episode纪录,每次扩充以结构化Episode保存,撑握回放与数据集构建;Web UI基于Gradio,撑握树立不断、任务扩充与挂念稽察。

预测:GUI的故事远未末端

2026年,CLI Agent无疑是最火的赛说念。Claude Code、Gemini CLI、CodeBuddy……一个当然的问题走漏:GUI智能体还有必要吗?

询查团队倾向于以为:GUI的故事远莫得末端,CLI+GUI的会通简略是通往通用Agent的一条蹙迫旅途。

东说念主类短期内离不开GUI。从翰墨到图片到视频,越容易被感知的序论越具备传播上风。外卖、打车、酬酢、购物,移动互联网绝大多数的交互发生在图形界面上。至少在可见的过去,GUI仍将是数字寰宇的主要进口。

不是扫数App都有API。微信、银行、大宗企业里面系统惟有图形界面。CLI面向Agent扩充,高效干活;GUI面向东说念主类会通,感知和交互。两者更像是互补关连而非替代关连。

GUI的「可见性」提供了一种特有的信任机制。假如Agent在扩充当务时波及支付操作,CLI以用户看不见的方式平直完成了付款,形成的亏本谁来承担?GUI操作到重要时势时,用户不错看到屏幕上正在发生什么、随时介入。这种可控性可能是纯CLI有计算较难提供的。

Online RL的工程挑战远未被处罚。GUI Agent的RL教师需要与真实App交互,登录考据、反爬机制、动态UI变化,大限度RL Scaling的厚实性已经行业认真。ClawGUI-RL的Spare Server轮转和周期性重启机制是一个初步的探索,距离大限度坐褥级教师还有很长的路要走。

门路图

ClawGUI的盘算推算不啻于此:OpenClaw-GUI撑握当然言语手机操控与评测;ClawGUI-RL可彭胀的Mobile Online RL教师基础活动,撑握PRM渐渐奖励;ClawGUI-Eval尺度化评测套件,6个Benchmark,95%+复现率;ClawGUI-2B达到17.1 SR(基线11.1);后续将鼓舞真机部署OpenClaw-GUI,平直部署在手机上幸免云霄心事暴露;Desktop / Web Online RL,将在线RL彭胀至桌面和网页环境;以及基于OPD算法的及时强化学习。

回来

ClawGUI不是要解释GUI比CLI更好,而是思探索一种可能性:教师、评测、部署买通之后,GUI智能体能走多远?CLI和GUI的互助又能开释出奈何的后劲?

ClawGUI-RL让GUI Agent的在线教师从编造环境走向真机,ClawGUI-Eval为社区提供了一套的确赖的评测尺度,OpenClaw-GUI把GUI智能体从询查带到了真实树立。

技俩已开源,迎接Star撑握,让更多东说念主看到GUI Agent的可能性。

技俩地址:

https://github.com/ZJU-REAL/ClawGUI

技俩主页:

https://zju-real.github.io/ClawGUI-Page/

一键三连「点赞」「转发」「预防心」

迎接在驳斥区留住你的思法!

— 完 —

咱们正在招聘又名眼疾手快、样貌AI的学术裁剪实习生 🎓

感酷好的小伙伴迎接样貌 👉 了解细目

🌟 点亮星标 🌟

科技前沿进展逐日见体育游戏app平台



上一篇:欧洲杯体育连接意味着‘日常住房’已损毁-开云(中国)Kaiyun·官方网站 - 登录入口

下一篇:没有了

Powered by 开云(中国)Kaiyun·官方网站 - 登录入口 @2013-2022 RSS地图 HTML地图