蘋果與芬蘭阿爾托大學合作,推出 ILuvUI 視覺語言模型,旨在理解行動應用程式介面。核心在教導人工智慧(AI)模型如何像人類推理用戶介面,不僅需要視覺訊息,還包括語義理解。
ILuvUI論文指出,理解和自動化用戶介面操作是一項挑戰,因介面元素如列表項、複選框和文本框包含訊息層次遠超過互動性。雖然大型語言模型(LLMs)自然語言任務表現出色,但僅依賴文本描述理解用戶介面,卻忽略豐富視覺訊息。
多數視覺語言模型主要用自然圖像訓練,如狗貓或街道號誌,因此解釋結構化環境(如應用程式介面)時表現不佳。研究員強調,將視覺訊息與文本訊息融合理解用戶介面至關重要,因反映人類與世界互動的方式。為了克服挑戰,團隊微調開源視覺語言模型LLaVA,並調整訓練法以專注用戶介面。他們使用合成生成文本─圖像訓練,最終資料庫包括問答式互動、詳細螢幕描述、預測操作結果,甚至是多步驟計畫。
訓練後ILuvUI機器基準測試和人類偏好測試均超越原始LLaVA模型。更重要的是,ILuvUI不需要用戶指定介面的特定區域,能從簡單提示理解整個螢幕上下文,使其能執行視覺問答等應用。蘋果研究員表示,可能對無障礙設計和自動化用戶介面測試有重要意義。將來研究可能涉及更大圖像編碼器、更佳解析度處理,以及與現有用戶介面框架(如JSON)無縫協作的輸出格式。
蘋果也發表另一項研究,質疑大型語言模型推理力,指出AI「推理」主要依賴複雜模式匹配,而非真正認知推理。這些模型處理簡單問題時可能太複雜,更複雜問題就表現不佳。這觀點引發對AI本質的辯論,並更謹慎和明智部署技術。
(首圖來源:Flickr/MIKI Yoshihito CC BY 2.0)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:白城市)
“最大的挑战是要建立一个怎样的系统,以及该如何拿到反馈信息。...[详细]
这一点在网络大电影和网剧的制作方面体现得尤为明显。...[详细]
” 这个结论让毕胜和团队很痛苦,感觉找不到方向,好在资本方从未给他们压力,反而一直鼓励毕胜,“毕胜你自己去寻找方向,只要你这个团队在,不管做什么,如果你们有想法,继续投你,看...[详细]
如今微信指数也出来子,也自是闲不住的在微信群里与众好友一起研究了一下微信指数的算法,群里有位大神得出的微信指数算法是: 采用数据:总阅读数R、总点赞数Z、发布文章数N、该帐号当前最高阅读数Rmax、...[详细]
因为考虑到存在一定的时间间隔,具有通胀预期,那么就再加上200万欧,所以是2200万欧。...[详细]
互联网公司们已经发现,愿意付费的人群,依旧是那些具备高价值的人,当下要创造价值,推动内容消费,需要依旧是这些有价值内容和有价值的人。...[详细]
2.一项研究发现,相对于那些心情很差的员工,心情较好的人更不容易识别出欺骗行为。...[详细]
综上,在版本的迭代记录中,可以看到《王者荣耀》团队几乎是一个月一次版本和功能的大更新,再加上还需要优化和更新游戏性,同时新增英雄、皮肤,可以说这款游戏虽然只发行了一年多,但是更新的次数却并不少,看...[详细]全球要闻:“五一”假期客流量大 北京移动运用大数据赋能城市管理
朋友感叹说:这样的创业可谓“神仙难救”。...[详细]
但是导致了消费者心理期望过高,部分消费者在线下实际消费后发现与预期感受存在一定差距,这也就使得消费者二次进店消费率不高。...[详细]