蘋果與芬蘭阿爾托大學合作,推出 ILuvUI 視覺語言模型,旨在理解行動應用程式介面。核心在教導人工智慧(AI)模型如何像人類推理用戶介面,不僅需要視覺訊息,還包括語義理解。
ILuvUI論文指出,理解和自動化用戶介面操作是一項挑戰,因介面元素如列表項、複選框和文本框包含訊息層次遠超過互動性。雖然大型語言模型(LLMs)自然語言任務表現出色,但僅依賴文本描述理解用戶介面,卻忽略豐富視覺訊息。
多數視覺語言模型主要用自然圖像訓練,如狗貓或街道號誌,因此解釋結構化環境(如應用程式介面)時表現不佳。研究員強調,將視覺訊息與文本訊息融合理解用戶介面至關重要,因反映人類與世界互動的方式。為了克服挑戰,團隊微調開源視覺語言模型LLaVA,並調整訓練法以專注用戶介面。他們使用合成生成文本─圖像訓練,最終資料庫包括問答式互動、詳細螢幕描述、預測操作結果,甚至是多步驟計畫。
訓練後ILuvUI機器基準測試和人類偏好測試均超越原始LLaVA模型。更重要的是,ILuvUI不需要用戶指定介面的特定區域,能從簡單提示理解整個螢幕上下文,使其能執行視覺問答等應用。蘋果研究員表示,可能對無障礙設計和自動化用戶介面測試有重要意義。將來研究可能涉及更大圖像編碼器、更佳解析度處理,以及與現有用戶介面框架(如JSON)無縫協作的輸出格式。
蘋果也發表另一項研究,質疑大型語言模型推理力,指出AI「推理」主要依賴複雜模式匹配,而非真正認知推理。這些模型處理簡單問題時可能太複雜,更複雜問題就表現不佳。這觀點引發對AI本質的辯論,並更謹慎和明智部署技術。
(首圖來源:Flickr/MIKI Yoshihito CC BY 2.0)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:鹰潭市)
然后推荐一些非常有意思的自媒体微博,“同道大叔”不用介绍了,星座领域的超级大IP,想用星座包装产品的看他就够。...[详细]
但是3·15曝光著名的耐克zoomair气垫鞋却没有气垫,而南京的郎先生就亲身体验了一番,而且他还以每双1499元的价格抢了两双。...[详细]
这样在网站TDK中,就要区分关键词的难易度,把握地区市场,在进行其他地区的阶段性实施。...[详细]
各地不一的社保制度,开放度不同的各地政策,使得商保一度成为互联网医疗最具想象空间的合作对象。...[详细]传奇仍在继续!40岁C罗世界杯预选赛打入39球,成为世预赛射手王
就在上周,新东方在线成立K12项目部,由东方优播CEO朱宇兼任项目部总监,主要负责新东方在线旗下K12学段的业务拓展。...[详细]
当你面前拥有所有的信息,审计网页和处理页面上出现的问题就顺理成章了。...[详细]
2015年7月,虎扑体育估值16亿元。...[详细]众行致远|说“闻”解字·一个“合”字说透上合组织朋友圈为何越来越大
毕竟,在好的执行和竞争优势面前,新颖度并没有那么重要。...[详细]
2015年,中国人均GDP超过了8000美元,乡村旅游作为新生活方式的代表,已成为国内休闲度假旅游的重要内容。...[详细]
北京初创企业豌豆荚的估值也曾在2014年达到10亿美元,然而Android应用的业务竞争优势很小,始终处于艰难求存的境地,最终不得不以5折的价格出售给阿里巴巴。...[详细]