蘋果與芬蘭阿爾托大學合作,推出 ILuvUI 視覺語言模型,旨在理解行動應用程式介面。核心在教導人工智慧(AI)模型如何像人類推理用戶介面,不僅需要視覺訊息,還包括語義理解。
ILuvUI論文指出,理解和自動化用戶介面操作是一項挑戰,因介面元素如列表項、複選框和文本框包含訊息層次遠超過互動性。雖然大型語言模型(LLMs)自然語言任務表現出色,但僅依賴文本描述理解用戶介面,卻忽略豐富視覺訊息。
多數視覺語言模型主要用自然圖像訓練,如狗貓或街道號誌,因此解釋結構化環境(如應用程式介面)時表現不佳。研究員強調,將視覺訊息與文本訊息融合理解用戶介面至關重要,因反映人類與世界互動的方式。為了克服挑戰,團隊微調開源視覺語言模型LLaVA,並調整訓練法以專注用戶介面。他們使用合成生成文本─圖像訓練,最終資料庫包括問答式互動、詳細螢幕描述、預測操作結果,甚至是多步驟計畫。
訓練後ILuvUI機器基準測試和人類偏好測試均超越原始LLaVA模型。更重要的是,ILuvUI不需要用戶指定介面的特定區域,能從簡單提示理解整個螢幕上下文,使其能執行視覺問答等應用。蘋果研究員表示,可能對無障礙設計和自動化用戶介面測試有重要意義。將來研究可能涉及更大圖像編碼器、更佳解析度處理,以及與現有用戶介面框架(如JSON)無縫協作的輸出格式。
蘋果也發表另一項研究,質疑大型語言模型推理力,指出AI「推理」主要依賴複雜模式匹配,而非真正認知推理。這些模型處理簡單問題時可能太複雜,更複雜問題就表現不佳。這觀點引發對AI本質的辯論,並更謹慎和明智部署技術。
(首圖來源:Flickr/MIKI Yoshihito CC BY 2.0)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:苗栗县)
释永信长期担任少林寺住持,本应潜心修行、立身为范,率众持戒、弘扬佛法,传承禅宗法脉,守护祖庭清净,然而其目无国法、罔顾教规,六根不净、追名逐利,肆意妄为、屡破底线,背弃了正信正行的沙门传统,枉费了广大...[详细]
由三型轮式两栖战车组成的两栖突击方队展现出我军登陆作战的强劲实力。...[详细]
[环球网报道]据美国《野兽日报》报道,波兰总统卡罗尔·纳夫罗茨基及其团队当地时间9月3日访问白宫,随行代表团被拍到带着特朗普周边产品回国,其中包括让美国再次伟大(MAGA)帽子和印有特朗普签名的白色手...[详细]
CPO、军工、半导体、贵金属等方向跌幅居前,沪深京三市下跌个股近1900只。...[详细]
严重违反佛教戒律,长期与多名女性保持不正当关系并育有私生子。...[详细]
《解释二》明确了劳动者以用人单位未依法缴纳社会保险费为由解除劳动合同,由用人单位支付解除劳动合同经济补偿。...[详细]
此外,她还认为,射程覆盖全球也意味着弹道选择更加灵活。...[详细]
为核实施工方说法,记者联系相关政府部门了解情况。...[详细]全球要闻:“五一”假期客流量大 北京移动运用大数据赋能城市管理
我们更要鼓励香港各界人士积极地去投身国家的发展大局中,为中华民族的复兴贡献力量。...[详细]
如发现可疑情况,可通过12339国家安全机关举报受理电话、网络举报平台(www.12339.gov.cn)、国家安全部微信公众号举报受理渠道或直接向当地国家安全机关进行举报。...[详细]