近期哈佛大學心理學系助理教授 Tomer Ullman 發表最新研究,揭示當前多模態視覺語言模型在圖像識別中存在奇特現象──這些人工智慧模型會錯誤將普通圖像解讀為光學幻覺,即使該幻覺並不存在。
此現象在論文《The Illusion-Illusion: Vision Language Models See Illusions Where There are None》中被稱為「幻覺-幻覺」(Illusion-Illusion)。
研究中,Ullman團隊選用多款先進模型,包括OpenAI的GPT-4、Anthropic的Claude 3和Google DeepMind的Gemini Pro Vision進行實驗。他們將一張100%鴨子圖像輸入模型,並詢問是否為鴨子頭或兔子頭。儘管圖像中並無兔子元素,模型卻表示這張圖片可被詮釋為經典的「鴨兔錯覺」(Rabbit-duck illusion),甚至提供了雙重解釋。
研究指出,這類錯誤並非模型「視覺敏銳度不足」,而是在多模態理解過程中存在語言與視覺信息的脫節。模型基於訓練數據中的統計相關性錯誤推斷,導致「看到不存在的幻覺」。
心理學視角來看,人類在辨識圖像時擁有靈活的認知機制,可以根據上下文迅速修正觀察結果,而AI模型仍依賴模式匹配算法,無法進行類似的意識判斷。Ullman強調,理解並改進這一問題,對未來機器人技術和智慧服務的穩定可靠性至關重要。
此發現引起人工智慧研究與產業界廣泛關注。目前,多模態視覺語言模型產業預計於2025年創造數十億美元的市場價值,相關企業投入大量資源優化模型,以降低此類誤識風險。
(首圖來源:pixabay)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:蚌埠市)
最终,法院判令被告小明向原告小美赔礼道歉,赔偿其精神损失。...[详细]
对于隐藏在山体中的地下洞库这一类的硬目标,采用一般的地对地战术导弹可能不太好打,但使用‘长剑-20A等空基巡航导弹,其打击方式更加灵活,可由轰-6K轰炸机搭载前出合适区域,从敌方防守薄弱方向实施打击。...[详细]
普京说:我们永远不会忘记贵国军队和军人家属所做的牺牲。...[详细]「直接販售」EV 違法 美國 CNCDA 狀告 Sony/本田
正如习近平主席所指出,今天人类又面临和平还是战争、对话还是对抗、共赢还是零和的抉择。...[详细]
新华社记者金良快摄这是教练机梯队通过天安门广场。...[详细]韋伯望遠鏡發現 300 個異常明亮物體,可能挑戰現有星系形成理論