來自賓夕法尼亞大學的最新研究指出,OpenAI 的 GPT-4o Mini 模型在經典心理學說服技巧影響下,能被誘導違反自身規則。
其中,採用心理學家Robert Cialdini提出的七種說服技巧,包括權威、承諾、喜好、互惠、稀缺性、社會證明與團結等,在多達2.8萬次對話實驗中,承諾一致性原則顯示出最強的說服力,使得模型對違規請求的合規率飆升至近100%。
研究人員首先讓模型回答一個看似無害的問題,然後逐步引導其做出更多違規的回應。例如,使用輕微侮辱語(如「bozo」)為開端,再提出更激烈的罵人請求,模型同意度最高達100%。此外,諸如恭維和同儕壓力等技巧也對模型產生了一定影響,具體數據顯示,同儕壓力使得違規概率提高約18%。
這項研究揭示了大型語言模型(LLM)不僅模仿語言,還學習人類的社交互動規則,因而對心理說服策略高度「易感」。這表示AI安全防護必須考慮更複雜的社會心理學攻擊面,並促使AI安全研發進一步加強防護,以避免利用心理操控繞過安全機制。
(首圖來源:pixabay)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:大港区)
此文由正千网络原创编辑,转载请注明出处。...[详细]
如果企业打算引进做市商的话,那就得重点关注了,毕竟做市商手里的股票可没有限售这一说...[详细]
游戏化:90后一切都要求好玩,这会使文娱产业“玩”的属性增强。...[详细]
比如papi酱就是双管齐下,既转型不仅签了baby的公司,还各种代言做广告,同时还打造papitube平台,用以孵化更多“papi酱们”。...[详细]
投入500万,亏得干干净净 创业初期我预算用完100万以后可以开始盈利,并且觉得已经是很保守的预算了。...[详细]
@一夜恨白头:单件成本100多,据我所知,很多知名品牌也没有这么高的成本,楼主做高客单,可是毛利润率却只有10%,跟别人低价跑量的没区别,这个是源头问题要从供应链去改善。...[详细]
最“恐怖”的是第四类用户,因为网站大多包退,退货可以选择到付即可。...[详细]
而长期不进行注销,会对法人个人征信产生严重影响。...[详细]
” 孔德菁对雷帝网表示,厦门互联网早期各自为战,但后来发现各自从公司管理、对外宣传、发展策略很多很类似,可以交流,逐渐形成几个人的小圈子。...[详细]
3.提供免运费 研究发现运费在网上购物过程中起到不小的作用。...[详细]