AI生成答案超三成“不可靠”-新華網
新華網 > > 正文
2025 09/19 14:41:59
來源:參考消息網

AI生成答案超三成“不可靠”

字體:

  參考消息網9月18日報道 據英國《新科學家》周刊網站9月16日報道,生成式人工智能(AI)工具及其驅動的深度研究智能體和搜索引擎經常給出缺乏依據和存在偏見的說法,它們引述的資料并不支持這樣的說法。一項分析得出了上述結論,它發現,AI工具提供的答案有大約三分之一缺乏可靠資料的支持。對開放人工智能研究中心(OpenAI)的GPT-4.5來說,這一比例更高,達到47%。

  賽富時公司AI研究部門的普拉納夫·納拉亞南·文基特和他的同事測試了一些生成式AI搜索引擎,包括OpenAI的GPT-4.5和GPT-5、You.com、“解惑”和微軟的必應聊天。此外,他們還測試了5個深度研究智能體:GPT-5的深度研究功能、必應聊天的深度思考選項以及You.com、谷歌“雙子座”和“解惑”提供的深度研究工具。

  納拉亞南·文基特說:“我們希望對生成式搜索引擎進行社會技術評估?!蹦康氖谴_定答案的質量及人類應該如何對待其中包含的信息。

  他們要求不同的AI引擎回答303個問題,評價AI的回應使用了8個指標。研究人員把這套指標稱為DeepTrace。其設計目的是檢測某個答案是否過于片面或自信,它與問題的相關性如何,它引述了什么資料,引述的資料對答案給出的說法有多少支持,以及引述的資料的詳盡程度。

  問題大致被分成兩組:第一組包含一些有爭議的問題,以發現AI回應中的偏見;第二組用于檢測一系列領域的專業知識,包括氣象學、醫學和人機交互。

  總的來說,AI驅動的搜索引擎和深度研究工具表現得相當差。

  研究人員發現許多模型給出了過于片面的答案。必應聊天搜索引擎給出的答案有大約23%包含缺乏依據的說法,而You.com和“解惑”AI搜索引擎的這一比例為31%左右。GPT-4.5給出的缺乏依據的說法更多,為47%,而“解惑”深度研究智能體的該比例高達97.5%。納拉亞南·文基特說:“看到這樣的情況確實讓我們很驚訝?!保ň幾g/楊新鵬)

手機屏幕上的OpenAI標識(美聯社資料圖片)

【糾錯】 【責任編輯:郭曉婷】
        aⅴ另类天堂无码专区