AI 不是萬能,研究:醫療問題切勿問 ChatGPT

Image caption

生成式 AI能夠以更人性化的方式回答問題,號稱無所不知,不只能解決數學問題,甚至通過律師、醫療執照測驗,人們對 AI如此強大的能力,感到既期待又怕受傷害


壯陽藥散賣便宜試用看效果

但最近一項研究發現,AI在醫療實際應用方面,遠遠不能取代醫生。

2024年初,Google宣稱其醫療 AIArticulate Medical Intelligence Explorer (AMIE)可以根據與患者的對話來診斷疾病,且表現優於人類醫生。去年,幾乎每週都有發表的研究發現 AI在診斷癌症和糖尿病方面表現出色,甚至根據血液檢查結果可以預測男性不孕症。

專業醫療 AI的確進步神速,有些研究也認為,普羅大眾使用的生成式 AI也一樣可以充當醫生,如 2022年研究顯示 ChatGPT通過美國醫療執照考試 (USMLE)測試。

ChatGPT 不擅長診斷

加拿大安大略省西部大學的醫學教育專家質疑 ChatGPT的超能力。研究人員使用記錄真實患者的完整醫療案例,包括身體檢查結果、實驗室檢查結果的資料庫 Medscape,研究團隊將其中 150 Medscape案例轉化為 ChatGPT可以理解和處理的提示,結果在 150個案例中,ChatGPT 76個是錯誤的。

作者表示,專業醫療 AI ChatGPT不同之處在於它們接受訓練的資料。專業醫療 AI可能接受過大量醫學文獻的訓練,甚至可能接受過類似複雜病例的訓練,但是像 ChatGPT這樣的通用 AI缺乏醫學診斷所需的深厚領域專業知識。

作者舉例,醫療專業人員都知道實驗室值只是參考,譬如血液檢測結果的正常範圍是 10~20,即使超出範圍,21 500也有很大的不同,但 ChatGPT對更深入的醫學知識一無所知,只要測試結果稍微超出正常範圍,答案就會偏離軌道。

AI 都會粉飾太平

更嚴重的問題是無論是醫療專業 AI還是 ChatGPT,出錯時會粉飾太平,他們試圖欺騙你,讓你認為他們是對的。研究作者表示,這個工具在處理複雜的主題和簡化解釋方面確實非常有效,即使它是錯誤的,它也非常有說服力,因為它以一種易於理解的方式解釋事情。

大型語言模型以及所有現代 AI的問題在於,它們對所談論或所寫的主題沒有真正的理解,他們所做的只是根據從訓練期間攝入的大量文本中獲得的機率,來預測句子中的下一個單字應該是什麼。有時,這會導致 IA產生幻覺,出現無意義的結論。但更常見的是,聊天機器人會為一些可能不真實的事情提出非常令人信服、結構良好且有條有理的論點。

作者表示,AI就像一位熟練的公共演講者,具有不可抗拒的魅力,用簡單明了的字句回答所有問題,充滿自信,一般人可能需要一段時間才能意識到他在胡說八道,因此如果用戶不是該主題的專家,AI可能會產生很大的誤導性,並可能傳播錯誤訊息。

人人需培養 AI 素養

研究認為,不久的將來,一些非常具體的任務可能可以透過 GPT或類似的工具來完成,但複雜病例的診斷通常需要對細微差別有很深入的了解,短期內不會看到 AI進行全面的診斷或醫療管理。

作者指出,雖然醫學教育已經在使用 ChatGPT,學生有時可能會被 ChatGPT欺騙,但他們有教授來糾正問題,一般人是沒有這個能力的,人類醫生仍然是人們需要尋求醫療建議的地方。

研究強烈呼籲公眾此時不要使用 ChatGPT尋求醫療建議,同時也強調需要教育大眾了解 AI的好處及陷阱,培養基本的 AI 素養。

Passing part of a medical licensing exam doesn’t make ChatGPT a good doctor
Should you turn to ChatGPT for medical advice? No, Western University study says

(首圖來源:pixabay)