臨床推論におけるAIの可能性と落とし穴

臨床推論におけるAIの可能性と落とし穴
[The Daily Star]GPT-4 や ジェミニ-1.0-プロ などの大規模言語モデル (LLM) は、臨床推論に革命をもたらし、専門家レベルの診断能力を発揮しています。しかし、これらのツールには欠陥がないわけではなく、人間の意思決定を困難にする認知バイアスを反映しています。最近の研究では、臨床実践におけるこれらのツールの可能性と限界の両方が強調されています。

ある研究では、50人の医師に複雑なビネットを提示し、標準ツールまたは標準ツールとGPT-4のいずれかを使用するようにランダムに割り当て、GPT-4が臨床医の診断精度に与える影響を調査しました(JAMAネットワークオープン 2024; 7:e2440969)。GPT-4は単独で使用した場合、人間のグループよりも優れたパフォーマンスを示しましたが、標準ツールと組み合わせた場合、臨床医のパフォーマンスは向上しませんでした。これは、書面による症例を超えた複雑さを伴う現実世界の状況でAIの有効性を最大化するためのトレーニングの必要性を強調しています。

別の研究では、LLM が認知バイアスを示すかどうかを評価し、欠陥を明らかにするために設計された臨床シナリオで GPT-4 と ジェミニ-1.0-プロ をテストしました (NEJM AI 2024; 1:アイクス2400639)。結果では、生存率や死亡率の提示方法に基づいて治療の推奨が異なる「フレーミング効果」などのバイアスが明らかになりました。同様に、「プライマシー効果」は AI の診断の優先順位付けに影響を与え、「後知恵バイアス」は過去の治療に関する判断に影響を与えました。

興味深いことに、AI の偏見は人間の臨床医に見られる偏見よりも大きい場合もありました。専門家は、臨床医が、代替仮説や診断に反する証拠を求めるなど、AI が生成した結論に異議を唱える批判的な質問戦略を使用することを推奨しています。

LLM が医療に不可欠なものになるにつれ、リスクを軽減し、患者の転帰を改善する可能性を引き出すためには、厳密な評価と慎重な統合が不可欠になります。


Bangladesh News/The Daily Star 20250112
https://www.thedailystar.net/star-health/news/the-promise-and-pitfalls-ai-clinical-reasoning-3797166