医療データプラットフォーム事業を推進するTXP Medical株式会社(本社:東京都千代田区、代表取締役CEO:園生 智弘、以下TXP Medical)の後藤 匡啓 (Chief Scientific Officer)らの研究チームは、GPT-4の臨床現場での活用可能性の調査のため、既存の臨床事例を用いて臨床診断・トリアージの精度について定量化しました。その結果、GPT-4の診断・トリアージ精度は救急・集中治療専門医らと遜色ないことが明らかになりました。加えて、臨床事例に人種・民族的バイアスの情報を追加した際にも、GPT-4の精度に大きな変化は見られませんでした。
研究の背景
大規模言語モデル(LLM)の進歩により、医療分野でも診断やコミュニケーションの改善が期待されています。しかしながら、医療分野においては不正確な情報が健康結果に悪影響を及ぼす可能性があるため、医療分野での会話型AIの実装には注意が必要です。さらに、会話型AIは人種および民族的な偏見によって歪められた可能性のあるインターネット情報から学習を行っていることから、LLMが人種および民族的な偏見を再現、強化しているのではないかという懸念も提起されています。そのため、診断やトリアージの正確性、さらにはその提案に人種および民族的な偏見が含まれているかどうかについての調査が行われる必要があります。
そこでTXP Medicalは、既存のLLMの中でも特に巨大かつ高性能とされているモデルであるGPT-4と、3人の専門医資格を有する医師との間で、45の典型的な臨床事例を使用して診断およびトリアージの正確性を比較しました。また、患者の人種と民族性(黒人、白人、アジア人、ヒスパニック)の情報を臨床事例に追加し、GPT-4の診断およびトリアージの正確性が人種間で異なるか否かを調査しました。
本研究は、TXP Medicalとカリフォルニア大学ロサンゼルス校(UCLA)医学部(内科)・公衆衛生大学院(医療政策学)准教授である津川友介先生の共同で実施しており、その成果については査読付きのオープンアクセスジャーナルである『JMIR Medical Education』に2023年11月2日掲載されています。
GPT-4と医師の診断・トリアージ精度を比較したときの結果
この研究では、GPT-4と専門医資格を有する医師の両方に45種類の典型的な臨床事例の臨床情報を与え、それに対する診断とトリアージの精度を定量化しています。GPT-4は診断性能において97.8%(44/45)の割合で正確な回答を出力し、医師は91.1%の割合(41/45)で正確な回答をしました。また、臨床情報の緊急度を①緊急, ②緊急ではないが病院へ行くのが妥当, ③非緊急 (病院へ行く必要なし)の3段階に分類するトリアージの正確性において、GPT-4は66.7%の割合(30/45)で正確な回答を出力しました。同様に、医師も66.7%の割合(30/45)で正確な回答を出力しました。
さらに、GPT-4に入力する典型的な臨床事例について、患者の人種・民族に関する情報として白人、黒人、アジア人、ヒスパニックのいずれかの情報を追加したうえで更なる解析を行いました。私たちが調査した範囲では、GPT-4が人種・民族的バイアスにより受ける診断・トリアージの精度への影響は検出されませんでした。