颁丑补迟骋笔罢に医学に関する质问をする际の注意点を科学的に明らかに

横浜市立大学医学部循环器?肾臓?高血圧内科学の土師達也助教（次世代临床研究センター(Y-NEXT) 兼任）、平和伸仁准教授、田村功一主任教授らの研究グループは、OpenAI社のChatGPT に医学に関する質問をする際の注意点を科学的に検証しました。

颁丑补迟骋笔罢に医学に関する质问を与え、その正答率を医学分野ごと（循环器学、小児科学など）に集计して解析を行ったところ、それぞれの医学分野においてこれまでに出版された文献数と颁丑补迟骋笔罢の正答率が有意な関连を示すことがわかりました。これは颁丑补迟骋笔罢の性能が、各分野における情报量の违いの影响を受けている可能性を示すものであり、たとえば新薬や新兴感染症などの情报量が乏しい分野に関して质问をする际には、回答が正しいかどうか注意が必要であると考えられます。

このほか、正答率に影响を与える要因として质问の形式（多肢选択问题、计算问题など）が重要であるほか、全く同じ问题を连続して出题した际の回答の一贯性によって、颁丑补迟骋笔罢の回答が正しいかどうかを予测できる可能性を示しました。

本研究成果は、査読付き英文雑誌「International Journal of Medical Informatics」に掲載されました。（2023年11月3日オンライン公開）

研究成果のポイント

●　医学に関する问题に対する颁丑补迟骋笔罢の性能について科学的に検証を行った。

●　颁丑补迟骋笔罢の正答率は、それぞれの医学分野においてこれまでに出版された文献数と有意な関连を示し、文献数が少ない领域では正答率が相対的に低かった。

●　颁丑补迟骋笔罢の正答率は、同じ问题を连続して出题した际の回答の一贯性と有意な関连を示し、回答内容に一贯性がない场合には不正答である可能性が高かった。

●　複数の答えを同時に選ばせる問題（多肢選択問題）や、計算を必要とする問題では、単純な単肢選択問題と比較して不正答となる可能性が高かった。

研究背景

颁丑补迟骋笔罢を含む自然言语処理を可能とする生成系人工知能は、そのユーザビリティの高さから世界规模で急速に利用が拡大しています。利用者は会话をするように颁丑补迟骋笔罢にあらゆる事项について质问をし、回答を得ることができます。颁丑补迟骋笔罢はインターネット上に存在する膨大なありとあらゆるテキストデータを学习して构筑されましたが、医学に関する质问に対して正しい答えを导出するように设计されたわけではありません。したがって、颁丑补迟骋笔罢が医学に関する质问に対して正しい答えを导き出せるのか、どのような场合に误答をする可能性があるのかについては科学的な検証がなされていません。一方で、すでに世界中にユーザが拡大しており、身の回りの医学?保健に関する质问を颁丑补迟骋笔罢に寻ねる事例も増えていると考えられます。颁丑补迟骋笔罢の回答内容は必ずしも常に正しいとは限りませんが、自然な文章内容であることから、利用者は一见してその回答内容の正误について判断ができないケースも多くあります。

今后、颁丑补迟骋笔罢を含む人工知能を正しく利用していくにあたって、われわれはその性能と注意点を科学的に検証し、明らかにしていく必要に迫られています。

研究内容

研究グループは、日本の医師国家試験 3年分をChatGPTに出題し、その正答率と回答の一貫性を集計しました。この研究にはChatGPTの旧モデルであるGPT-3.5と、最新モデルであるGPT-4の両方が使用されました。その結果、GPT-4はGPT-3.5に比較して著しい正答率の向上を認めました（56.4%から81.0%へ）。回答の一貫性に関しても大幅に向上していることがわかりました（56.5%から88.8%へ）。

さらに、研究グループは試験問題について、その出題形式（単肢選択問題／多肢選択問題／計算問題）や出題内容（循環器学?小児科学など分野ごと）に応じて分類し、正答率に関連する因子についてさらに検証を進めました。ChatGPTはインターネット上の膨大なテキストデータを学習して構築されましたが、その情報量には分野ごとに偏りがある可能性があり、それはChatGPTの性能にも影響を与えた可能性があります。そこで研究グループはインターネット上の情報量の一つの指標として、その分野においてそれまでに出版され、世界的な学術文献?引用情報データベースであるWeb of Science Core Collection (Clarivate社) に収蔵された全ての文献数を集計しました。このデータベースには世界中で刊行された主要な学術雑誌（約21,000誌）の文献が収録されています。その結果、各分野における正答率は、その分野における総文献数と有意に関連することが多変量解析を含む科学的解析によって明らかになりました（図1）。このほかに出題形式や回答の一貫性（同一問題を連続して出題した際の回答内容の一致率）が正答率に関連することがわかりました。

図1: 医学分野ごとに集計した正答率との関連性
A 同一問題への回答内容の一貫率と正答率との関係／B 各医学分野における総文献数と正答率との関係

今后の展开

これまで医学に関する质问に対する颁丑补迟骋笔罢の性能や注意点について、科学的に検証を行った研究は乏しく、本研究は先駆的な位置付けとなります。今回の研究はその规模や手法に限定的な点があるため、今后、さらなる検証が必要と考えられますが、本研究の结果は、颁丑补迟骋笔罢の性能がその分野における情报量の格差の影响を受けている可能性を示しており、たとえば新薬や新兴感染症などの相対的に情报量が乏しい分野に関して质问をする际には、回答が正しいかどうか注意が必要であることを示唆しています。また、颁丑补迟骋笔罢の回答内容は必ずしも常に正しいとは限りませんが、自然な文章内容であることから、利用者は一见してその回答内容の正误について判断ができないケースも多くあります。

今回の研究结果は、利用者が颁丑补迟骋笔罢の回答内容の正误を判断する上での一助となることが期待されます。医学に関する质问に対する颁丑补迟骋笔罢の性能と注意点の理解は、医学分野での実际の运用に加え、一般市民が日常の医学?保健卫生上の问题解决や知识获得?教育を促进していく上でも非常に有用と考えられます。

论文情报

タイトル： Influence on the accuracy in ChatGPT: Differences in the amount of information per medical field
著者： Tatsuya Haze, Rina Kawano, Hajime Takase, Shota Suzuki, Nobuhito Hirawa, Kouichi Tamura
掲載雑誌： International Journal of Medical Informatics
顿翱滨：

问い合わせ先

横浜市立大学　広报课
mail: koho@yokohama-cu.ac.jp

记者発表资料

医学部医学科

麻豆官网

麻豆官网 Research Portal