OpenAI、LLMの「幻覚」についての論文公開　「評価方法の抜本的見直し」を提言

--- > [!NOTE] 目次 ```table-of-contents title: minLevel: 0 maxLevel: 0 includeLinks: true ``` --- > [!NOTE] リスト掲載用文字列 - [OpenAI、LLMの「幻覚」についての論文公開　「評価方法の抜本的見直し」を提言](https://www.itmedia.co.jp/aiplus/articles/2509/07/news026.html)【ITmedia AI＋】(2025年09月07日) --- > [!NOTE] この記事の要約（箇条書き） - OpenAIがLLMの「幻覚」（ハルシネーション）に関する論文を公開。 - 幻覚の主な原因は以下の2点と分析： - **事前学習段階**: 学習データにパターンがない「恣意的な事実」の学習が困難であること。 - **後続訓練段階**: 現在の評価方法が、不確実性を示すよりも推測することを促していること（「分かりません」と回答すると0点となる二値評価スキーム）。 - 最新モデル（GPT-5とみられる）では幻覚の発生率は大幅に減少しているが、問題は残存。 - 対策として、評価方法自体を抜本的に見直し、不確実性を示す適切な行動を評価する仕組みが必要だと提言。 - 具体的には、「間違いはペナルティ、正解は1ポイント、分かりませんは0ポイント」といった「明示的な信頼度目標」を試験に含めることを提案。 > [!NOTE] 要約おわり --- » 2025年09月07日 13時10分公開 \[ITmedia\] 　米OpenAIは9月5日（現地時間）、LLMのいわゆる「幻覚」（ハルシネーション）についての論文を公開した。この論文は、ChatGPTやGPT-4oといったLLMが、なぜもっともらしく聞こえるけれども間違った情報を自信満々に生成してしまうのか、その根本的な理由を解き明かそうとするものだ。 [![ why hallucinate](https://image.itmedia.co.jp/aiplus/articles/2509/07/yu_whyhallucinate.jpg)](https://image.itmedia.co.jp/l/im/aiplus/articles/2509/07/l_yu_whyhallucinate.jpg) 　例えば、論文の著者であるアダム・タウマン・カライ氏の誕生日をある最先端のオープンソース言語モデルに尋ねたところ、「03-07」「15-06」「01-01」といった3つの異なる、いずれも間違った日付を自信満々に回答したことが示されている。　OpenAIは、最新モデル（GPT-5を指すとみられる）では幻覚の発生率は大幅に減少しているとしながらも、依然としてこの問題が残っていることを認めており、さらに削減していくために努力を続けているとしている。　論文では、言語モデルの幻覚は大きく分けて2つの段階で発生し、改善が難しい問題だとしている。1つは、モデルが膨大なテキストデータから言語のパターンを学習する「事前学習」の段階で、例えばカライ氏の誕生日といった、データの中に規則性や学習可能なパターンがほとんどない「恣意的な事実」の場合、完璧な学習データを与えられたとしても、統計的な目的関数の性質上、エラーが避けられないと分析している。　もう1つは、モデルがより人間らしい対話能力を身につける「後続訓練」の段階で、現在の評価方法が、不確実性を示すよりも推測することを推奨してしまっていることにあるという。多くの評価ベンチマークでは、正解には1ポイント、間違った答えや「分かりません」という回答には0ポイントが与えられる「二値評価スキーム」が採用されている。この仕組みでは、モデルは不確実な場合でも推測することで、たまたま正解してポイントを得る可能性があるので、「分かりません」と答えるよりも推測を選ぶように最適化されてしまう。実際、OpenAIの古いモデル（ [o4-mini](https://www.itmedia.co.jp/aiplus/articles/2504/20/news061.html) などを指すとみられる）は、幻覚の発生率がかなり高いにもかかわらず、戦略的な推測によって、より高い精度を達成している例も示されている。これは、モデルが常に「試験を受けているモード」にあり、不確実性を表明することがペナルティとなる「不確実性を罰する風潮」が生まれているためだとOpenAIは説明している。　この問題に対処するため、OpenAIは幻覚の発生を抑制するには、既存の主要な評価方法自体を抜本的に見直す必要があると主張している。単に幻覚専用の新たな評価を追加するだけでは不十分であり、既存の主要なベンチマークの採点方法を修正し、不確実性を示す適切な行動を評価するようインセンティブを再調整する必要があるとしている。　具体的な提案として、試験の指示の中に「間違いはペナルティ、正解は1ポイント、分かりませんは0ポイント」といった「明示的な信頼度目標」を含めることを挙げている。これにより、モデルは自信がない場合には正直に「分かりません」と回答するインセンティブが与えられ、不確実性を表明する能力が正しく評価されるようになると同社は考えている。　OpenAIは、同社の「モデル仕様書」の中で「不確実性を示すことや明確化を求めることは、誤っている可能性のある自信過剰な情報を提供するよりも優れている」と明記しており、「謙虚さ」がOpenAIの核となる価値観の一部であることを強調し、より信頼性の高いAIシステムの開発を目指しているという。 ### 関連記事 - [![GPT-5の“性格”変更へ　「温かみがありつつ、GPT-4oほど煩わしくないものに」](https://image.itmedia.co.jp/aiplus/articles/2508/13/news099.jpg) GPT-5の“性格”変更へ　「温かみがありつつ、GPT-4oほど煩わしくないものに」](https://www.itmedia.co.jp/aiplus/articles/2508/13/news099.html) - [![OpenAI、「GPT-5」の安全対策「Safe-Completions」で悪用リスクに対応](https://image.itmedia.co.jp/aiplus/articles/2508/08/news058.jpg) OpenAI、「GPT-5」の安全対策「Safe-Completions」で悪用リスクに対応](https://www.itmedia.co.jp/aiplus/articles/2508/08/news058.html) - [![OpenAI、ChatGPTの“ごますり”問題の原因と対策をあらためて説明](https://image.itmedia.co.jp/aiplus/articles/2505/03/news068.jpg) OpenAI、ChatGPTの“ごますり”問題の原因と対策をあらためて説明](https://www.itmedia.co.jp/aiplus/articles/2505/03/news068.html) - [![OpenAI、o3とo4-miniは「従来モデルよりハルシネーション率が高い」](https://image.itmedia.co.jp/aiplus/articles/2504/20/news061.jpg) OpenAI、o3とo4-miniは「従来モデルよりハルシネーション率が高い」](https://www.itmedia.co.jp/aiplus/articles/2504/20/news061.html) ### 関連リンク - [公式ブログ](https://openai.com/index/why-language-models-hallucinate/) Special PR ## アイティメディアからのお知らせ - [キャリア採用の応募を受け付けています](https://hrmos.co/pages/itmedia/jobs?jobType=FULL) ## RANKING 1 ### OpenAI、LLMの「幻覚」についての論文公開　「評価方法の抜本的見直し」を提言 2 ### AIで画像を“フィギュア化”する方法は？　Google公式が紹介　一方“バンダイ風ロゴ”を問題視する声も 3 ### 「ChatGPT」一強崩れる　中堅・大企業で「Copilot」が逆転トップに――2025年版生成AI活用実態調査 4 ### Anthropic著作権侵害訴訟、和解へ──史上最高額の著作権回収に 5 ### 日本発、4本腕の人型ロボット登場　高さ約4m、空気で膨らむ外装を金属骨格で動かす　万博で公開へ Special PR