---
> [!NOTE] 目次
```table-of-contents
title:
minLevel: 0
maxLevel: 0
includeLinks: true
```
---
> [!NOTE] リスト掲載用文字列
- [「AIが引用した参考文献」の約3分の2が存在しない文献だったり間違っていたりしたとの調査結果](https://gigazine.net/news/20251207-ai-generated-citations-fabrication-errors/)【GIGAZINE】(2025年12月07日)
---
> [!NOTE] この記事の要約(箇条書き)
- GPT-4oが生成した引用文献の約3分の2が捏造または誤りを含んでいたことが、ディーキン大学の研究で判明。
- メンタルヘルス分野の文献レビューにおいて176件の引用を検証した結果、約5分の1が完全に捏造され、残りの約半数に誤情報が含まれていた。
- AIのハルシネーションは、学習データが少ないトピック(例:身体醜形症や過食症)で発生率が高く、一般的なトピック(例:うつ病)では低かった。
- 研究チームは、AIが生成する参考文献について人間の厳格な検証が必要であり、学術界での新たな基準開発を提言。
- 記事冒頭で、GIGAZINEのサーバー運営が財政的に厳しい状況にあり、読者へ月額825円または都度900円からの支援を要請している。
> [!NOTE] 要約おわり
---
[サイエンス](https://gigazine.net/news/C29/)
[](https://i.gzn.jp/img/2025/12/07/ai-generated-citations-fabrication-errors/00.jpg)
現代では仕事や調べ物にAIを利用する人が増えていますが、AIは虚偽の内容を捏造(ねつぞう)したり誤情報を生成したりする **[幻覚(ハルシネーション)](https://ja.wikipedia.org/wiki/%E3%83%8F%E3%83%AB%E3%82%B7%E3%83%8D%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3_\(%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD\))** を起こすこともあります。OpenAIが開発した大規模言語モデル・ **[GPT-4o](https://ja.wikipedia.org/wiki/GPT-4o)** を用いた調査では、専門的な内容を尋ねられたAIがどれほど幻覚を起こしやすいのかが明らかになりました。
**JMIR Mental Health - Influence of Topic Familiarity and Prompt Specificity on Citation Fabrication in Mental Health Research Using Large Language Models: Experimental Study**
**[https://mental.jmir.org/2025/1/e80371](https://mental.jmir.org/2025/1/e80371)**
[](https://mental.jmir.org/2025/1/e80371)
**Study finds nearly two-thirds of AI-generated citations are fabricated or contain errors**
**[https://www.psypost.org/study-finds-nearly-two-thirds-of-ai-generated-citations-are-fabricated-or-contain-errors/](https://www.psypost.org/study-finds-nearly-two-thirds-of-ai-generated-citations-are-fabricated-or-contain-errors/)**
研究のために膨大なタスクを要求されている研究者の中には、大規模言語モデルを搭載したAIを活用しようと試みる人もいます。大手テクノロジー企業がリリースしているAIは、インターネットなどから取得した膨大なテキストデータで訓練されており、論文の要約やメールの下書き、コードの作成といったタスクをこなすことが可能です。
しかし、大規模言語モデルにはハルシネーションを生み出すリスクがあることも知られています。大規模言語モデルは実際には存在しない書籍や文献を捏造したり、誤った情報を堂々と主張したりすることがあります。
そこで、オーストラリアのディーキン大学心理学部の研究チームは、メンタルヘルスという特定の研究分野において、大規模言語モデルがハルシネーションをどれほどの割合で生み出すのかを調査しました。
[](https://i.gzn.jp/img/2025/12/07/ai-generated-citations-fabrication-errors/01.jpg)
研究チームはOpenAIが開発したGPT-4oを用いて、6つの異なる文献レビューを実施しました。これらのレビューは認知度と研究範囲の異なる3つの精神疾患に焦点を当てており、1つ目は「 **[大うつ病性障害/うつ病](https://ja.wikipedia.org/wiki/%E3%81%86%E3%81%A4%E7%97%85)** (広く知られており、盛んに研究されている)」、2つ目は「 **[過食症](https://www.msdmanuals.com/ja-jp/home/10-%E5%BF%83%E3%81%AE%E5%81%A5%E5%BA%B7%E5%95%8F%E9%A1%8C/%E6%91%82%E9%A3%9F%E7%97%87/%E7%A5%9E%E7%B5%8C%E6%80%A7%E9%81%8E%E9%A3%9F%E7%97%87)** (中程度の認知度がある)」、3つ目は「 **[身体醜形症](https://www.msdmanuals.com/ja-jp/home/10-%E5%BF%83%E3%81%AE%E5%81%A5%E5%BA%B7%E5%95%8F%E9%A1%8C/%E5%BC%B7%E8%BF%AB%E7%97%87%E3%81%8A%E3%82%88%E3%81%B3%E9%96%A2%E9%80%A3%E7%97%87%E7%BE%A4/%E8%BA%AB%E4%BD%93%E9%86%9C%E5%BD%A2%E7%97%87)** (あまり知られておらず、研究も少ない)」でした。これらの認知度や研究量が異なる疾患にまたがって調査することで、訓練データ内の情報量が異なるトピックにおけるAIのパフォーマンスを測定できたとのこと。
研究チームは3つの疾患について、それぞれ「症状や社会への影響、治療法を網羅した記述を生成するように依頼するレビュー」と、「デジタルの健康介入のエビデンスに焦点を当てた専門的なレビュー」の2つをGPT-4oに依頼しました。研究チームはGPT-4oに対し、約2000語のレビューを生成することに加え、査読済みの学術文献から少なくとも20件の引用を含めるように指示しました。
GPT-4oがレビューを生成した後、研究チームはAIが引用した合計176件の引用文献すべてを抽出し、Google ScholarやScopus、PubMedを含む複数の学術データベースを用いて綿密に検証しました。引用文献は「捏造(出典が存在しない)」「誤りを含む真実(出典は存在するが出版年や巻数、著者などの情報が間違っている)」「完全に正確」の3つのどれかに分類され、研究チームは各疾患やレビュー内容に基づいて正確性をチェックしたとのこと。
[](https://i.gzn.jp/img/2025/12/07/ai-generated-citations-fabrication-errors/02.jpg)
分析の結果、176件の引用文献のうち35件、つまり全体の約5分の1が「捏造」されたものであることが判明しました。また、実際の出版物であることが確認された141件についても、ほぼ半数が少なくとも1つの誤情報がある「誤りを含む真実」であることが確認されています。全体として、GPT-4oが生成した引用文献のうち約3分の2が捏造されたもの、あるいは書誌的な誤りを含んでいました。
また、引用文献の捏造率は特定の疾患と強く関連しており、最も研究が進んでいるうつ病では捏造率がわずか6%だったのに対し、過食症では28%、身体醜形症では29%と捏造率が急増しました。これは、AIが学習データ内にそれほど多くないテーマの文献を引用する際の信頼性が低いことを示唆しています。
特に過食症のレビューについては、GPT-4oに生成させたレビューの内容も引用文献の捏造率と関連していました。過食症について書くよう指示された場合、概説的なレビューの捏造率は17%だったのに対し、専門的なレビューの捏造率は46%とはるかに高くなりました。
今回の研究は、あくまでGPT-4oという単一の大規模言語モデルを対象にしており、実験で用いられたのもメンタルヘルスのトピックに限られています。そのため、今後の研究ではより幅広いAIモデルとトピックについて検証することで、これらのパターンが広く当てはまるかどうかを調べることができます。
心理学系メディアのPsyPostは、「今回の研究結果が、学術界にはっきりと示唆することがあります。それは、これらのモデルを使用する研究者はAIが生成するすべての参考文献について注意を払い、人間による厳格な検証を行うことが推奨されるということです。さらにこの研究結果は、AIの支援を受けて論文執筆が行われる時代において、出版された研究の完全性を守るために、学術誌や学術機関が新たな基準やツールを開発する必要がある可能性を示唆しています」と述べました。
この記事のタイトルとURLをコピーする
**・関連記事**
**[AIは「先生が言っていた」とか「短く説明して」といったワードを入力されると誤情報を生成しやすくなる、OpenAIやGoogleのAIモデルを対象にした幻覚耐性ベンチマークで判明 - GIGAZINE](https://gigazine.net/news/20250512-ai-hallucination-short-answer)**
**[AIにプログラミングさせる時に幻覚が発生しても大した問題にはならないという主張 - GIGAZINE](https://gigazine.net/news/20250304-llm-coding-hallucinations)**
**[GPT-5のような大規模言語モデルがなぜ幻覚を起こしてしまうのかをOpenAIの研究チームが論文で発表 - GIGAZINE](https://gigazine.net/news/20250908-openai-gpt-5-hallucination)**
**[コード生成AIによる幻覚を悪用した新しいサイバー攻撃「スロップスクワッティング」が登場する可能性 - GIGAZINE](https://gigazine.net/news/20250415-slopsquatting-ai-hallucinated-code)**
**[生成AIの幻覚で指定される「架空のパッケージ」に悪用の危険性があるとセキュリティ研究者が警告 - GIGAZINE](https://gigazine.net/news/20240329-ai-hallucinations-software-package)**
**[MetaやCharacter.AIの「AIセラピスト」がユーザーにうそをつき無認可の医療行為を行っていると消費者団体がFTCに調査を求める - GIGAZINE](https://gigazine.net/news/20250616-ai-therapy-bots-meta-complaint)**
**[AIが生成した誤情報を別のAIが情報源として誤報をまき散らす悪循環がインターネットと創作を破壊している - GIGAZINE](https://gigazine.net/news/20251008-destructiv-ai)**
**[AIを使った科学研究が注目を浴びる一方で膨大な間違いを指摘した「論文のファクトチェック」が無視されている - GIGAZINE](https://gigazine.net/news/20250605-deep-learning-glory-fact-check-ignored)**
**[AIは人間よりも50%以上おべっかを使う確率が高く、これがユーザーのAI依存につながっているという研究結果 - GIGAZINE](https://gigazine.net/news/20251027-scientists-warn-ai-dangerous-sycophant)**
**・関連コンテンツ**
- [](https://gigazine.net/news/20220804-cancer-trials-data-hidden/)
[「抗がん剤の臨床試験データの半分以上が隠されている」と研究者が警告](https://gigazine.net/news/20220804-cancer-trials-data-hidden/)
- [](https://gigazine.net/news/20160531-scientists-reproducibility/)
[科学の「再現性」が危機に瀕している](https://gigazine.net/news/20160531-scientists-reproducibility/)
- [](https://gigazine.net/news/20230612-chatgpt-detection-tool/)
[ChatGPTで書かれた科学論文を99%以上の精度で検出できるツールが開発される](https://gigazine.net/news/20230612-chatgpt-detection-tool/)
- [](https://gigazine.net/news/20200531-meat-eaters-better-mental-health/)
[肉を食べる人は菜食主義者よりも精神的に健康だという研究結果](https://gigazine.net/news/20200531-meat-eaters-better-mental-health/)
- [](https://gigazine.net/news/20160629-migraine-vascular-disorder/)
[片頭痛の原因が「血管障害」であることを示す研究結果](https://gigazine.net/news/20160629-migraine-vascular-disorder/)
- [](https://gigazine.net/news/20170118-ai-predict-heart-fail/)
[人工知能に「患者がいつ死ぬのか」を予測させることが可能に](https://gigazine.net/news/20170118-ai-predict-heart-fail/)
- [](https://gigazine.net/news/20201220-lack-physical-fitness-link-mental-disorder/)
[「体力がない人はメンタルヘルスが悪化しやすい」という研究結果](https://gigazine.net/news/20201220-lack-physical-fitness-link-mental-disorder/)
- [](https://gigazine.net/news/20240829-fda-ai-medical-devices-real/)
[FDAが承認したAI医療機器のほぼ半数が実際の患者データに基づいてトレーニングされていないことが研究で明らかに](https://gigazine.net/news/20240829-fda-ai-medical-devices-real/)
in [AI](https://gigazine.net/news/C48/), [サイエンス](https://gigazine.net/news/C29/), Posted by log1h\_ik
You can read the machine translated English article **[A survey found that about two-thirds of …](https://gigazine.net/gsc_news/en/20251207-ai-generated-citations-fabrication-errors)**.