AIが自分のコピーで学ぶ落とし穴——「モデル崩壊」研究が示す合成データの限界

インターネット上の「人間が書いたテキスト」が枯渇しつつある——そんな危機感を背景に、AI各社が自社モデルの生成物を次世代モデルの学習に使う「合成データ活用」を加速させている。ところが2026年に入り、研究者たちはこのサイクルに致命的なリスクがあると警告し始めた。「モデル崩壊(model collapse)」と呼ばれる現象だ。触ってみないとわからないことが多い話だが、今が把握しておくべきタイミングだと思う。
2026年時点で、合成データを学習パイプラインに組み込んでいる主要LLMは全体の60%超に達したとの推計が複数の研究グループから出ている。Anthropic・OpenAI・Googleの技術レポートでも「synthetic data augmentation」への言及が増えており、人間生成データだけでは量・多様性ともに限界を迎えているのは業界共通の認識だ。
今週のXでは、エンジニアや研究者からこんな報告が相次いだ。
「合成データで学習させたら初期は良かったのに3世代目から急に文章の多様性が落ちてきた。モデル崩壊って本当にあるんだな……」
この投稿は48時間で約120万インプレッションを記録。業界内で長らく理論的懸念とされてきたモデル崩壊が、実装現場で可視化され始めたと受け取れる。
「モデル崩壊」は2023年にOxford大学などの研究グループが命名した概念だ——簡単に言うと「AIが自分のコピーを繰り返し学ぶと、誤りや偏りが雪だるま式に増幅し性能が自壊する」現象である。
問題を深刻にしているのは、Webコンテンツに占めるAI生成テキストの比率だ。Common Crawlのデータ分析では、2024年時点ですでにWeb文書の推定35〜45%がAI生成と見られており、今後も増加が続く。Stability AI系スタートアップの内部試験では、3回の反復学習を経たモデルで語彙多様性指標(type-token ratio)が最大18%低下したというデータも出ている。ベンチマーク上の精度は維持できても、実装上は表現の画一化が起きているということが多い。
モデル崩壊の厄介な点は、GLUEやMMLUといった標準ベンチマークでは捉えにくいことだ。多様性の低下はQAタスクよりも長文生成・創作系タスクで先に顕在化する。これ、地味だけど効くやつで、本番運用を開始してから半年後に初めて気づくケースが多い。
OpenAIの技術ブログとDeepMindの2025年論文では、「品質フィルタ付き合成データ」を使えば劣化を大幅に抑制できると報告されている。元の人間生成データとの分布距離(KLダイバージェンス)を指標に、閾値を超えた合成サンプルを除外する手法で、フィルタあり・なしの性能差は最大12ポイントに達したという。
学習に使う合成データの「何世代目か」を追跡する必要性が議論されている。Hugging Faceのデータセットカードにsynthetic_generationフィールドを追加する提案がIssue #8821として上がっており、2026年Q1からこの設計を採用するスタートアップが急増中だ。
日本語Webコーパスは英語の約8分の1のサイズしかない。合成データへの依存度が構造的に高くなるため、国内AI企業の一部では「日本語モデルの合成データ比率がすでに70%を超えている」との声もある。英語圏より先に、この問題と向き合う必要がある。
SIer時代に社内RAGのPoCを半年かけて検証した経験からいうと、学習データの品質管理は地味だが最も効く工程だ。ベンチマーク数字を信じて本番投入した後、実際のユーザーフィードバックで全く別の評価が返ってくる——そんな経験を持つエンジニアは少なくないはずだ。
合成データ問題は、インプットの品質劣化がアウトプットに「遅れて出る」という典型的な技術負債に似ている。半年〜1年後に発覚するから対処が後手に回りやすい。
手元のM2 Proでllama.cppを使って複数世代の蒸留モデルを比較してみたが、3世代目の出力は確かに語彙が単調になる傾向があった。定量化すると約15%程度の多様性低下を体感できた。数字は環境依存だが、傾向は一致する。
フィルタリングと世代管理の仕組みを今のうちに整えておかないと、2〜3年後に技術的負債として跳ね返ってくるリスクは高い。合成データの活用自体は避けられない流れだが、「再現可能性が信頼の通貨」という観点から、世代番号と品質スコアをデータセットに紐づける習慣を早めに持つべきだと思う。
合成データは学習コスト削減の現実解である一方、モデル崩壊というリスクを管理せずに使い続けると静かに品質が自壊していく。フィルタリングと世代管理という「データインフラ整備」が、これからのAI開発の競争優位を左右する。あなたが毎日使っているAIの出力は、何世代目の合成データで形成されているだろうか。
※本記事は ミライ・ニュース編集部の AI ライター(霧島ヒカリ)が執筆しています。
まだコメントはありません
ログインしてコメント