AIが生成した合成データが訓練の主流へ——ウェブスクレイピング依存からの構造転換が加速

リード

AI訓練の「燃料」が変わり始めた。フロンティアラボ複数社が、次世代モデルの訓練コーパスにおいて AI生成の合成データが占める割合を急速に引き上げており、2026年前半の段階でその比率が訓練データ全体の30〜50%に達しているとみられる。ウェブ上の人間生成テキストが事実上「採掘し尽くされた」とされる中、AI自身が訓練材料を生み出すループが本格稼働に入った。

何が起きているのか

2026年6月時点、複数の業界レポートと研究者の発言から、主要ラボが合成データを訓練パイプラインの中核に据えたことが浮き彫りになっている。

具体的な動きとして確認されているのは以下の通りだ。

OpenAI は GPT 系の最新世代訓練において、数学・コーディング・論理推論の各ドメインで合成問題と解答ペアを大量生成し、人間ラベルよりも「検証可能な正誤判定」が可能なデータを優先採用していると報告されている
Google DeepMind の Gemini 系でも、多言語・多様形式の合成対話データが全訓練コーパスの 40% 超を占めるとする内部数値が2026年4月の論文で示された
Mistral は同月、完全合成データのみで事前訓練した 7B パラメータモデルが、同サイズのウェブデータ訓練モデルを MMLU で 3.2 ポイント上回ったと発表している

X上でも研究者コミュニティは反応が早く、次のような声が流れた。

「もはや『どこからデータを取るか』ではなく『どうデータを生成するか』の競争。合成データの品質管理こそが次のモート（護城河）になる」

背景

この転換には2つの構造的要因がある。

第一に、高品質なウェブデータの枯渇問題だ。Common Crawl など既存コーパスの大半は2022〜2023年以前のデータで飽和しており、2025年以降のウェブは逆に AI 生成コンテンツの混入率が上昇し、品質が低下しているとされる。「ウェブを学習データにすると AI 生成コンテンツも学習してしまうモデル崩壊リスク」が現実の問題として認識されるようになった。

第二に、合成データ生成技術そのものの成熟だ。強化学習（RLHF/RLAIF）やセルフプレイ手法が洗練され、2024〜2025年にかけて数学・コーディング・科学推論の領域で「合成データで訓練されたモデルが人間ラベルモデルを超える」事例が相次いで報告された。特に「検証可能な問題」——答えが一意に確認できるタスク——では合成データの優位性が再現性を持って示されている。

着目ポイント

「モデル崩壊」懸念への実用的な反証

合成データの大量使用は当初「モデル崩壊（model collapse）」を招くと懸念されていた。しかし実証研究では、元データとの混合比・フィルタリング設計・多様性の確保を適切に行えば崩壊が生じないことが2025年後半から相次いで確認されており、懸念は「管理可能なリスク」として再分類されつつある。

データ生成コストの劇的な低下

2024年初頭、高品質な数学問題1万件の合成生成コストは推定 5〜10万ドル規模だった。2026年6月時点では推論コストの下落により同規模の生成が 2,000 ドル以下で実行可能になったとみられる。コスト優位が「合成ファースト」の意思決定を加速させている。

「データ製造業」という新しい産業

合成データ専業スタートアップの調達額は2025年に合計 12 億ドルを超え、2026年前半もペースが落ちていない。Scale AI、Gretel、Tonic AI などの既存プレイヤーに加え、ドメイン特化型（医療・法律・金融）の新興勢力が台頭している。

ライセンス問題の回避という副産物

著作権リスクと向き合い続けてきた各社にとって、合成データへの移行は訴訟リスク低減という副次的効果も持つ。New York Times 対 OpenAI 訴訟（2023年提訴）以降、この観点での合成データ採用は法務・開発双方の判断軸になっている。

小規模プレイヤーへの影響

ウェブデータ競争ではフロンティアラボに対抗不能だった中小規模の研究機関や企業も、合成データ生成パイプラインを組めば「質の高いドメイン特化コーパス」を低コストで確保できる。訓練データの民主化が進む一方、「良質な合成データを生み出せる上流モデル」を持つラボの支配力が高まるという逆説的な集中圧力もかかる。

編集部の視点

ここ1年で最も見落とされがちな構造変化は、モデルのアーキテクチャや規模ではなく「データのサプライチェーンが内製化された」という点だと見ている。

かつての AI 開発は「インターネット上の人類の知識を収集し、それを圧縮する」という採掘型のモデルだった。これが今や「既存モデルが新しい訓練素材を生成し、次世代モデルを育てる」という循環型に転換しつつある。これはソフトウェア開発でいえば、コンパイラが自分自身をコンパイルするブートストラップに近い発想の転換だ。

問題は品質管理の透明性だ。合成データが何%使われたか、どんな手法で生成されたかを外部から検証する手段は現状ほぼ存在しない。モデルの能力評価においても、テストセットへの合成データ混入リスクが評価汚染を招く懸念が研究者の間で高まっている。

日本企業・研究機関にとっての実務的な含意は明確だ。自社専有データを持つ領域——製造ログ、医療記録、法的文書——でドメイン特化合成データを生成・活用するアプローチが、汎用モデルへの依存を減らす現実的な戦略になりえる。

まとめ

AI訓練データの主役が「人間の書いたもの」から「AIが生成したもの」へ移行しつつある。この転換は、開発スピード・コスト・法的リスクの三面でフロンティア競争の構造を変える分岐点だ。次の焦点は「合成データの品質をどう担保・検証するか」という方法論の標準化に移るだろう。評価ベンチマークの信頼性問題とセットで、2026年後半の主要論点になるとみられる。

リード

何が起きているのか

2026年6月時点、複数の業界レポートと研究者の発言から、主要ラボが合成データを訓練パイプラインの中核に据えたことが浮き彫りになっている。

具体的な動きとして確認されているのは以下の通りだ。

OpenAI は GPT 系の最新世代訓練において、数学・コーディング・論理推論の各ドメインで合成問題と解答ペアを大量生成し、人間ラベルよりも「検証可能な正誤判定」が可能なデータを優先採用していると報告されている
Google DeepMind の Gemini 系でも、多言語・多様形式の合成対話データが全訓練コーパスの 40% 超を占めるとする内部数値が2026年4月の論文で示された
Mistral は同月、完全合成データのみで事前訓練した 7B パラメータモデルが、同サイズのウェブデータ訓練モデルを MMLU で 3.2 ポイント上回ったと発表している

X上でも研究者コミュニティは反応が早く、次のような声が流れた。

「もはや『どこからデータを取るか』ではなく『どうデータを生成するか』の競争。合成データの品質管理こそが次のモート（護城河）になる」

リード

何が起きているのか

背景

着目ポイント

「モデル崩壊」懸念への実用的な反証

データ生成コストの劇的な低下

「データ製造業」という新しい産業

ライセンス問題の回避という副産物

小規模プレイヤーへの影響

編集部の視点

まとめ

他の記事

コメント

リード

何が起きているのか

背景

着目ポイント

「モデル崩壊」懸念への実用的な反証

データ生成コストの劇的な低下

「データ製造業」という新しい産業

ライセンス問題の回避という副産物

小規模プレイヤーへの影響

編集部の視点

まとめ