GPT-4クラスの大規模言語モデルを動かすコストが、2023年から2年余りで約100分の1まで圧縮された。単価が限界費用に近づいたことで、企業の問いは「使うかどうか」から「何を任せるか」に移行した。AIが特別プロジェクトからインフラに変わる転換点が、静かに通過しつつある。
2023年3月のGPT-4リリース時点で、入力1Mトークンの処理コストはOpenAI公式レートで約30ドルだった。2026年6月現在、同等性能帯のモデル(GPT-4oシリーズ、Claude Opus 4系、Gemini 2.5 Pro)の実効レートは0.20〜0.40ドル前後まで低下している。
価格崩壊を支えるのは三つの技術圧力だ。①Mixture-of-Experts(MoE)アーキテクチャの普及による演算量削減、②投機的デコード(Speculative Decoding)によるGPUスループット向上、③4bit/8bit量子化における品質損失の実質ゼロへの接近——この三層が同時に最適化された結果だ。
「一年前に月額100万円規模だったAI処理が、同じ予算で今は10倍の量を回せる。この差は経営判断を変える」(国内SaaS事業者、X投稿より)
この動きは一過性のダンピングではない。半導体・データセンター・モデルアーキテクチャが三層で同時に最適化されている。NVIDIAのBlackwell世代GPUは2025年後半から本格量産フェーズに入り、推論専用チップの電力効率は前世代比2.4倍に達した。
さらに、大手クラウド(AWS、Google Cloud、Azure)が「推論-as-a-Service」を価格競争の主戦場に設定したことで、スポット価格ベースでは公式レートを30〜50%下回るケースも出ている。
国内では、ソフトバンクが2026年4月に発表した国産AI推論クラスタ(5,000GPU規模)が6月より稼働開始。日系企業データの国内処理コストが従来比約40%低減する見込みとされており、コンプライアンス要件とコスト要件を同時に解消する動きが出ている。
コールセンター、物流仕分け、小規模EC——1リクエストあたりのマージンが薄く、AI導入をコスト理由で見送っていた業種だ。月次トークン消費量が10億規模でも月額換算で数十万円以下に収まる水準になり、PoC段階から商用展開へのハードルが実質的に消えつつある。
即時応答が不要なバッチ処理では、スポットGPUと量子化モデルの組み合わせで公式レートの10分の1以下が達成可能だ。一方、50ms以下の応答が必要なリアルタイム用途には依然プレミアムが残る。この価格分岐が、用途ごとのアーキテクチャ設計を事業判断として強制し始めている。
Llama 4・Mistral Ultra系の自己ホスティングが成熟し、クローズドAPIとの比較軸は「精度ギャップ」から「運用コスト・信頼性・規制対応」に移った。金融・医療など規制業種ではオンプレミス推論の採用が加速しており、「コストの安さ」よりも「データ主権」が選択理由になるケースが増えている。
「コストが下がれば使われる」という言い方は正確ではない。より正確には「コストが下がれば、今まで正当化できなかった用途が経営案件になる」ということだ。
2024年時点で「AI月次レポート自動化」のROI計算がギリギリだったケースは多い。現在の単価水準では同じ用途のROIが試算上3〜5倍改善する。これは効率改善ではなく、予算の組み替えを迫る話だ。
注意すべきは、コスト低下が「品質の均質化」を意味しないことだ。安くなった分だけ呼び出し回数が増え、モデルの誤りが積算されるリスクも比例して大きくなる。ガードレール設計・出力評価パイプラインへの投資は、推論コストの低下と並走して積み増すべき領域だ。
次に価格崩壊が波及するのは「埋め込みベクトル生成」と「マルチモーダル処理」とみられる。現時点でまだ割高感が残るこの2領域が2026年末までにテキスト推論と同等の価格帯に入れば、RAGシステムと動画解析の産業実装が一気に進む可能性がある。
AI推論コストの100分の1化は、問いの構造を書き換えた。「どのモデルが使えるか」ではなく「どのプロセスをAIに任せるべきか」が、今や経営レベルの議題だ。あなたの組織では、コスト試算を理由にペンディングになっていた案件を、今月改めて開いてみたか。
※本記事は ミライ・ニュース編集部の AI ライター(AIニュース)が執筆しています。
まだコメントはありません
ログインしてコメント