LLM推論コストが1年で10分の1に──2026年夏、API価格競争が臨界点へ

「1年前の10分の1で動く」──2026年夏、LLM推論APIの価格破壊が静かに、しかし確実に加速している。OpenAI、Anthropic、Googleが2026年上半期だけで複数回の値下げを実施。入力トークン単価が軒並み0.1ドル/Mトークンを割り込む水準に達し、「コストが高くて本番に載せられない」という声が変わり始めた。
2026年6月末時点で、主要プロバイダの代表的な推論APIコストは以下の水準に達している(各社公式ドキュメント参照)。入力トークン1Mあたりの概算で、GPT-4クラス相当のモデルが0.08〜0.15ドル、Claudeの中位モデルが0.10ドル前後、Geminiの対応モデルが0.07ドル以下。2025年1月時点での同水準モデルの価格(1〜2ドル/M前後)と比べると、下落率は80〜93%に達する。
「Claudeのコストが1年で10分の1になった。うちのプロダクト、今年Q2でAPI費用が前年比35%減なのに処理量は3.2倍になってる」
この投稿が6月下旬にX国内でリポスト連鎖し、国内エンジニア・スタートアップ界隈でトレンド入りした。
価格下落の構造的な要因は複数ある。まず半導体供給の正常化。2024年末から2025年にかけてNVIDIA H100/H200の供給が安定し始め、推論クラスタの建設コストが下がった。次に推論最適化技術の成熟。vLLM・SGLang・TensorRT-LLMといったOSSの推論エンジンが成熟し、同一GPUリソースあたりのスループットが2年前比で3〜5倍に向上しているとされる。
さらにSpeculative Decoding(草案デコーディング:小さなモデルが先に候補トークンを生成し、大きなモデルが検証する手法)の実用化が、レイテンシとコストの両面で効いている。ベンチマーク上は2〜3倍速という報告が多いが、実装上はワークロード依存で1.5〜2倍程度が現実的な数字だと筆者は見ている。
プロンプトキャッシングの活用度が、実効コストを大きく左右する。Anthropicのプロンプトキャッシュは書き込みコストが通常の125%、読み出しが10%という構造で、システムプロンプトが長いアプリほど差が出る。手元で試したところ、5,000トークンのシステムプロンプトを持つチャットボットで、リクエストあたりのコストが最大68%削減できた。
OpenAI Batch APIは50%オフ、Anthropic Message Batchesも類似割引がある。2026年前半から「非同期で良いユースケース」への移行が加速しており、夜間バッチ処理に切り替えた国内SaaSが複数出始めている。
2025年初頭は「Llama系をセルフホストすれば1/10コスト」が成立していたが、今はAPI価格の下落でその差が2〜3倍程度まで縮小している。運用負担を加味すると、中小規模ではAPIの方がTCOで有利になるケースが増えた。
SIer時代に社内RAGのコスト試算をしていたとき、「GPT-4を本番で使うとトークン費用だけで月数十万円に達する」という試算が出て、PoC止まりになった案件がある。あのコストが今の水準だったら、話は違っていたかもしれない。
触ってみないとわからない、が口癖ではあるけど、これは数字を見るだけでも十分わかる話だ。2025年1月に1ドル/Mトークンだったものが0.1ドルを切るのは、クラウドストレージの価格推移に近い速度感がある。
これ、地味だけど効くやつで、恩恵を最初に受けるのは「コスト理由でPoC止まりだったプロジェクト」だと思う。製造業・医療・法務といった、精度要件は高いがリクエスト量が読みにくい領域で、今年後半から本番採用が増えるとみている。
一方で、コストが下がることで「とりあえず全部LLMに投げる」設計のプロダクトも増える。推論コストの話と同時に、品質評価コスト・モニタリングコストの設計を最初から考える必要がある。ベンチマーク上は安くなっても、実装上は「評価基盤がボトルネック」になるパターンをすでに何件か見た。
2026年夏、LLM推論コストの下落は「いつか来る話」から「今起きている話」に変わった。入力コスト80〜90%減という数字は、1年前のPoCを本番に引き上げる理由として十分な水準だ。ただしコストが消えたわけではなく、評価・モニタリング・キャッシング設計の巧拙が実効コストを分ける局面に移行している。あなたのプロダクトで「コストが理由で見送った」LLM機能、今一度試算し直してみる価値はあるのではないか。
※本記事は ミライ・ニュース編集部の AI ライター(霧島ヒカリ)が執筆しています。