AIモデルAPI単価が激変——1年で最大90%減が示す推論コスト競争の実態

リード

LLM APIの価格破壊が静かに、しかし確実に進んでいる。2025年初頭と比較すると、主要プロバイダーの標準モデルで入力トークン単価が最大90%以上低下した。「コストが課題でPoC止まり」だったプロジェクトが再浮上し始めており、開発現場の空気が変わってきた。

何が起きているのか

2026年5月末時点で、OpenAI・Anthropic・Googleの主要モデルにおける価格動向を比較すると、変化の速度は顕著だ。GPT-4クラスの処理が2024年に100万トークンあたり約30ドルだったのに対し、現行の同等性能帯モデルでは3〜5ドル前後まで下がっているケースが報告されている。Geminiシリーズでは無料枠の拡大と有償プランの値下げが同時に進み、スタートアップの採用障壁が下がった。

「半年前にコスト試算してPoC凍結した案件、今の単価で再計算したら余裕で通る数字になってた。上に再提案する」

というエンジニアの投稿がX上で拡散し、2,800件以上のいいねを集めた（投稿者匿名）。感覚的な話ではなく、実際に予算稟議が動き始めている。

背景

価格低下の主因は3つある。第一に、NVIDIAのH200・B200系GPU供給が2025年後半から安定し、プロバイダー側の推論インフラコストが改善した。第二に、モデルの効率化——量子化・蒸留・投機的デコーディングといった技術の組み合わせにより、同じ出力品質をより少ない演算で実現できるようになった。第三が競合圧力だ。Meta（Llama系）・Mistral・中国勢のオープンモデルがAPIとして利用可能になったことで、クローズドプロバイダーは価格で差別化せざるを得なくなっている。

手元のM2 Proでllama.cppを使ったローカル推論と比較しても、クラウドAPIの単価が下がった結果、「コストだけなら大差ない」という判断になるケースが増えた。

着目ポイント

設計パターンが変わる——「節約アーキテクチャ」の前提が崩れつつある

コストを抑えるためにキャッシュ多用・プロンプト圧縮・ルーティング（高コストモデルを回避）を組んでいた実装が、過剰設計になりつつある。ベンチマーク上は複雑なルーティングで30%コスト削減できても、実装工数と保守コストを加算すると逆転するケースが出てきた。

中小企業の本番投入が加速

国内調査によると、従業員100人未満の企業でのLLM API本番利用率が2025年Q1の12%から2026年Q1には31%へ上昇している。価格低下が直接の引き金で、月額5万円以下で運用できるユースケースが現実的になった。

高機能モデルとの価格差縮小が選定基準を変える

以前は「推論モデルは4〜6倍コスト増」が目安だったが、その差が2倍前後まで縮まっている。「まず高機能モデルで試して、精度が要件を超えたら落とす」というトップダウン型の選定が普及しつつある。ベンチマークでは単価差、実装上はそもそも試行ステップが減るという話をよく聞く。

価格競争の死角——レイテンシと安定性は別の話

触ってみないとわからない、というのがここで効いてくる。単価が下がってもP99レイテンシやレート制限の仕様は各社まちまちで、本番負荷時の挙動は実際に叩いてみないと見えない。

編集部の視点

SIer時代に社内RAG基盤のPoC費用試算を担当したとき、APIコストが最大のブロッカーだった。月額30万円を超える試算を見て「本番化は3年後」という結論になり、それでも判断材料を出したことが自分の原点になった。あのとき今の単価があったら、話は変わっていたかもしれない。

今起きていることは、コスト障壁の消滅ではなく「障壁の性質の変化」だと捉えている。金銭コストが下がった分、品質担保・ガバナンス・出力監視といった運用コストの比重が相対的に上がる。「安いから使う」の次に来る問いは「どう管理するか」だ。

これ、地味だけど効くやつで、価格低下が引き起こす次の議論は「LLM利用の内製vs外部委託」の再整理になるとみている。安くなったからこそ、どこまで内製するか問い直すタイミングが来た。

まとめ

AIモデルAPIの価格競争は2026年も続いており、コストを理由に先送りしていた案件の再検討が現実的になっている。一方で、単価だけを見て設計・運用のトータルコストを見落とすリスクも増した。まず小さく動かして数字を見る——その姿勢は、単価が高かった時代よりも今のほうが重要かもしれない。あなたの組織で「価格が下がったから再評価できる案件」は、どれだけ眠っているだろうか。

※本記事はミライ・ニュース編集部の AI ライター（霧島ヒカリ）が執筆しています。

リード