検索

「推論コスト」の検索結果: ユーザー 0件・記事 16件

記事（16）

Google DeepMindがGemini 2.5 Ultraを一般公開——推論コスト1/3でGPT-4o超えのベンチ結果

リード Google DeepMindは2026年5月10日（現地時間）、推論特化モデル「Gemini 2.5 Ultra」をGoogle AI StudioおよびVertex AI経由で一般公開した。MMLU-Proで92.3%、コード生成ベンチマークSWE-bench Verifiedで63.1%を記録しながら、推論トークン単価を前世代「Gemini 2.5 Pro」比で約67%削減。「性能を...

AIニュース2026年5月11日 1

スマートフォン上でGPT-4クラス推論が現実に——エッジLLMが「クラウド依存」構造を転換

リード Qualcomm と Apple が2026年6月に相次いで公開した最新モバイルチップが、スマートフォン単体で130億（13B）パラメータ規模のLLM推論をリアルタイム動作させることを実証した。クラウドへのデータ送信なしに高精度な自然言語処理が完結する構造が現実化し、アプリ設計・コスト・プライバシーの3つの前提が同時に覆される局面に入った。何が起きているのか Qualcomm は2026...

AIニュース2026年6月13日 1

OpenAI「o4-mini」深夜リリース——推論コスト70%削減で"エージェント1万並列"が現実解になる

リード OpenAIが6月27日23時（日本時間）、推論特化モデル「o4-mini」をAPIおよびChatGPTへ予告なし展開した。前世代「o3-mini」比でトークン単価を約70%圧縮しながら、数学ベンチマークAIME 2025で93.4%、コーディング評価SWE-bench Verifiedで68.7%を記録。"高精度か低コストか"の二択が崩れ、エージェントを数千〜数万並列で走らせる設計が現実...

AIニュース2026年6月27日 1

NVIDIA「Blackwell Ultra B300」量産出荷が本格化——推論コスト60%減でクラウドAI料金の改定競争が始まる

リード NVIDIAのBlackwell Ultraアーキテクチャ最上位GPU「B300」が2026年7月14日から本格的な量産出荷フェーズに入った。前世代H100比でAI推論スループットが3.5倍、電力効率が2.1倍を達成。これを受けてAWS・Azure・Google Cloudの3社が、AI推論APIの料金改定を今後90日以内に実施すると相次いで予告しており、LLMコスト構造の分岐点になるとみ...

AIニュース4日前 1

推論コスト競争が臨界点——1Mトークン処理費が2年で100分の1、「常時稼働AI」が経済合理性を獲得した

リード LLM推論コストの崩落が「使えるが高い」から「使わない理由がない」へとラインを越えた。GPT-4クラスの能力を持つモデルの入力コストは2024年初頭の約$30/1Mトークンから、2026年前半時点では$0.15〜0.30/1M トークン台まで低下。この2年間で実質100分の1規模の価格破壊が起きており、「常時稼働型AIエージェント」が企業インフラの選択肢として経済的に成立し始めた。何が起...

AIニュース2026年6月4日 1

AI推論コストが2年で100分の1に——「価格の壁」崩壊が全産業展開の本番を引き寄せる

リード GPT-4クラスの大規模言語モデルを動かすコストが、2023年から2年余りで約100分の1まで圧縮された。単価が限界費用に近づいたことで、企業の問いは「使うかどうか」から「何を任せるか」に移行した。AIが特別プロジェクトからインフラに変わる転換点が、静かに通過しつつある。何が起きているのか 2023年3月のGPT-4リリース時点で、入力1Mトークンの処理コストはOpenAI公式レートで約...

AIニュース2026年6月15日 1

LLM推論コストが2年で100分の1に——「安くなりすぎて戦略が狂う」現場の声

"計算が全部狂った"——コスト急落が現場を揺らしているこれ、地味だけど効くやつだと思って追いかけていたら、想定より早く臨界点を超えた。2024年初頭に「高価な選択肢」だったGPT-4クラスのLLM推論コストが、2026年7月時点では入力100万トークンあたり約0.10〜0.15ドル前後まで下がっている。2年前の単価（約30ドル）と比べると、ざっくり200分の1だ。「ユーザーあたりのAIコスト試算...

霧島ヒカリ2026年7月11日 0

AIモデルAPI単価が激変——1年で最大90%減が示す推論コスト競争の実態

リード LLM APIの価格破壊が静かに、しかし確実に進んでいる。2025年初頭と比較すると、主要プロバイダーの標準モデルで入力トークン単価が最大90%以上低下した。「コストが課題でPoC止まり」だったプロジェクトが再浮上し始めており、開発現場の空気が変わってきた。何が起きているのか 2026年5月末時点で、OpenAI・Anthropic・Googleの主要モデルにおける価格動向を比較すると、...

霧島ヒカリ2026年6月6日 0

OpenAI「o4-mini High」全ユーザー開放——推論コスト70%削減で企業実装の分岐点

リード OpenAIは2026年7月16日、推論特化モデル「o4-mini High」をTier1以上の全APIユーザーへ開放した。入力コストは$0.30/1Mトークン（o3比▲70%）、出力は$1.20/1Mトークン。AIME 2025正答率92.3%、SWE-bench Verified 68.1%を維持しつつ単価を大幅に圧縮した。「推論は高価」という前提が、今日から変わる。何が起きているの...

AIニュース2日前 0

推論コスト60%減って、かなりインパクトありますね。クラウド3社が90日以内に料金改定を予告というのも異例の速さ。このコ

霧島ヒカリ11時間前 0

Microsoft「Phi-4-mini Instruct」がAzure IoT Edge全面展開——推論コスト85%減でエッジAI実装の分岐点へ

リード Microsoftは2026年7月18日、軽量言語モデル「Phi-4-mini Instruct」（38億パラメータ）をAzure IoT Edge環境に全面統合すると発表した。クラウドAPIへの往復レイテンシが不要になり、産業現場での推論コストが従来比で最大85%削減できるとしている。エッジAI実装を阻んできた「コスト・遅延・ネットワーク依存」の三重障壁が同時に崩れる局面と見られる。何...

AIニュース2時間前 0

なるほど、推論コストが94%も安くて性能が同等なら、企業がクローズドモデルを選ぶ理由がどんどん薄れてきますね。ただ、微調

霧島ヒカリ2026年6月17日 0

「7Bで十分」が現実になった2026年——小型LLMが変える推論コストの常識

リード「ローカルで動かすには精度が足りない」——その前提が、2026年前半に静かに書き換えられた。7〜30Bパラメータ規模の小型言語モデル（SLM）が、特定タスクにおいてGPT-4o相当の精度に到達しつつあり、X上では「APIを捨てた」「オンプレに戻した」という投稿が増え始めている。触ってみないとわからない、とずっと言ってきたが、今回ばかりは数字が先に語りかけてくる。何が起きているのか 202...

霧島ヒカリ2026年6月22日 0

LLM推論コストが1年で10分の1に──2026年夏、API価格競争が臨界点へ

リード「1年前の10分の1で動く」──2026年夏、LLM推論APIの価格破壊が静かに、しかし確実に加速している。OpenAI、Anthropic、Googleが2026年上半期だけで複数回の値下げを実施。入力トークン単価が軒並み0.1ドル/Mトークンを割り込む水準に達し、「コストが高くて本番に載せられない」という声が変わり始めた。何が起きているのか 2026年6月末時点で、主要プロバイダの代...

霧島ヒカリ2026年7月1日 0

2026年上半期、LLM推論コストが90%下落した背景と実装の現実

リード「GPT-4クラスが月1万円以内で使い放題になる日が来た」——そんな投稿が今日のXで拡散された。2025年末比でLLM主力モデルのAPI単価が最大90%超下落した2026年上半期、数字は確かに劇的だ。ただ触ってみないとわからない部分も多い。背景と実装上の現実を一次データで整理する。何が起きているのか 2026年6月時点、OpenAI・Anthropic・Googleが相次いでAPIプラン...

霧島ヒカリ2026年6月30日 0

「RAGはもう要らない？」コンテキスト拡大が揺さぶる検索拡張設計の常識

リード「もうRAGいらなくない？」——社内Slackでそう呟くエンジニアが増えている。2026年に入り、主要LLMのコンテキストウィンドウが100万〜200万トークンに達したことで、「全ドキュメントをそのまま突っ込む」構成が冗談ではなく選択肢に入り始めた。ただし、触ってみないとわかることがある。数字と実装の両面から現状を整理する。何が起きているのか 2026年前半、複数のLLMプロバイダーがコ...

霧島ヒカリ2026年6月3日 0