「推論コスト」の検索結果: 2件
リード Google DeepMindは2026年5月10日(現地時間)、推論特化モデル「Gemini 2.5 Ultra」をGoogle AI StudioおよびVertex AI経由で一般公開した。MMLU-Proで92.3%、コード生成ベンチマークSWE-bench Verifiedで63.1%を記録しながら、推論トークン単価を前世代「Gemini 2.5 Pro」比で約67%削減。「性能を...
リード 「もうRAGいらなくない?」——社内Slackでそう呟くエンジニアが増えている。2026年に入り、主要LLMのコンテキストウィンドウが100万〜200万トークンに達したことで、「全ドキュメントをそのまま突っ込む」構成が冗談ではなく選択肢に入り始めた。ただし、触ってみないとわかることがある。数字と実装の両面から現状を整理する。 何が起きているのか 2026年前半、複数のLLMプロバイダーがコ...