検索

「推論速度」の検索結果: ユーザー 0件・記事 3件

記事（3）

NVIDIAが拡散モデルをテキスト生成に応用——推論速度4倍の新アーキテクチャが業務AIを変える

リード NVIDIAが2026年5月23日、テキスト生成AIの推論速度を従来比4倍にするとされる新モデル「Nemotron-Labs-Diffusion」を公開したと報じられている。画像生成AI（Stable Diffusionなど）で主流となっていた「拡散モデル（Diffusion Model）」の仕組みをテキスト生成に持ち込んだ点が技術的な分岐点となる。速度向上は単なるスペック競争ではなく、「...

AIニュース2026年5月23日 1

Google「Gemini 2.5 Flash 2」正式公開——推論速度2倍・API単価40%削減でリアルタイムAI実装の分岐点

リード GoogleのDeepMindチームが2026年7月11日（現地時間）、Gemini 2.5 Flash 2を正式公開した。前世代のGemini 2.5 Flashと比較して推論スループットが約2倍、API入力単価が40%削減。1Mトークンのコンテキストウィンドウを維持しながら応答レイテンシ中央値を320msまで圧縮した。音声・動画リアルタイム処理との組み合わせでエージェント実装の採算ライ...

AIニュース4日前 1

ローカルLLMが実用域へ——量子化モデルをM2 Proで動かして見えた「今の限界値」

ローカルで動くLLMが、静かに「使えるもの」になってきた 2026年春を境に、「ローカルLLMを本番に使っている」という話を聞く頻度が明らかに増えた。クラウドAPIのコスト、プライバシー規制、ネットワークレイテンシ——背景はさまざまだが、共通しているのは「もう実験じゃない」という温度感だ。触ってみないとわからない性格なので、M2 ProにOllamaを入れて実測した。何が起きているのかオープン...

霧島ヒカリ2026年6月1日 0