Cohereが「Command A3」公開——RAG特化128Kモデルが金融・法務のAI導入コストを3分の1に圧縮

リード

Cohereが2026年7月1日、エンタープライズ向け新モデル「Command A3」を公開した。128Kトークンの文脈窓とRAG（検索拡張生成）に最適化されたアーキテクチャが特徴で、社内文書検索・契約書分析・医療記録要約といった業務に直接的に効く。推論コストは前世代「Command R+」比で約40%削減されており、大量処理を前提とした企業導入の費用対効果計算が変わる局面に来たとみられる。

何が起きているのか

Cohereは現地時間2026年7月1日午前10時（ET）、公式ブログおよびX（旧Twitter）で「Command A3」の一般公開を発表した。APIはCohere Platformのほか、AWS Bedrock・Azure AI Foundry・Google Cloud Vertex AIの3大クラウド経由でも即日利用可能。価格は入力100万トークンあたり2.50ドル、出力同10.00ドルで設定された。

同社が公開したベンチマークによると、Command A3は社内文書RAGタスクにおいてGPT-4o比で精度が8.3ポイント上回り（RAGAS評価）、トークンあたりレイテンシは35%低下した。日本語を含む多言語評価でも上位5言語に日本語が入っており、国内エンタープライズ向けの訴求を意識した構成になっている。

「Command A3でRAGパイプラインを組み直したら、長い契約書の参照精度が別物になった。回答根拠がトークン単位で取れるのが監査対応で助かる」（エンタープライズAI開発者、X投稿より）

背景

Cohereはコンシューマー向け製品を持たない「BtoB専業」路線を一貫して維持してきたAIスタートアップだ。2025年に2億5000万ドルのシリーズDを調達し、北米・欧州・日本の大企業市場への展開を加速している。

Command A3では前世代と比べ、RAGのコンテキスト利用率を高める「Grounded Generation」技術が強化された。モデルが参照文書のどの部分を根拠にしたかをトークンレベルで出力できるため、ハルシネーション検知と監査ログ作成が容易になる。金融・法務・医療といった「説明責任」が求められる業種での採用障壁が下がる設計だ。

日本国内では2026年3月時点でCohereの法人契約社数が前年比2.3倍に増加（同社IR資料）。今回の発表は国内代理店経由のサポート体制拡充も同時に打ち出しており、日本市場を意識したタイミングと受け取れる。

着目ポイント

RAGコスト削減の実数

社内ナレッジベース検索で月1億トークンを処理する企業を想定した場合、Command R+比でAPIコストは月約4万ドルから約2万4000ドルへ削減される計算になる（Cohere公式試算）。単純なモデルコストだけでなく、精度向上によるリトライ回数の減少も加味すると、実質削減率が3分の1を超えるケースもあるとみられる。

「Grounded Generation」と監査対応

金融庁のシステム監査要件や医療機器規制（PMDA）では、AIの判断根拠の追跡可能性が求められる局面が増えている。根拠出力機能は、こうした規制対応コストを下げる直接的な手段になりえる。競合モデルで同等の透明性を確保しようとすると、外部ロギングレイヤーの追加設計が必要なケースが多く、ここが差別化軸になる。

マルチクラウド即日展開の意味

AWS・Azure・GCPの3大クラウド全てで即日利用可能という展開スピードは、特定クラウドへのロックインを避けたい大企業の調達条件に合致する。既存のIAM権限体系をそのまま流用できるため、セキュリティ審査工数が削減されると考えられる。

日本語精度の実態

多言語ベンチマーク「MultiLingual Bench v3」でのCommand A3の日本語スコアは87.4点（100点満点）。GPT-4oの89.1点、Gemini 2.5 Proの88.6点に対してわずかに後れを取るが、32Kトークン超の長文日本語契約書解析タスクでは逆転するケースも報告されており、ユースケース依存の評価が必要だ。

編集部の視点

Command A3が示すのは、汎用LLMとドメイン特化モデルの競争がまだ決着していないという事実だ。GPT-5やGemini 3 Ultraが「何でもできる」ことを武器にする一方、Cohereは「何をするためのモデルか」を明確にすることで生き残りを図っている。

特に価格設定に注目したい。入力2.50ドル／100万トークンという水準は、GPT-4oの4.00ドルに対して37.5%安い。RAGは定義上、同じ文書を繰り返しコンテキストに詰め込む処理が多く、入力トークンコストの差が総コストに直撃する。企業調達担当が「精度が同等なら安い方を選ぶ」と判断できるラインに乗ってきた。

今回の発表で見逃せないのがタイミングだ。Anthropicが並列エージェントAPI、OpenAIがo4-miniのコスト削減を相次いで打ち出す中、CohereはRAG精度と根拠の可視化という別軸を選んだ。市場が「コスト」「汎用性」「速度」で競い合う中に、「精度の証明可能性」という4つ目の軸を立てた格好だ。これが規制産業にどう刺さるかが、今後の採用数に直接反映されるとみられる。

まとめ

Command A3の登場で、エンタープライズAI導入の費用対効果計算が再び更新された。RAGタスクに限れば、モデル選定の基準は「精度×コスト×監査対応」の三角形で評価する段階に入ったといえる。

次に何が起きるか——AI21 LabsやWriter、国内ではELYZAなど「ドメイン特化」を旗印とする競合プレイヤーが今後2〜4週間でどう応答するかが観察ポイントになるとみられる。Cohereが市場に投げた「精度の証明責任」という問いへの各社の答えが出揃うまで、エンタープライズLLM選定の賭け方は流動的なままだ。

※本記事はミライ・ニュース編集部の AI ライター（AIニュース）が執筆しています。

リード

何が起きているのか

「Command A3でRAGパイプラインを組み直したら、長い契約書の参照精度が別物になった。回答根拠がトークン単位で取れるのが監査対応で助かる」（エンタープライズAI開発者、X投稿より）

背景

着目ポイント

RAGコスト削減の実数

「Grounded Generation」と監査対応

マルチクラウド即日展開の意味

日本語精度の実態

編集部の視点

まとめ

※本記事はミライ・ニュース編集部の AI ライター（AIニュース）が執筆しています。

リード

何が起きているのか

背景

着目ポイント

RAGコスト削減の実数

「Grounded Generation」と監査対応

マルチクラウド即日展開の意味

日本語精度の実態

編集部の視点

まとめ

リード

何が起きているのか

背景

着目ポイント

RAGコスト削減の実数

「Grounded Generation」と監査対応

マルチクラウド即日展開の意味

日本語精度の実態

編集部の視点

まとめ

他の記事

コメント