Sakana AI「KAME」—音声AIが話しながら考える
@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
コメント (0)
まだコメントはありません

@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
まだコメントはありません
「AIに質問したのに、考える時間がかかって会話がぎこちない」と感じたことはありませんか?これは音声AIが抱える根本的な矛盾——速く答えるか、賢く答えるか——から生まれる問題です。2026年5月3日、東京発のAI研究所Sakana AIがこのジレンマを解決する「KAME(カメ)」を公開しました。
KAME(Knowledge-Access Model Extension)は、日本語で「亀」を意味します。
名前に反して、その動作は非常に速いのが特徴です。
Sakana AIが2026年5月3日に公開したKAMEは、リアルタイム音声対話AIです。ICASSP 2026という音声・信号処理分野のトップ国際会議に採択された論文(arXiv:2510.02327)を基に開発されています。
従来の音声AIは「先に全部考えてから話す」方式でした。KAMEは違います。「話しながら並行して考え続ける」という新しい方式を採用しています。
この仕組みにより、応答速度を犠牲にせず、深い知識を持った回答ができるようになりました。
Sakana AIは、東京を拠点とする研究主導のAIスタートアップです。
Googleなどの大手企業出身の研究者が設立し、日本語特化モデル「Namazu」や「進化的モデルマージ(Evolutionary Model Merge)」など、業界を驚かせる研究を次々と発表してきました。
今回のKAMEもその流れを汲む成果で、音声AI分野に新たなパラダイムを持ち込んでいます。
音声AIには大きく分けて2つの方式があります。
1つ目は「カスケード型」です。ユーザーの声をテキストに変換(STT)→LLMで推論→テキストを音声に変換(TTS)という3段階の処理を順番に行います。
カスケード型は高精度な回答ができる一方で、応答まで2秒以上かかることが多く、会話のテンポが損なわれます。代表例のUnmuteは中央値で2.1秒の応答待機時間があります。
2つ目は「エンド・ツー・エンド型」です。音声を音声として直接処理するため応答は超高速です。
しかしエンド・ツー・エンド型は、大規模言語モデルの豊富な知識を活用しにくく、深い推論が必要な質問には弱い傾向があります。代表的なMoshiのMT-Benchスコアはわずか2.05と、知識品質の課題が明らかです。
Sakana AIはこのトレードオフを「Think then speak(考えてから話す)」vs.「Speak while thinking(話しながら考える)」と表現しています。
KAMEが目指したのは、エンド・ツー・エンド型の速さを保ちながら、カスケード型の知識品質に近づけることです。
その答えが、タンデムアーキテクチャです。
KAMEは2つのコンポーネントが並行して動きます。
「フロントエンドS2S(音声→音声)モデル」と「バックエンドテキストLLM」が非同期に動作し、それぞれの長所を組み合わせる構造です。
フロントエンドはMoshiのアーキテクチャをベースにしており、ユーザーが話している最中から即座に音声を処理します。応答遅延はほぼゼロです。
バックエンドには、GPT-4.1・Claude Opus 4.1・Gemini 2.5 Flashなど、好みの大規模LLMを接続できます。バックエンドは非同期で深い推論を行い、その結果を「オラクル(oracle:予言)」としてフロントエンドに随時送り込みます。
Moshiは元々、入力音声・内部思考テキスト・出力音声の3つのストリーム(データの流れ)を持っていました。
KAMEはそこに「オラクルストリーム」という第4のストリームを追加しています。
仕組みはこうです。ユーザーが話すとSTTコンポーネントが部分的なテキスト書き起こしを随時作成し、バックエンドLLMに送信します。LLMはその断片的な入力から「これはこういう質問だろう」と推測し、候補回答(オラクル)をフロントエンドに返します。
フロントエンドはオラクルを受け取り、自分の音声出力をそのオラクルに近づけるよう調整します。バックエンドが更新されるたびに音声の方向性が洗練されていく仕組みです。
この仕組みを動かすには、フロントエンドモデルが「途中で送られてくるオラクル」を使いこなす特別なトレーニングが必要です。
Sakana AIが考案した「Simulated Oracle Augmentation(模擬オラクル補強)」という手法で、56,582件の合成対話データから学習させています。
学習データはMMLU-Pro・GSM8K・HSSBenchという有名なベンチマークデータセットを会話形式に変換し、TTS(音声合成)で音声化したものです。
KAMEの性能を測った指標の一つが「MT-Bench」です。マルチターン会話(複数のやり取り)における推論・STEM・人文科学の品質を0〜10点で評価するベンチマークです。
ベースラインとなるMoshiのMT-Benchスコアは2.05でした。KAMEはこれを6.43まで引き上げました——3倍以上の向上です。
内訳を見ると、推論6.48点・STEM8.34点・人文科学8.56点で、総平均は7.79点(GPT-4.1バックエンド時)。比較対象のUnmuteは7.70点なので、ほぼ同等の知識品質に達しています。
注目すべきはスコアだけでなく、応答速度との両立です。
KAMEの応答遅延は中央値でほぼゼロ秒——Moshiとほぼ同じレベルを維持しています。
一方でUnmuteの応答待機時間は中央値2.1秒。KAMEはUnmuteに近い知識品質を、Unmuteより大幅に低い遅延で実現しています。
モデルMT-Benchスコア応答遅延
Moshi(ベースライン)2.05ほぼゼロ
KAME(GPT-4.1バックエンド)6.43ほぼゼロ
KAME(Claude Opus 4.1バックエンド)6.23ほぼゼロ
Unmute(カスケード型)7.702.1秒
KAMEのもう一つの特長は、バックエンドLLMを再トレーニングなしで差し替えられることです。
フロントエンドはgpt-4.1-nanoで訓練されていますが、推論時はGPT-4.1・Claude Opus 4.1・Gemini 2.5 Flashなど任意のLLMに接続できます。
用途に応じて精度重視のモデルとコスト重視の軽量モデルを使い分けられる柔軟性は、ビジネス利用において大きなメリットになります。
KAMEはMITライセンスで完全に無償公開されています。
推論コードは「SakanaAI/kame」、ファインチューニングコードは「SakanaAI/kame_finetune」としてGitHubに公開、モデルウェイトはHugging Face「SakanaAI/kame」からダウンロード可能です。
Pythonパッケージとして提供されており、インストール後にserver_oracle.pyを実行するだけで、オラクルガイド付きの対話を試せます。
Simulated Oracle Augmentationによるファインチューニングパイプラインも公開されており、独自データで新たなフロントエンドモデルを訓練できます。
KAMEを開発したSakana AIは、東京を拠点とする日本発のAI研究所です。
ICASSP 2026という音声・信号処理分野のトップ国際会議に採択されたことで、この研究は世界的に認められた成果となりました。
日本はリアルタイム翻訳・接客ロボット・医療問診AIなど、高精度な音声AIへのニーズが高い分野を多く持っています。KAMEのアーキテクチャは、こうした領域に直接応用できる可能性があります。
実際のビジネス活用を想像してみましょう。
あるコールセンター運営企業が、AIによる自動応対システムを導入したいと考えています。従来のカスケード型AIでは「少々お待ちください」という沈黙が2秒以上続き、顧客満足度が下がっていました。KAMEのタンデム方式なら即座に会話を始めつつ、バックエンドのLLMが正確な情報を並行して送り込みます。
レストランの予約・変更・キャンセルを扱う接客AIでも、「空席を確認しながら返答する」ことが自然な会話テンポで実現できます。
高齢者向けの健康相談AIでは、応答が遅いと「壊れている」と誤解されることがあります。KAMEのゼロ遅延特性は、ITに不慣れなユーザー層への普及を後押しします。
OpenAIのGPT-4oにも「Advanced Voice Mode」という高品質な音声対話機能があります。
GPT-4o Voiceは高品質ですが、OpenAIのサービスに依存する閉じたシステムです。KAMEはオープンソースで、バックエンドLLMを自由に選べる開かれたアーキテクチャです。
プライバシーの観点でも、自社インフラ上でKAMEを動かせば会話データが外部に出ないという利点があります。医療・金融・法務など機密情報を扱う業種での採用に向いています。
A. 現時点で公開されているKAMEのフロントエンドモデルは、英語ベースの学習データで訓練されています。
ただし、バックエンドLLMに日本語対応モデルを接続することは技術的に可能です。Sakana AIは日本語AI研究の実績もあるため、今後の日本語版展開に期待が集まっています。
A. フロントエンドのS2SモデルはMoshiベースで比較的軽量なため、消費者向けGPUでも動作します。
バックエンドLLMをAPI経由(GPT-4.1やClaude Opus 4.1)で呼び出す場合はGPU不要で、APIキーだけで利用できます。自前のLLMをローカルで動かしたい場合は相応のGPUが必要です。
A. KAMEのコードはMITライセンスで公開されており、商用利用も可能です。
接続するバックエンドLLM(GPT-4.1など)の利用規約は別途確認が必要です。自社でファインチューニングしたモデルをバックエンドに使えば、完全にコントロールできる構成も作れます。
A. MoshiはリアルタイムのS2Sモデル本体です。KAMEはMoshiに「オラクルストリーム」を追加し、バックエンドLLMの知識を注入できるようにした拡張フレームワークです。
MT-Benchスコアは2.05(Moshi)→6.43(KAME)と3倍以上向上しており、KAMEはMoshiをより賢くする仕組みです。
Sakana AIのKAMEは、「速くて賢い音声AI」という矛盾を技術で解消した革新的な成果です。まずはGitHub(SakanaAI/kame)にアクセスして自分の環境で動かしてみることが、最初の一歩になります。
この記事は AI Friends からのクロスポストです。