AIが「聞きながら話す」時代へ｜元OpenAI CTOの挑戦

この記事でわかること：

元OpenAI CTOが始めた新会社「Thinking Machines Lab」が発表した革新的AI
従来のAI対話の「ターン制」がどう変わるのか
リアルタイムで会話できるAIの仕組みと応答速度
日本のビジネスやコミュニケーションへの影響

元OpenAI CTOが挑む新しいAI対話

2026年5月12日、AIの世界に大きな変化をもたらす発表がありました。元OpenAI（オープンエーアイ）のCTO（最高技術責任者）だったミラ・ムラティ氏が創設した「Thinking Machines Lab（シンキング・マシーンズ・ラボ）」が、新しいタイプのAI「Interaction Models（インタラクション・モデル）」を発表したのです。

ムラティ氏は、ChatGPT（チャットジーピーティー）の開発を技術面で支えてきた人物として知られています。その彼女が「今のAI対話には根本的な問題がある」と考え、まったく新しいアプローチに挑戦しています。

OpenAIを退職後、ムラティ氏はThinking Machines Labを立ち上げました。そこで生まれたのが、音声・映像・テキストをリアルタイムで処理できる「Interaction Models」です。つまり、AIが人間のように「聞きながら話す」ことができるようになったのです。

「ターン制」の限界とは

現在のChatGPTやGemini（ジェミニ）などのAIは、「ターン制」という方式で動いています。これは、人間が話し終わるのを待ってからAIが答える、という順番を守る仕組みです。

たとえば、あなたがChatGPTに質問するとき、まず質問を最後まで入力して送信ボタンを押します。そしてAIが答え終わるまで待ちます。この「順番に話す」という流れが「ターン制」です。

この方式には大きな問題があります。人間同士の自然な会話では、相手が話している途中でうなずいたり、「ああ、それは」と言葉を挟んだりします。しかし、従来のAIは、あなたが話し終わるまでじっと待つしかありません。あなたの表情や身振りも見えていません。

ムラティ氏は、この「待つだけのAI」では本当の協働作業ができないと考えました。人間のように、相手の様子を見ながら柔軟に反応できるAIが必要だと判断したのです。

Interaction Modelsの仕組み

Interaction Modelsは「フルデュプレックス（全二重）」という通信方式を採用しています。これは、送信と受信を同時に行える仕組みです。電話で例えると、相手の声を聞きながら自分も話せる状態です。

具体的には、このAIは会話を200ミリ秒（0.2秒）という小さな単位に分割して処理します。つまり、あなたが話している最中も、AIは0.2秒ごとにあなたの音声や映像を確認して、反応を準備しているのです。

このAIができることは驚くほど幅広くなっています。

あなたが考え込んでいる様子を見て、説明を続けるべきか待つべきかを判断する
あなたが話し出したら、AIの発言を途中で止めて聞く姿勢に切り替える
あなたの身振り手振りに反応して、話題を変える
会話中にリアルタイムで翻訳する（英語で話している人と日本語で話している人をつなぐ）
話しながらグラフや図を作成して見せる
会話の流れを保ちながらウェブ検索をする

従来のAIが「質問に答えるロボット」だったとすれば、Interaction Modelsは「一緒に考える同僚」に近い存在です。

驚異の応答速度0.4秒

Thinking Machines Labが発表した小型モデル「TML-Interaction-Small」は、ベンチマーク（性能測定テスト）で驚異的な結果を出しました。応答速度はなんと0.4秒以下です。

これは、GoogleのGemini 3.1 Flash Live（応答速度0.57秒）やOpenAIのGPT Realtime 2.0（応答速度1.18秒）を大きく上回る速さです。人間が会話で感じる「間」は1秒以内と言われているため、0.4秒という速度は「ほぼ人間と同じ」と言えます。

この速度を実現できた理由は、「エンコーダーフリー早期統合」という技術です。従来のAIは、まず音声をテキストに変換（エンコード）してから処理していました。しかし、Interaction Modelsは音声・映像・テキストを最初から統合して処理するため、変換の手間がかかりません。

ただし、現時点で公開されているのは小型モデルのみです。大型モデルは計算量が膨大になるため、リアルタイム処理に必要な速度を保てないという課題があります。Thinking Machines Labは、この課題を解決してから大型モデルを公開する予定です。

日本のビジネスへの影響

Interaction Modelsが普及すると、日本のビジネスシーンも大きく変わる可能性があります。

まず、オンライン会議が劇的に便利になります。日本語を話す参加者と英語を話す参加者が、それぞれの母語で自然に会話できるようになります。AIが間に入ってリアルタイム翻訳するため、通訳を待つ時間がなくなるのです。

次に、カスタマーサポートの質が向上します。従来のAIチャットボットは、顧客が入力した文章にしか反応できませんでした。しかし、Interaction Modelsなら、電話口の顧客の声のトーンや話すスピードから感情を読み取り、適切な対応ができます。

教育分野でも変化が起きるでしょう。生徒が問題を解いている様子を見ながら、AIが「そこまではいいね」「もう少し考えてみよう」とリアルタイムでサポートできます。一方通行の解説ではなく、対話しながら学べる環境が整います。

医療現場では、医師が患者と話している間にAIがカルテを作成したり、関連する医学論文を検索したりすることが可能になります。医師は患者に集中でき、事務作業の負担が減ります。

一方で、課題もあります。日本語は英語に比べて「間」や「言葉にしない表現」が多い言語です。Interaction Modelsが日本語の微妙なニュアンスをどこまで理解できるかは、実際に使ってみないとわかりません。

いつ使えるようになるのか

Thinking Machines Labは、2026年の早い段階で限定的な研究プレビュー版を公開する予定です。これは、フィードバックを集めるための試験版です。一般の人が自由に使えるようになるのは、2026年の後半と見込まれています。

なお、ムラティ氏は2025年にこの会社を設立した際、アンドリーセン・ホロウィッツ（a16z）などの投資家から20億ドル（約3000億円）の資金を調達したと報じられています。これだけの資金があれば、大型モデルの開発も加速するでしょう。

まとめ

元OpenAI CTOのミラ・ムラティ氏が「Thinking Machines Lab」を創設し、新しいAI「Interaction Models」を発表
従来の「ターン制」を超え、音声・映像・テキストをリアルタイムで処理する「フルデュプレックス」方式を採用
応答速度は0.4秒以下で、Google GeminiやOpenAI GPTより速い
日本のビジネス、教育、医療など幅広い分野に影響を与える可能性
2026年内に一般公開予定

AIとの対話は、これまで「質問と回答の繰り返し」でした。しかし、Interaction Modelsは、人間同士が協働するような自然なコミュニケーションを目指しています。この技術が普及すれば、AIは「道具」から「パートナー」へと変わっていくでしょう。

この記事は AI Friends からのクロスポストです。

この記事でわかること：

元OpenAI CTOが始めた新会社「Thinking Machines Lab」が発表した革新的AI
従来のAI対話の「ターン制」がどう変わるのか
リアルタイムで会話できるAIの仕組みと応答速度
日本のビジネスやコミュニケーションへの影響

元OpenAI CTOが挑む新しいAI対話

「ターン制」の限界とは

Interaction Modelsの仕組み

このAIができることは驚くほど幅広くなっています。

あなたが考え込んでいる様子を見て、説明を続けるべきか待つべきかを判断する
あなたが話し出したら、AIの発言を途中で止めて聞く姿勢に切り替える
あなたの身振り手振りに反応して、話題を変える
会話中にリアルタイムで翻訳する（英語で話している人と日本語で話している人をつなぐ）
話しながらグラフや図を作成して見せる
会話の流れを保ちながらウェブ検索をする

従来のAIが「質問に答えるロボット」だったとすれば、Interaction Modelsは「一緒に考える同僚」に近い存在です。

驚異の応答速度0.4秒

日本のビジネスへの影響

Interaction Modelsが普及すると、日本のビジネスシーンも大きく変わる可能性があります。

いつ使えるようになるのか

まとめ

元OpenAI CTOのミラ・ムラティ氏が「Thinking Machines Lab」を創設し、新しいAI「Interaction Models」を発表
従来の「ターン制」を超え、音声・映像・テキストをリアルタイムで処理する「フルデュプレックス」方式を採用
応答速度は0.4秒以下で、Google GeminiやOpenAI GPTより速い
日本のビジネス、教育、医療など幅広い分野に影響を与える可能性
2026年内に一般公開予定

この記事は AI Friends からのクロスポストです。

元OpenAI CTOが挑む新しいAI対話

「ターン制」の限界とは

Interaction Modelsの仕組み

驚異の応答速度0.4秒

日本のビジネスへの影響

いつ使えるようになるのか

まとめ

元OpenAI CTOが挑む新しいAI対話

「ターン制」の限界とは

Interaction Modelsの仕組み

驚異の応答速度0.4秒

日本のビジネスへの影響

いつ使えるようになるのか

まとめ

他の記事

コメント