AIが「聞きながら話す」時代へ|元OpenAI CTOの挑戦
@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
コメント (0)
まだコメントはありません

@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
まだコメントはありません
この記事でわかること:
2026年5月12日、AIの世界に大きな変化をもたらす発表がありました。元OpenAI(オープンエーアイ)のCTO(最高技術責任者)だったミラ・ムラティ氏が創設した「Thinking Machines Lab(シンキング・マシーンズ・ラボ)」が、新しいタイプのAI「Interaction Models(インタラクション・モデル)」を発表したのです。
ムラティ氏は、ChatGPT(チャットジーピーティー)の開発を技術面で支えてきた人物として知られています。その彼女が「今のAI対話には根本的な問題がある」と考え、まったく新しいアプローチに挑戦しています。
OpenAIを退職後、ムラティ氏はThinking Machines Labを立ち上げました。そこで生まれたのが、音声・映像・テキストをリアルタイムで処理できる「Interaction Models」です。つまり、AIが人間のように「聞きながら話す」ことができるようになったのです。
現在のChatGPTやGemini(ジェミニ)などのAIは、「ターン制」という方式で動いています。これは、人間が話し終わるのを待ってからAIが答える、という順番を守る仕組みです。
たとえば、あなたがChatGPTに質問するとき、まず質問を最後まで入力して送信ボタンを押します。そしてAIが答え終わるまで待ちます。この「順番に話す」という流れが「ターン制」です。
この方式には大きな問題があります。人間同士の自然な会話では、相手が話している途中でうなずいたり、「ああ、それは」と言葉を挟んだりします。しかし、従来のAIは、あなたが話し終わるまでじっと待つしかありません。あなたの表情や身振りも見えていません。
ムラティ氏は、この「待つだけのAI」では本当の協働作業ができないと考えました。人間のように、相手の様子を見ながら柔軟に反応できるAIが必要だと判断したのです。
Interaction Modelsは「フルデュプレックス(全二重)」という通信方式を採用しています。これは、送信と受信を同時に行える仕組みです。電話で例えると、相手の声を聞きながら自分も話せる状態です。
具体的には、このAIは会話を200ミリ秒(0.2秒)という小さな単位に分割して処理します。つまり、あなたが話している最中も、AIは0.2秒ごとにあなたの音声や映像を確認して、反応を準備しているのです。
このAIができることは驚くほど幅広くなっています。
従来のAIが「質問に答えるロボット」だったとすれば、Interaction Modelsは「一緒に考える同僚」に近い存在です。
Thinking Machines Labが発表した小型モデル「TML-Interaction-Small」は、ベンチマーク(性能測定テスト)で驚異的な結果を出しました。応答速度はなんと0.4秒以下です。
これは、GoogleのGemini 3.1 Flash Live(応答速度0.57秒)やOpenAIのGPT Realtime 2.0(応答速度1.18秒)を大きく上回る速さです。人間が会話で感じる「間」は1秒以内と言われているため、0.4秒という速度は「ほぼ人間と同じ」と言えます。
この速度を実現できた理由は、「エンコーダーフリー早期統合」という技術です。従来のAIは、まず音声をテキストに変換(エンコード)してから処理していました。しかし、Interaction Modelsは音声・映像・テキストを最初から統合して処理するため、変換の手間がかかりません。
ただし、現時点で公開されているのは小型モデルのみです。大型モデルは計算量が膨大になるため、リアルタイム処理に必要な速度を保てないという課題があります。Thinking Machines Labは、この課題を解決してから大型モデルを公開する予定です。
Interaction Modelsが普及すると、日本のビジネスシーンも大きく変わる可能性があります。
まず、オンライン会議が劇的に便利になります。日本語を話す参加者と英語を話す参加者が、それぞれの母語で自然に会話できるようになります。AIが間に入ってリアルタイム翻訳するため、通訳を待つ時間がなくなるのです。
次に、カスタマーサポートの質が向上します。従来のAIチャットボットは、顧客が入力した文章にしか反応できませんでした。しかし、Interaction Modelsなら、電話口の顧客の声のトーンや話すスピードから感情を読み取り、適切な対応ができます。
教育分野でも変化が起きるでしょう。生徒が問題を解いている様子を見ながら、AIが「そこまではいいね」「もう少し考えてみよう」とリアルタイムでサポートできます。一方通行の解説ではなく、対話しながら学べる環境が整います。
医療現場では、医師が患者と話している間にAIがカルテを作成したり、関連する医学論文を検索したりすることが可能になります。医師は患者に集中でき、事務作業の負担が減ります。
一方で、課題もあります。日本語は英語に比べて「間」や「言葉にしない表現」が多い言語です。Interaction Modelsが日本語の微妙なニュアンスをどこまで理解できるかは、実際に使ってみないとわかりません。
Thinking Machines Labは、2026年の早い段階で限定的な研究プレビュー版を公開する予定です。これは、フィードバックを集めるための試験版です。一般の人が自由に使えるようになるのは、2026年の後半と見込まれています。
なお、ムラティ氏は2025年にこの会社を設立した際、アンドリーセン・ホロウィッツ(a16z)などの投資家から20億ドル(約3000億円)の資金を調達したと報じられています。これだけの資金があれば、大型モデルの開発も加速するでしょう。
AIとの対話は、これまで「質問と回答の繰り返し」でした。しかし、Interaction Modelsは、人間同士が協働するような自然なコミュニケーションを目指しています。この技術が普及すれば、AIは「道具」から「パートナー」へと変わっていくでしょう。
この記事は AI Friends からのクロスポストです。