カモネです!
今回はちょっと驚き屋的な内容ですが、「これは今すぐ共有したい!」と思ったので筆を取りました!
ChatGPTの登場と同じくらい、未来の展望や世界観が変わるかもしれない出来事だと思います。
ChatGPTがリリースされてから約4年が経ちました。当時は衝撃でしたが、今やもう当たり前になってきましたよね。
しかし、思い返してみてください。ChatGPTやClaudeといった今の世間を席捲しているAIは、私たちがかつて夢見ていたAIとどこか違う、と思いませんか?
私たちが思い描いていたAIというのは、ドラえもんとか、スターウォーズのC-3PO(例えが古い?)のような、人間と同じようにリアルタイムに自然な会話が成立して、自律的に行動するものだったのではないでしょうか。
しかし、現在主流の生成AIはLLM(大規模言語モデル)というもので、人間とやり取りすること自体はできますが、それはターンベースのやり取りです。
ターンベースというのは、たとえば人間が質問を入力すると、AIはそれを受け取って回答する。人間はその回答に対して更に追加で質問する。といったように、順番にやり取りが行われる形です。
もちろんChatGPT-realtime-2.0なども出ており、LLMもリアルタイムの音声対話を実現していますが、これはリアルタイム性を後付けしてそれっぽく見せているものの、LLM自身はターンベースのままです。
なので、「GPTもClaudeも確かにすごいけど、ドラえもんにはまだ遠いよな…」というガッカリ感もどこかにあったのではないかと思います。私はありました。
ところがついに…
人間のようにリアルタイムにやり取りができるAIがある程度形になってきたというニュースが発表されました。
その名も「Interaction Model」(インタラクションモデル)です。(日本語で表現するなら、相互作用モデル?)
どこから出たのか? OpenAI?Anthropic?Google?
どれでもありません。 Thinking Machines Lab(シンキング・マシーンズ・ラボ)、縮めてThinky(シンキー)です。
「……誰?」
安心してください、私も知りませんでした。
今回は、以前にご紹介した「起業の履歴書【AI解説】」さんの動画とその参考文献を引用して、新しい潮流について共有させてください。
発表されたというだけで、今すぐ使える、という話ではありませんが、AIの進化の方向性をちょっと先に知っておく、というだけでも意味があると思います。
私の解釈が間違っているところもあるかもしれませんので、ツッコミもいただけると助かります。
今までほとんど無名(少なくとも私たち日本の一般ユーザーにとっては)だったので、突然ポッと出てきた謎のAIラボのように見えますが、実はそうではありません。
代表のミラ・ムラティ氏やチーフサイエンティストのジョン・シュルマン氏をはじめ、構成メンバーはOpenAIやAnthropicのトップ研究者だった人達です。
なぜOpenAIやAnthropicで研究を続けず、独立したのか。それはこれらの巨大なAIラボでは出来ない研究があるからだと言います。
巨大AIラボはAGI(汎用人工知能)の開発にリソースを集中投下していて、探索的な研究、つまり横道に逸れるような研究に取り組む余裕はない、やりたいなら独立するしかない、ということらしいです。
しかし、ここから先20年以上続く1000兆円規模の巨大市場で、切り取れるパイの大きさがとんでもないので、1つの分野だけに集中してしまうのは勿体ない。
まだまだ天井は高いし、枝葉も無限に拡げられて、フロンティア、ブルーオーシャンなんだ。今からでもチャンスはいくらでもあるんだ。ということのようです。夢がある。
他にも様々な理由があるようですが、とにかく実績あるすごい研究者が独自路線の開発を行った結果、新機軸のAIが出来上がったよ、という話です。
Thinkyが開発している「Interaction Model」とはそもそも何なのでしょうか。
現在主流になっているLLM(Large Language Model)とは何が違うのでしょうか。
LLMから見ると、2つあります。
まず1つ目。前述の通り、LLMはターンベースのやり取りです。入力された文章を読み込んで、文脈を読み取って、相応しい文章を組み立てて回答として出力する。という仕組みです。ざっくりですが。
そして、2つ目。LLMでは自律性を重視しています。一つの仕事を投げたら、勝手に最後までやり切ってくれる。Claude Codeとか、Codexとか、今のAIエージェントは特にそうですよね。
ベンチマークでいうと、METR(Model Evaluation and Transparency Research)という研究機関が開発した「AI が実際に複雑なタスクを完遂できるか」を測る評価指標などが重視されています。
AIエージェントに仕事を任せる場合、途中で人間が入り込む余地はほとんどないので、コーディング・研究など一部の領域では人間の仕事が奪われるとか、人間はいらないんじゃないか、という話が出てきてしまいます。
しかし、この自律的なAIだけで世の中の仕事すべてを代替できるかというとそうではないとも言われていて、代替されにくいとされるブルーカラーの職種の待遇が向上して注目を浴びる、なんていうことも起きています。
これに対して、Thinkyは、人間とAIがリアルタイムにやり取りを行うことを前提としています。
「頼んだらAIが勝手に全部終わらせる」のではなくて、人間とAIが相互にやり取りしながら進める。つまり人間同士の仕事の進め方と同じですね。
この発想であれば、人間は完全に不要にはならず、AIと人間は共に働く仲間として共存することができるはずだと。
LLMとの最大の違いは、モデルそのものにインタラクティブ性を組み込んでいるという点です。後付けの必要がない。
具体的にはLLMのターンベースに対して、マイクロターンベースと呼ばれる仕組みになっているそうです。結局ターンベースではあるんですが、0.2秒という短い間隔で、細かい単位で処理するので体感的にはリアルタイムになるという。
しかも公式のデモを見るとわかるのですが、マルチモーダルに対応していて映像と音声を同時に認識できるし、相手が二人に増えて同時に話しても自然にやり取りできるようです。
しかし、このInteraction Modelは検索や高度な推論を必要とする複雑なタスクを処理するのには向きません。
そこで登場するのが、Background Model(バックグラウンドモデル)です。
これは、複雑なタスクを裏側で処理する役割を持っていて、タスクが完了したらInteraction Modelを通じて人間に知らせます。
人間でいえば、半身で会話をつづけながら、半身で頼まれた仕事を処理することができるようなものです。しかもどちらも手を抜かずに。余程マルチタスクが得意な人でも難しい離れ業ですよね。

AIの性能を測る指標としてよく用いられるのがベンチマークです。これは客観的に標準化されたテストによって、性能を数値として比較できるようにする狙いがあります。
リアルタイム性を測る指標としては、FD-Bench(会話の自然さ、タイミングを測る)やAudio MultiChallenge(音声指示に対しての知能・指示追従性)があり、Interaction Modelは高い成績を示しているとされています。
しかし、既存の指標はあくまで現在主流のLLMの性能を測るもので、新しい設計思想のInteraction Modelを測る物差しとしては不足がある。
ということで、Thinky独自の2つのベンチマーク群を作って採用したといいます。
従来のターンベースのAIでは、時間を計測・認識できない。同時に双方向で発話することもできないので、そういった性能を測る指標はありませんでした。
たとえば、時間認識であれば、「カップラーメンにお湯を入れたから、3分経ったら教えて。」というようなことはLLMにはまずできないけれど、Interaction Modelならできる。
同時発話なら、「人間が話している内容を聞きながら、間違いがあれば割り込んで訂正して。」というようなことも、LLMだと「人間が一通り話し終わったら、まとまりで考えて、訂正する」、とやらないとできないけれど、Interaction Modelなら話を聞きながらリアルタイムに訂正を差し込める。
という具合。
この新たな指標において、Interaction Modelは64.7のスコアを出したけれど、GPT-realtime-2.0はたったの4.3しか出せなかったというのです。
従来型のターンベースのAIでは、視覚的な変化が起きたときに、それをリアルタイムに認識できない。たとえば、AIにスポーツのインストラクターをやらせるとして、LLMはトレーニングメニューを組み立てることはできるけれど、リアルタイムに「今から腕立て伏せをやるから、回数をカウントして」ということは難しい。
Interaction Modelは映像と音声の両方をリアルタイムに認識できるので、これができるということです。
この視覚的なプロアクティブ性を測る新たなベンチマークの1つ「Charades」において、Interaction Modelは32.4のスコアを出したのですが、GPT-realtime-2.0はなんと「0」だったというのです。全く向いていない。
これらの新しいベンチマークテストの結果の比較は、単に「Interaction Modelが優れていてLLMが劣っている」という話ではなく、全く別の性質を持つモデルが登場したのだ、ということを示していると言えるでしょう。

しかし、このInteraction Modelはまだまだ発展途上で、課題もあります。
その1つが、コンテキストウィンドウの問題。
コンテキストウィンドウというのは、ざっくり言うとAIが一度に扱える情報量の上限で、この上限を超えてしまうと今まで話したことを忘れてしまったり、パフォーマンスが悪くなったりしてしまうというものです。
Interaction Modelはリアルタイムに音声と映像から情報を取り込んで蓄積し続けるので、どうしてもコンテキストウィンドウが急速に埋まってしまって、すぐに限界に達してしまいます。
これを解決するには、モデルのスケーリングによってコンテキストウインドウ自体を拡張するだけでなく、コンテキストの選別・圧縮などの工夫が必要になるのかな、と想像します。
新機軸のモデル、ベンチマークを編み出すようなラボなので、もしかすると我々の思いもよらぬ方法で解決してしまう可能性もあります。今後に期待したいところです。
Interaction Modelはまだ発表されただけで、利用することはできません。
しかし、公式発表によれば更にスケールアップしたモデルを開発中で、今年中に一般公開を予定していると発表されています。楽しみに待ちましょう。
他にも、複雑なタスクを遂行するBackground Modelの改良や、Interaction ModelとBackground Modelとの連携の改善など、まだまだ伸びしろだらけだという話です。
Interaction Modelが発展してロボット技術と組み合わされば、私たちが思い描いたAIロボット像、アンドロイドのようなものが現実になるかもしれませんね。
https://thinkingmachines.ai/blog/interaction-models
https://x.com/cHHillee/status/2053940218747842619
https://x.com/soumithchintala/status/2053940215505645938
https://x.com/johnschulman2/status/2053940940885332028