ENTRY

◀︎ AI NEWS TOPへ

新しいAIの潮流!「Interaction Model」とは?

新しいAIの潮流!「Interaction Model」とは?

カモネです!

今回はちょっと驚き屋的な内容ですが、「これは今すぐ共有したい!」と思ったので筆を取りました!

ChatGPTの登場と同じくらい、未来の展望や世界観が変わるかもしれない出来事だと思います。

私たちがかつて思い描いていた「AI」とは、まだ出会えていない

ChatGPTがリリースされてから約4年が経ちました。当時は衝撃でしたが、今やもう当たり前になってきましたよね。

しかし、思い返してみてください。ChatGPTやClaudeといった今の世間を席捲しているAIは、私たちがかつて夢見ていたAIとどこか違う、と思いませんか?

私たちが思い描いていたAIというのは、ドラえもんとか、スターウォーズのC-3PO(例えが古い?)のような、人間と同じようにリアルタイムに自然な会話が成立して、自律的に行動するものだったのではないでしょうか。

しかし、現在主流の生成AIはLLM(大規模言語モデル)というもので、人間とやり取りすること自体はできますが、それはターンベースのやり取りです。

ターンベースというのは、たとえば人間が質問を入力すると、AIはそれを受け取って回答する。人間はその回答に対して更に追加で質問する。といったように、順番にやり取りが行われる形です。

もちろんChatGPT-realtime-2.0なども出ており、LLMもリアルタイムの音声対話を実現していますが、これはリアルタイム性を後付けしてそれっぽく見せているものの、LLM自身はターンベースのままです。

なので、「GPTもClaudeも確かにすごいけど、ドラえもんにはまだ遠いよな…」というガッカリ感もどこかにあったのではないかと思います。私はありました。

ところがついに…

新たな潮流「Interaction Model」

人間のようにリアルタイムにやり取りができるAIがある程度形になってきたというニュースが発表されました。

その名も「Interaction Model」(インタラクションモデル)です。(日本語で表現するなら、相互作用モデル?)

どこから出たのか? OpenAI?Anthropic?Google?

どれでもありません。 Thinking Machines Lab(シンキング・マシーンズ・ラボ)、縮めてThinky(シンキー)です。

「……誰?」

安心してください、私も知りませんでした。

今回は、以前にご紹介した「起業の履歴書【AI解説】」さんの動画とその参考文献を引用して、新しい潮流について共有させてください。

発表されたというだけで、今すぐ使える、という話ではありませんが、AIの進化の方向性をちょっと先に知っておく、というだけでも意味があると思います。

私の解釈が間違っているところもあるかもしれませんので、ツッコミもいただけると助かります。

Thinkyとは?

今までほとんど無名(少なくとも私たち日本の一般ユーザーにとっては)だったので、突然ポッと出てきた謎のAIラボのように見えますが、実はそうではありません。

代表のミラ・ムラティ氏やチーフサイエンティストのジョン・シュルマン氏をはじめ、構成メンバーはOpenAIやAnthropicのトップ研究者だった人達です。

なぜOpenAIやAnthropicで研究を続けず、独立したのか。それはこれらの巨大なAIラボでは出来ない研究があるからだと言います。

巨大AIラボはAGI(汎用人工知能)の開発にリソースを集中投下していて、探索的な研究、つまり横道に逸れるような研究に取り組む余裕はない、やりたいなら独立するしかない、ということらしいです。

しかし、ここから先20年以上続く1000兆円規模の巨大市場で、切り取れるパイの大きさがとんでもないので、1つの分野だけに集中してしまうのは勿体ない。

まだまだ天井は高いし、枝葉も無限に拡げられて、フロンティア、ブルーオーシャンなんだ。今からでもチャンスはいくらでもあるんだ。ということのようです。夢がある。

他にも様々な理由があるようですが、とにかく実績あるすごい研究者が独自路線の開発を行った結果、新機軸のAIが出来上がったよ、という話です。

Interaction ModelはLLMと何が違うのか?

Thinkyが開発している「Interaction Model」とはそもそも何なのでしょうか。

現在主流になっているLLM(Large Language Model)とは何が違うのでしょうか。

LLMから見ると、2つあります。

まず1つ目。前述の通り、LLMはターンベースのやり取りです。入力された文章を読み込んで、文脈を読み取って、相応しい文章を組み立てて回答として出力する。という仕組みです。ざっくりですが。

そして、2つ目。LLMでは自律性を重視しています。一つの仕事を投げたら、勝手に最後までやり切ってくれる。Claude Codeとか、Codexとか、今のAIエージェントは特にそうですよね。

ベンチマークでいうと、METR(Model Evaluation and Transparency Research)という研究機関が開発した「AI が実際に複雑なタスクを完遂できるか」を測る評価指標などが重視されています。

AIエージェントに仕事を任せる場合、途中で人間が入り込む余地はほとんどないので、コーディング・研究など一部の領域では人間の仕事が奪われるとか、人間はいらないんじゃないか、という話が出てきてしまいます。

しかし、この自律的なAIだけで世の中の仕事すべてを代替できるかというとそうではないとも言われていて、代替されにくいとされるブルーカラーの職種の待遇が向上して注目を浴びる、なんていうことも起きています。

人間と協働することを前提としたもう一つのAIの形

これに対して、Thinkyは、人間とAIがリアルタイムにやり取りを行うことを前提としています。

「頼んだらAIが勝手に全部終わらせる」のではなくて、人間とAIが相互にやり取りしながら進める。つまり人間同士の仕事の進め方と同じですね。

この発想であれば、人間は完全に不要にはならず、AIと人間は共に働く仲間として共存することができるはずだと。

LLMとの最大の違いは、モデルそのものにインタラクティブ性を組み込んでいるという点です。後付けの必要がない。

具体的にはLLMのターンベースに対して、マイクロターンベースと呼ばれる仕組みになっているそうです。結局ターンベースではあるんですが、0.2秒という短い間隔で、細かい単位で処理するので体感的にはリアルタイムになるという。

しかも公式のデモを見るとわかるのですが、マルチモーダルに対応していて映像と音声を同時に認識できるし、相手が二人に増えて同時に話しても自然にやり取りできるようです。

しかし、このInteraction Modelは検索や高度な推論を必要とする複雑なタスクを処理するのには向きません。

Background Model

そこで登場するのが、Background Model(バックグラウンドモデル)です。

これは、複雑なタスクを裏側で処理する役割を持っていて、タスクが完了したらInteraction Modelを通じて人間に知らせます。

人間でいえば、半身で会話をつづけながら、半身で頼まれた仕事を処理することができるようなものです。しかもどちらも手を抜かずに。余程マルチタスクが得意な人でも難しい離れ業ですよね。

既製のベンチマークでは測り切れなくて独自指標を作った

AIの性能を測る指標としてよく用いられるのがベンチマークです。これは客観的に標準化されたテストによって、性能を数値として比較できるようにする狙いがあります。

リアルタイム性を測る指標としては、FD-Bench(会話の自然さ、タイミングを測る)やAudio MultiChallenge(音声指示に対しての知能・指示追従性)があり、Interaction Modelは高い成績を示しているとされています。

しかし、既存の指標はあくまで現在主流のLLMの性能を測るもので、新しい設計思想のInteraction Modelを測る物差しとしては不足がある。

ということで、Thinky独自の2つのベンチマーク群を作って採用したといいます。

新指標①「時間認識と同時発話」(Time Awareness & TimeSpeak

従来のターンベースのAIでは、時間を計測・認識できない。同時に双方向で発話することもできないので、そういった性能を測る指標はありませんでした。

たとえば、時間認識であれば、「カップラーメンにお湯を入れたから、3分経ったら教えて。」というようなことはLLMにはまずできないけれど、Interaction Modelならできる。

同時発話なら、「人間が話している内容を聞きながら、間違いがあれば割り込んで訂正して。」というようなことも、LLMだと「人間が一通り話し終わったら、まとまりで考えて、訂正する」、とやらないとできないけれど、Interaction Modelなら話を聞きながらリアルタイムに訂正を差し込める。

という具合。

この新たな指標において、Interaction Modelは64.7のスコアを出したけれど、GPT-realtime-2.0はたったの4.3しか出せなかったというのです。

新指標②「視覚的なプロアクティブ性」(Visual Proactivity)

従来型のターンベースのAIでは、視覚的な変化が起きたときに、それをリアルタイムに認識できない。たとえば、AIにスポーツのインストラクターをやらせるとして、LLMはトレーニングメニューを組み立てることはできるけれど、リアルタイムに「今から腕立て伏せをやるから、回数をカウントして」ということは難しい。

Interaction Modelは映像と音声の両方をリアルタイムに認識できるので、これができるということです。

この視覚的なプロアクティブ性を測る新たなベンチマークの1つ「Charades」において、Interaction Modelは32.4のスコアを出したのですが、GPT-realtime-2.0はなんと「0」だったというのです。全く向いていない。

これらの新しいベンチマークテストの結果の比較は、単に「Interaction Modelが優れていてLLMが劣っている」という話ではなく、全く別の性質を持つモデルが登場したのだ、ということを示していると言えるでしょう。

課題:コンテキストウィンドウを圧迫しすぎる

しかし、このInteraction Modelはまだまだ発展途上で、課題もあります。

その1つが、コンテキストウィンドウの問題。

コンテキストウィンドウというのは、ざっくり言うとAIが一度に扱える情報量の上限で、この上限を超えてしまうと今まで話したことを忘れてしまったり、パフォーマンスが悪くなったりしてしまうというものです。

Interaction Modelはリアルタイムに音声と映像から情報を取り込んで蓄積し続けるので、どうしてもコンテキストウィンドウが急速に埋まってしまって、すぐに限界に達してしまいます。

これを解決するには、モデルのスケーリングによってコンテキストウインドウ自体を拡張するだけでなく、コンテキストの選別・圧縮などの工夫が必要になるのかな、と想像します。

新機軸のモデル、ベンチマークを編み出すようなラボなので、もしかすると我々の思いもよらぬ方法で解決してしまう可能性もあります。今後に期待したいところです。

展望:Interaction Modelは今後どうなるのか

Interaction Modelはまだ発表されただけで、利用することはできません。

しかし、公式発表によれば更にスケールアップしたモデルを開発中で、今年中に一般公開を予定していると発表されています。楽しみに待ちましょう。

他にも、複雑なタスクを遂行するBackground Modelの改良や、Interaction ModelとBackground Modelとの連携の改善など、まだまだ伸びしろだらけだという話です。

Interaction Modelが発展してロボット技術と組み合わされば、私たちが思い描いたAIロボット像、アンドロイドのようなものが現実になるかもしれませんね。

参考

https://thinkingmachines.ai/blog/interaction-models
https://x.com/cHHillee/status/2053940218747842619
https://x.com/soumithchintala/status/2053940215505645938
https://x.com/johnschulman2/status/2053940940885332028

AI NEWS メルマガ登録

AI最新ニュースをメールでキャッチ

本ブログの新着以外の配信は一切いたしません

メールアドレスを正しく入力してください
AI NEWS メルマガ登録

AI最新ニュースをメールでキャッチ

本ブログの新着以外の配信は一切いたしません

メールアドレスを正しく入力してください

Tags

タグ一覧へ ▶︎

Kamone
著者 Kamone

30歳で学者志望からITエンジニアに転身。通信・金融業界におけるインフラ領域を中心に、オンプレミスからクラウドまで幅広く経験。AWS学習コミュニティでは公認メンターとして教材制作や講師を務める。現在はリツアンSTCにて事業推進に携わり、AI活用とエンジニア支援の高度化に取り組んでいる。

Kamone
著者 Kamone

株式会社リツアンSTC社員。

1984年 東京都中野区生まれ。

大学中退後、工場や警備員などを経て、何もスキルが身についていないことに危機感を覚える。
2014年 何か手に職をつけなければと思い、電子専門学校からエンジニアになった弟を見て「コイツにできるなら俺もできる」と安易な考えで未経験からIT業界に飛び込む。
そこは「まともな案件に入れなければ営業としてこき使われるか中国に送られるらしい」と恐ろしい噂が飛び交う会社だった。
「とんでもないところに来てしまった…」と戦慄するも、運よく大手新聞社系のインフラチームから声がかかり、エンジニアとしてのスタートを切る。

その後、SESを転々としながら通信・金融業界のオンプレ・クラウド案件を中心にインフラエンジニアとして経験を積む。

2021年 AWS学習サービス「Cloudtech」に参加し、公認メンターとして書籍出版プロジェクトや教材制作・講師などのコミュニティ・サービス運営に関わる。

2023年 ゆとりーマンのYoutube動画で新興SESの闇とリツアンの存在を知り、転職。(当時所属していたSES企業が動画で紹介されていた特徴に当てはまっていて愕然)
その後、CloudTechとリツアンの橋渡し役を担い、合同プロジェクト「テラコヤテック」の運営に関わる。
2025年 リツアンの「エンジニアに一円でも高い報酬を」「会社は社員に使われるためにある」「出入り自由」といったスタンスに共鳴。エンジニアから転向し、リツアンの事業推進に参画。
現在に至る。

他人の文体を真似たり、他人が書いた文章を手直しするのが得意、という若干嫌な気持ちにさせる特技を持つ。
AI活用を鋭意研究中。
(リツアンいいとこ一度はおいで。)

AI NEWS メルマガ登録

AI最新ニュースをメールでキャッチ

本ブログの新着以外の配信は一切いたしません

メールアドレスを正しく入力してください
社員
1000名
突破!

インサイドセールス・カスタマーサクセス人材募集!  詳しく