昨今の生成AIの進歩は驚くほど加速しています。毎日のように何らかのサービスがリリースされたり、新機能が追加されたりしていて、すべてを追いかけるのは難しいと感じる方も少なくないのではないでしょうか。
そこで、今回はChatGPT・Gemini・Claudeの三大生成AIを中心に、最近の生成AIにまつわる注目トピックをまとめて解説する記事を作成しました。最新情報のキャッチアップに、ぜひ役立ててください。

ChatGPTが新プラン「ChatGPT Go」を発表しました。「ChatGPT Go」は、ChatGPT Plusの約半額(月額約1500円)で利用可能で、取り扱えるメッセージや画像などの利用上限が無料プランの10倍に拡張されますが、CodexやDeepresearch、Soraなどの専門的な機能は利用できません。
これまで「チャットの使用制限は解放したいけど、複雑な機能は使わないのでChatGPT Plusはちょっと高い」と有料プランを契約するか悩んでいたユーザーを取り込みたい意図があると思われます。
GeminiやClaudeをはじめとした競合サービスが低料金プランに追随するのかは注目したいところです。
https://chatgpt.com/ja-JP/plans/go
OpenAIは、ChatGPTの無料ユーザーや新しく提供されるGoプランのユーザー向けに、広告の表示を開始すると発表しました。
ChatGPTは普及を優先するために無料ユーザーの利用によって発生する赤字を許容していましたが、今後は赤字の縮小・黒字化を目指してマネタイズを強化していく方針と思われます。
広告はChatGPTとの会話内容に基づいて表示され、ChatGPTの回答とは明確に区切って表示されるようです。従来の検索エンジン以上にパーソナライズされた広告配信が可能になるため、新たな広告媒体として注目を集めそうです。
https://openai.com/ja-JP/index/our-approach-to-advertising-and-expanding-access
OpenAIは、翻訳に特化したインターフェースを提供する「ChatGPT Translate」を発表しました。
従来の生成AIチャットでも翻訳自体は可能ですが、翻訳ツールとしての使い勝手では「Google翻訳」や「Deepl」などの翻訳専門サービスの方が分かりやすく、翻訳用途での活用は限定的だったと言えます。
そこで、特定の用途に特化したインターフェースを備えたWebサービスとして切り出したのが「ChatGPT Translate」です。左側を翻訳前の原文、右側を選択した言語で翻訳した文とすることで、従来の翻訳ツールと遜色ない使い勝手になっています。
また、生成AIらしく、「子供に説明するように」「ビジネス向けのフォーマルな文章に」などニュアンスの指定も可能になっており、ChatGPTのチャットに繋がるようになっています。この応用力の高さによって、従来の翻訳ツールとは差別化されていると言えるでしょう。
今後は翻訳に留まらず、様々な用途に特化したインターフェースを提供し、そこからChatGPTのチャットにつなぐという構造化が進んでいくかもしれません。
https://chatgpt.com/ja-JP/translate

Appleは、iPhoneやMacのAIアシスタントとして、GoogleのGeminiを採用すると発表しました。これにより、GoogleはAppleユーザーをGeminiユーザーとして取り込む形になり、ユーザー獲得競争で大きく優位に立つと見られています。
AppleのAIアシスタントといえば「Siri」でしたが、タイマーや天気の確認といった簡単なサポートはできるものの、ChatGPTやGeminiのような生成AIと比較すると限定的でした。
AppleのAI開発が遅れた原因の1つに、ユーザーデータのプライバシー保護を重視するポリシーの影響があったと見られています。生成AIの学習には膨大なデータが必要ですが、他社と比較して十分なデータ量を用意できなかったのではないか、ということです。
https://blog.google/company-news/inside-google/company-announcements/joint-statement-google-apple
Googleは、従来よりもさらにパーソナライズされた回答や提案が可能になる「Google Personal Intelligence」をGeminiに導入すると発表しました。
従来の生成AIチャットでも、メモリ機能やカスタム指示などでユーザーの情報を記憶しておき、回答や出力に反映することが可能でしたが、「Google Personal Inteligence」ではGoogleエコシステムに紐づくパーソナルデータを参照できるようになります。
Gmail、フォト、YouTube視聴履歴、検索履歴など、Google内の情報を横断的に参照することで、これまでより深くパーソナライズされた回答や提案が出力可能になるとされています。
Geminiが参照を許可する範囲をユーザーが指定できるため、事前に参照範囲を指定しておくことが重要になるでしょう。
https://gemini.google/overview/personal-intelligence

Anthropicは、コーディングに特化したAIエージェントであるClaude Codeをもとに、コーディング以外の用途で利用しやすく改良した「Claude Code Cowork」を発表しました。
もともと、Claude Codeはコーディングに特化したAIエージェントという位置づけでリリースされましたが、ユーザーのPC上のファイルを直接操作できるAIエージェントという特性は、コーディング以外の用途でも活用できることが分かってきました。
Coworkは、資料作成・データ整理・レポート作成といったコーディング以外の用途に最適化されたAIエージェントとして、活用が広がっていくものと思われます。
Coworkは、現在はMacOSのみに対応しており、なおかつMaxプラン以上を契約しているユーザーのみが利用可能です。しかし、いずれ他のOSやプランでも利用可能になっていくものと見られます。
https://support.claude.com/ja/articles/13345190-cowork%E3%82%92%E5%A7%8B%E3%82%81%E3%82%8B
Claudeは、医療や創薬に特化した「Claude for Healthcare」と、「Claude for Life Sciences」を発表しました。
これらは指示、テンプレート、ツール接続をモジュール化し、タスクに応じて必要なデータのみを動的に読み込む仕組みである「Agent Skills」を応用したもので、OpenAIの「ChatGPTヘルスケア」が個人ユーザー向けであることと比較すると、医療事務・管理ワークフローに活用することを意図している点が異なります。
https://www.anthropic.com/news/healthcare-life-sciences

動画生成といえば、GoogleのVeo3やOpenAIのSoraなど、プロンプトで動画の内容を指定すると短い動画クリップを生成するものが主流です。
しかし、PixVerseはストリーム型という新しいタイプの動画生成AIとして注目されています。ストリーム型の動画生成AIでは、まるで現場の生中継のようにリアルタイムで動画が生成され続けます。そして、ストリーミング中にプロンプトを送信すると、その内容がリアルタイムに動画に反映されるのです。たとえば、「ロボットが登場して踊りだす」と入力すれば映像にロボットが登場して踊るシーンが反映されるのです。
このようなリアルタイムの動画生成は、エンターテインメントとしても楽しむことができますが、シミュレーション装置としても活用することができそうです。
https://domoai.app/ja/blog/pixverse-r1-real-time-world-model
NVIDIAは、ユニバーサル・ミュージック・グループ(UMG)と提携し、AIが楽曲の歌詞の意味や歌手の感情の起伏といった文脈を深く読み込んで理解した上で好みの楽曲探しをサポートする「Music flamingo」を発表しました。
昨今は、AIによって生成された品質の低いコンテンツ(AIスロップ)が増えることで、本当に探したいものを探せなくなることが懸念されています。「Music flamingo」は、楽曲を深く理解することで、感情や文化的な文脈を持つ音楽を高く評価するように設計されており、AIスロップのようなノイズを排除して好みの音楽を探すサポートが可能になるようです。