Gemini 3.5 FlashのComputer Use徹底解説。PC操作をAIが代行する時代

SNS運用を自動化しませんか？

ThreadPostなら、投稿作成・画像生成・スケジュール管理までAIがサポート。

無料で始める

AIが「画面を見て、操作する」のが当たり前になる日

Gemini 3.5 FlashにComputer Use（コンピュータ操作機能）がネイティブ実装された。これまでは特定の実験用モデルでしか使えなかった機能が、メインストリームの高速モデルに統合された。

これはAIが「APIを通じてデータをやり取りする存在」から、「人間と同じように画面を見て、マウスを動かし、キーボードを叩く存在」に変わったことを意味する。

3.5 Flashという軽量・高速なモデルにこの機能が載った。低遅延で、なおかつ安価に、PCやスマホをAIが操作し続ける未来が始まった。

Gemini 3.5 FlashへのComputer Use統合によるパラダイムシフト

ネイティブ統合されたComputer Useがもたらす変化

今回のアップデートで、Computer UseがGemini 3.5 Flashの標準ツールになった。これまでは専用のモデルを呼び出す必要があったが、今後はGemini APIを通じて、通常の推論の流れの中で自然にコンピュータ操作を実行できる。

ブラウザの操作、モバイルアプリの制御、デスクトップ環境でのアクション。これらすべてを、AIが「視覚的に」認識して実行する。

エンタープライズ領域での活用が進む。例えば、継続的なソフトウェアテスト。人間が手動で確認していたUIテストを、AIが画面を見ながら進める。複数のプロフェッショナル向けアプリを跨いだナレッジワークの自動化も可能だ。「ブラウザで調べた内容をエクセルにまとめ、特定の社内システムに入力する」といった作業が、AIエージェントの仕事になる。

セキュリティ対策も実装された。敵対的学習によってプロンプトインジェクションへの耐性を高め、エンタープライズ向けのセーフガードも用意された。実行環境をサンドボックス化し、人間が最終確認を行うHuman-in-the-loopの設計が推奨されている。

しんたろー：
Flashモデルに載せてきたか。2.5の時は実験的な印象だったが、3.5 Flashへの統合は普及を狙った動きに見える。反応速度が重要なComputer Useにおいて、Flashの軽さは武器になるはずだ。

ソフトウェアを「使い倒す」AIエージェントの正体

AIが進化すると「既存のソフトウェアは不要になる」という意見がある。しかし、GPUメーカーのCEOは、その考えを「馬鹿げている」と一蹴した。

彼の主張は明快だ。「AIがソフトウェアを破壊するのではない。AIエージェントが既存のソフトウェアを操作するインターフェースになるのだ」と。例え話がある。「どれだけ賢い人型ロボットが誕生しても、指先からマイクロ波を出して料理をするようにはならない。既存の電子レンジの使い方をネットで調べて、ボタンを押して使うはずだ」。

AIはソフトウェアを置き換えるのではなく、「最も洗練されたユーザー」としてソフトウェアを使いこなす。このパラダイムシフトに合わせて、ハードウェアの設計思想も変化している。

最新のAIエージェント専用サーバーラックは、5つの専門ラックで構成されている。1. エージェントを走らせるためのサンドボックス用CPUラック。2. 膨大な文脈（KVキャッシュ）を保持するための超大容量ストレージラック。3. 超低遅延で推論を回すための専用チップラック。これらはすべて、AIが「ツールを叩きまくる（Bang on tools）」ことを前提に設計されている。

しんたろー：
「AIが電子レンジのボタンを押す」という比喩は納得感がある。開発者が作るべきは、AIに取って代わられるツールではなく、「AIが使いやすいツール」だ。インフラ側がエージェント実行に振り切っているのを見ると、GUI操作の自動化も加速するだろう。

ここまで読んだあなたに

今なら無料で全機能をお試しいただけます。設定後はAIが投稿案を毎日生成。確認して選ぶだけ。

無料で始める

AI時代の「マルチタスク」と管理の壁

AIエージェントが普及すると、働き方は「並列化」していく。Claude Codeを複数立ち上げて、片方で調査をさせながら、もう片方でコードを書かせる動きが日常になっている。

人間はマルチタスクが苦手で生産性が40%低下すると言われてきた。しかし、最新の研究では「自分はマルチタスクをしている」と認識している時の方が、集中力やパフォーマンスが向上するというデータもある。AIを相棒にすることで、オーケストレーションという新しい形のマルチタスクに適応し始めている。

課題も明確だ。今のAIは「入力」や「実行」は得意だが、「タスクの管理」は人間に依存している。Googleのエコシステムを活用すれば、音声でタスクを放り込み、カレンダーと連携させることはできる。でも、「どのタスクを優先すべきか」「このタスクにはどれくらいの時間がかかるか」という判断をAIに丸投げするのは難しい。

AIに指示を出すためのコンテキストを入力する手間が、自分でやる手間を上回ってしまう。これを解決するには、AIが自律的に動くための「管理ロジック」を開発者が設計する必要がある。

しんたろー：
Claude Codeに複数の仕事を投げると、今どれがどうなっているか把握するのが難しくなる。AIがPCを操作してくれるようになっても、進捗管理を人間が手動でやってたら本末転倒だ。状況を構造化して報告する能力がエージェントには求められる。

開発者が意識すべき「エージェントフレンドリー」な設計

AIがComputer Useを通じてPCを操作する時代、開発者は「AIが操作しやすいUI/UX」を意識する必要がある。

セマンティックなマークアップの徹底。AIは画面を「視覚」だけでなく「構造」でも理解する。ボタンに適切なラベルがあるか、階層構造が正しいかが重要になる。
サンドボックス環境の標準化。AIにPC操作を任せる以上、隔離されたコンテナや仮想マシンの中でエージェントを走らせる。バックエンド開発においても、エージェントが安全に試行錯誤できる「遊び場」を提供することが重要だ。
メタデータの構造化。AIにタスクを管理させるには、自然言語だけでなくJSONなどの構造化データで制約条件を渡す仕組みが必要だ。優先度や締切といった情報を、AIが自然に扱えるようなパイプラインを設計する。

これからの開発者は、「人間が使うためのコード」を書くだけでなく、「AIがツールを使いこなすための道筋」を整える役割を担う。

Computer Useとエージェント活用に関するFAQ

Q1: GeminiのComputer Useを導入する際、セキュリティ上の最大のリスクは何ですか？

最大の懸念は、プロンプトインジェクションによる意図しない操作の実行だ。悪意のあるプロンプトが埋め込まれたウェブサイトをAIが閲覧した際、PC内のファイルを削除したり、外部にデータを送信したりするリスクがある。サンドボックス環境での実行、人間による承認プロセス、および操作可能なアプリケーションへの厳格なアクセス権限設定を組み合わせる多層防御が不可欠だ。

Q2: AIエージェントがタスク管理を自律的に行うには、現状何が足りないのですか？

現状のAIは実行は得意だが、複数のタスク間の依存関係や緊急度をリアルタイムで判断するメタ管理のコンテキストが不足している。AIに管理を任せるには、タスクの制約条件を構造化データとしてAIに渡す仕組みが必要だ。AIの判断が間違っていた時に人間が即座に修正し、それを学習させるフィードバックループの構築も必要になる。

Q3: AIエージェント専用のハードウェアが必要になるのはなぜですか？

AIエージェントは思考の試行錯誤を繰り返すため、推論回数が増える。また、画面情報を常に処理する場合、KVキャッシュの量が膨大になり、従来のサーバーではメモリ不足に陥る。そのため、超低遅延の推論チップや、エージェントを隔離して実行するための専用CPU、キャッシュを高速に読み書きするための専用ストレージを統合したインフラ設計が求められている。