最近、Google DeepMind が2つの画期的なAIモデルを発表しました。
一つは CodeMender、もう一つは Gemini 2.5 Computer Use です。
これらは、単なる補助的なAIツールを越えて、「AI自身が修正を行う」「画面を操作できる」という、より実用的で自律的な方向へとAIを進化させる試みです。
以下で、その特徴、仕組み、意義、課題を丁寧に見ていきます。
背景:ソフトウェア脆弱性とUI操作のボトルネック
現代のソフトウェアは膨大な行数を持ち、人手だけで全てのバグや脆弱性を検出・修正するのは実質的に困難です。
従来のツール(静的解析、ファジング、侵入テストなど)は有効ですが、根本原因を理解して修正を生成する レベルには到達していませんでした。
また、多くの Web サイトやアプリケーションでは UI(ユーザーインターフェース)経由で操作させる設計になっており、API が公開されていない場面が多くあります。
「画面を見て、クリック・入力・スクロールをする」ような操作を AI に任せられれば、定型操作や自動化の可能性が飛躍的に広がります。
このような文脈で、CodeMender(コード修正)と Gemini 2.5 Computer Use(UI操作)が登場しました。
CodeMender:概要と実績
DeepMind の公式ブログでの発表によれば、CodeMender は「AI エージェントによるコードセキュリティ改善ツール」です。
Google DeepMind
主な特徴と実績は以下の通りです:
- 過去 6 か月間で、オープンソースプロジェクトに対して 72件 のセキュリティ修正パッチを “upstream”(上流に戻す形)で提出した。
Google DeepMind+2TechRadar+2 - 修正対象のプロジェクトは、最大で 450 万行規模 のコードベースも含む。
Google DeepMind+1 - 単なる「脆弱性検出」だけではなく、根本原因の解析 → パッチ生成 → 自動検証 を統合的に行う点が特徴。
AI Business+3Google DeepMind+3CSO Online+3 - さらに、既存コードの安全化(脆弱性のクラスごとの除去)も目指しており、盲目的な修正ではなく「安全性の向上」も視野に入れている。
TechRadar+2Google DeepMind+2
DeepMind 側は、CodeMender を「人間を置き換えるもの」ではなく「人間と協調する補助的存在」と位置づけています。
Google DeepMind+2CSO Online+2
CodeMender の内部技術
なぜこの AI が「ただのバグチェックツール」を超えた動きをできるか、その技術的背景を見ておきましょう。
CodeMender は以下のような技術を統合しています:
- 静的解析(Static Analysis)
ソースコードを構文木や制御フローとして解析し、潜在的な危険箇所を洗い出す - 動的解析(Dynamic Analysis)
実行時の振る舞いをモニタリングし、実際の実行経路での異常を探す - ファジング(Fuzzing):意図的にランダム・異常入力を与えてクラッシュや異常反応を誘発
- 差分テスト(Differential Testing)
複数バージョンや複数実装間で振る舞いの違いを比較 - SMT ソルバ(Satisfiability Modulo Theories Solver)
条件論理を解かせ、変数の制約条件を満たす修正案を導出
これらを統合することで、CodeMender は「どこで何が壊れているか」「どうすれば安全に修正できるか」を高度に推論できるようになります。
TechRadar+3CSO Online+3Google DeepMind+3
また、CodeMender はマルチエージェント構造を採っていて、修正案を評価する「コード批評エージェント」など、専門のサブエージェントがそれぞれの役割を担います。
Google DeepMind+1
これにより、「修正案が元の機能を破壊していないか?」「スタイル/コーディング規則に準拠しているか?」などもチェックできるようになっています。
Google DeepMind+1
パッチ生成と検証の流れ
CodeMender が修正を “提出” するまでの一連の流れを見ておきます。
重要なのは、人間レビューとの関係性も含めて設計されている点です。
- 脆弱性の発見
静的解析、ファジング、差分テストなどで問題の候補を検出 - 根本原因の分析
データフロー、呼び出し関係、変数制約などをたどって、どこで期待通りの動作が崩れているかを特定 - 修正案の生成
SMT ソルバや差分テストの結果を元に、最小限かつ安全な修正案を設計 - 自動検証
既存のテストスイートおよび追加テストを通じて、修正後に機能が壊れていないか・リグレッションがないかを確認 - 内部批評
修正案をサブエージェントが批評し、もし不適切と判断されれば自動で修正をやり直す - パッチ提出
最終的に品質を満たす修正を human maintainer(プロジェクトの管理者)へレビュー用パッチとして提出 - マージ判断
人間のレビューを受けた後、問題なければリポジトリに統合される
この流れによって、CodeMender は「人間に丸投げ」ではなく、人間との協調を前提とした設計になっています。
Google DeepMind+2CSO Online+2
成功事例:libwebp など
実際に CodeMender が扱った例を見てみると、その実力がより鮮明になります。
libwebp(画像圧縮ライブラリ)
2023年にゼロデイ脆弱性(バッファオーバーフロー)が発見された事例があります。
CodeMender はこの箇所に対して、-fbounds-safety というコンパイラ注釈を挿入する修正を行い、バッファ境界チェックを強化する形で脆弱性を封じました。
AI Business+3TechRadar+3CSO Online+3
このような修正があれば、仮にこのチェックが初期から有効だったなら、過去の iOS の攻撃も防げた可能性がある、との主張もなされています。 TechRadar+1
XML スタック管理のバッファオーバーフロー
別の例では、XML 処理のスタック管理に起因するヒープバッファオーバーフローが発見されました。
人間の目では見落としやすい問題でしたが、CodeMender は根本部分にあるメモリ管理の不整合を突き止め、数行の修正で再発を防止しました。
Google DeepMind+2TechRadar+2
こうした例は、CodeMender が「難読化された脆弱性」をただ単に検出するだけでなく、意味的に理解して修正可能なレベルまで踏み込める ことを示しています。
プロアクティブなコード強化
CodeMender の面白い点は、既存コードをより安全な構造に書き換える 能力を持つ点です。
つまり、発見された脆弱性をただ直すだけでなく、「将来の攻撃手法を事前に排除する」ことも目指しています。
Google DeepMind+2TechRadar+2
例えば、安全性の低いデータ構造を安全構造に書き換えたり、コンパイラレベルの保護(前項の -fbounds-safety 注釈など)を挿入したりすることがあります。
これにより、同じ種類のバグが将来発生しにくくなります。
また、CodeMender は修正後の関数について、別の LLM(テスト/ジャッジモデル)に「振る舞いが変わっていないか」を評価させる、という高度な相互検証も行います。
もし逸脱が認められれば、自動的に修正を繰り返します。
Google DeepMind+1
こうした処理は、「AI ペアプログラマ」が人間のレビューに渡す前に安全な変更を担保しているようなイメージです。
Gemini 2.5 Computer Use:概要
次に、UIを「直接操作」できる AI、Gemini 2.5 Computer Use について見ていきます。
これは、AI が「コンピュータを使う」能力を持つことを目指すモデルです。
CSO Online+3blog.google+3Google AI for Developers+3
このモデルを使うと、AI はブラウザ操作、フォーム入力、スクロール、ドラッグなどを画面を見ながら自律的に行えるようになります。
これは単なる API 呼び出しではなく、人間が画面を操作するように振る舞う AI という点が革新的です。
blog.google+2The Verge+2
DeepMind はこのモデルを Gemini API を通じて開発者にプレビュー提供しており、Google AI Studio や Vertex AI 上で統合できるとしています。
blog.google+2Google AI for Developers+2
UI操作モデルの仕組み
Gemini 2.5 Computer Use は、次のようなループ設計で動きます。
Google Cloud+4blog.google+4Google AI for Developers+4
- 入力
ユーザーの指示(例:「このサイトで新規会員登録を行ってほしい」)+スクリーンショット(現在の画面)+過去の操作履歴 - 解析と推論
モデルがスクリーンショットと指示をもとに「どこをクリック/入力/スクロールすべきか」を判断 - 関数呼び出しとしての出力
たとえばclick(x, y)、type("text", field_id)、scroll(direction)などの関数呼び出し形式で返す - 実行
クライアント側(ブラウザ操作ライブラリなど)がその関数を実行し、画面に反映 - 状態更新
新しいスクリーンショットと URL を取得し、次のサイクルへ戻る - 終了条件
タスク完了、エラー、安全制約トリガーなどでループを終了
このループ方式により、モデルは段階的・双方向的にユーザーの意図に沿った操作を進めていきます。
blog.google+2Google AI for Developers+2
対応アクションと制限
Gemini 2.5 Computer Use には、現在サポートされている UI 操作が定義されています。
SiliconANGLE+4blog.google+4Google AI for Developers+4
主な対応操作には以下が含まれます:
- クリック(マウスで要素を選択)
- テキスト入力(フォームやフィールドへの文字入力)
- スクロール(縦/横スクロール)
- ドロップダウンメニュー操作
- 要素のドラッグ&ドロップ
- 画面内の要素探査・識別
ただし、制限も明確です:
- ブラウザベースの環境に最適化されており、OS 級の操作(ファイル操作、ウィンドウ制御など)は未対応 とされています。
Google Cloud+3blog.google+3The Verge+3 - 現在のプレビュー段階であり、誤操作や誤判断、セキュリティリスクにも注意が必要とされています。
Google Cloud+2Google AI for Developers+2 - 開発者側が安全制約を定め、承認が必要な操作(例:購入処理、システム設定変更など)には人間確認を挟む設計も可能です。
blog.google+2Google AI for Developers+2
このように、現時点では「ブラウザ操作を中心とする UI タスク」にフォーカスしており、汎用 OS 操作までは踏み込んでいません。
パフォーマンスとベンチマーク
DeepMind 側および外部評価機関によるベンチマーク結果が公開されており、Gemini 2.5 Computer Use は他の UI 操作モデルと比較して優秀な成績を示しています。
SiliconANGLE+4blog.google+4Google AI for Developers+4
- 多くのベンチマーク(Online-Mind2Web、WebVoyager、AndroidWorld など)で他モデルを上回る成果を出していると主張されています。
The Times of India+3blog.google+3The Verge+3 - 精度(成功率)は 70%超、平均レイテンシはタスクあたり約 225 秒前後との報告もあります。
blog.google+2The Verge+2 - 独立評価(Browserbase や他機関)でも、他社エージェントと比べて高速かつ高精度という評価が出ています。
SiliconANGLE+3The Verge+3Venturebeat+3
ただし、このような評価は「典型的な UI タスク」に基づくものであり、複雑な長い操作や多段階処理での性能は今後の課題となりそうです。
安全性と制御機構
AI による画面操作には、誤動作や悪用リスクがあります。DeepMind 側はそうしたリスクに対処するために、次のような安全制御を導入しています。
Google Cloud+3blog.google+3Google AI for Developers+3
- ステップごとの安全チェック(per-step safety service)
モデルが提案する操作に対して、安全性を評価する仕組みを挟む - システム命令(system instructions)
開発者が「これは自動でやらせない」「ユーザーの確認を要求する」仕様を定義できる - 操作制限・承認モデル
支払い操作、重要設定変更などは自動で行わず、ユーザーの明示的承認を必須とする - プロンプト攻撃/注入防止
Web環境における悪意ある誘導やスクリプト操作を防ぐ設計も検討されている blog.google+1
さらに、Gemini API のドキュメントでも、「プレビュー段階であるため、重要操作や機密データを扱う用途には注意して使うべき」と明記されています。
Google Cloud
これら制御機構がなければ、AI による UI 操作はセキュリティリスクを伴う可能性があります。
DeepMind はこの点を慎重に設計しているようです。
応用事例とデモ
DeepMind や外部報道が紹介している、Gemini 2.5 Computer Use のデモ・応用例をいくつか挙げます。
- ペットケアサイト → CRM 登録 → フォローアップ予約
例示されたプロンプトでは、ペットケア関連サイトからカリフォルニア在住ペット情報を抽出し、それをスパの CRM システムに登録。
さらに専門医訪問予約を 10月10日 8時以降に入れる、という一連操作を自動でこなすデモが紹介されています。
blog.google+1 - 付箋ノートを整理する UI 操作
オンラインの付箋ボード上で、指定されたカテゴリごとにノートをドラッグして整理する操作を自律実行するデモもあります。
blog.google+1 - UI テスト自動化
Google 内部では、プロダクト開発時の UI テストやワークフロー回復(“壊れた UI テストを自動復帰させる”)への応用を開始していると報じられています。
The Verge+2The Times of India+2 - 他社での評価
ある企業では、Gemini 2.5 Computer Use の導入で従来より 50% 速く・信頼性高くタスク遂行できたとの報告も。
The Verge+1
これらはまだ初期段階のデモですが、「AI が Web を操作し、人間の代わりに手続きを完結できる」未来像を示しています。
課題と限界
非常に期待が持てる技術ですが、現時点ではいくつか明確な制約・課題もあります。
- 多段階・複雑タスクの安定性
複数ページを跨いだ遷移や条件分岐を含む操作では、誤動作やフリーズするケースも報告されています。
The Verge+1 - 言語・ローカライゼーション依存
UI 表示やテキスト言語が変わると、視覚認識や要素識別が崩れるリスクがあります。 - OS レベルの操作非対応
ファイル操作、ウィンドウ制御、ローカルアプリ操作などはまだ扱えません。
blog.google+2The Verge+2 - 誤操作/セキュリティリスク
操作ミス、意図せぬクリック、内部遷移ミスなどが起きうるため、常時モニタリングや制御が不可欠 - コストとスケーラビリティ
処理時間、API 使用量、計算リソースなどがボトルネックになる可能性 - 信頼性と一般化能力
学習データに含まれない未知の UI や構造変化には弱く、汎用性能確保が難題
これらを克服できれば、より汎用的・強力な AI UI エージェントが生まれるでしょう。
今後の展望と影響
CodeMender や Gemini 2.5 Computer Use は、AI 技術の応用範囲を「理解」から「操作」へと拡張するものです。
以下、将来における影響を見ておきます。
- 開発プロセスの変革
AI がコードのバグ修正・強化を担うようになれば、人間開発者はより企画・設計・高レベルロジックに集中できるようになります。 - セキュリティ体制の強化
脆弱性が発見された後の対処速度を飛躍的に上げられれば、悪用リスクを低く抑えられます。 - エージェント型 AI の普及
画面操作可能な AI を基盤とする「マルチ操作型エージェント」が、さまざまな業務領域で活躍する可能性があります。 - AI vs AI の競争場面
悪意ある攻撃 AI に対して、防御 AI が先手を打てるようになるかもしれません。
DeepMind もその危機意識を示しています。
TechRadar+1 - 規制・倫理・安全の議論
AI に操作させる「許可範囲」「信頼性検査」「誤操作リスク」などが、法律・制度上の議論に発展する可能性があります。 - 次世代の OS 制御 AI
将来的には、ブラウザ操作を超えて、ローカル OS やハードウェア制御可能な AI が登場するかもしれません。
まとめ
- DeepMind の CodeMender は、AI がコードの脆弱性を 理解して修正 できるエージェントであり、すでに大規模なオープンソースプロジェクトに対して有効なパッチを提出しています。
AI Business+3Google DeepMind+3CSO Online+3 - Gemini 2.5 Computer Use は、AI が画面を見て操作できるモデルであり、ブラウザ・モバイルの UI タスクを人間のようにこなす能力を持っています。
SiliconANGLE+3blog.google+3Google AI for Developers+3 - これらは単なる補助ツールを超え、「AI が自律的に操作できる」時代の入口を示しています。
ただし、多段階タスクでの精度、セキュリティの安全性、汎用性などにはまだ課題が残ります。 - 将来的には、これらの技術がソフトウェア開発、セキュリティ防御、ビジネスワークフロー自動化などに広く浸透し、AI と人の協働体制が根本から変わる可能性があります。
FAQ(よくある質問と回答)
Q1. CodeMender は完全に人間を代替するの?
A. いいえ。
DeepMind は「人間のレビューなしではマージしない」「補助的な存在」という位置付けを強調しています。
Google DeepMind+1
Q2. Gemini 2.5 Computer Use はどこまで操作できる?
A. 現時点ではブラウザ・モバイル UI が主対象。
デスクトップ OS レベルの操作(ファイル操作やウィンドウ移動など)は未対応です。
blog.google+2The Verge+2
Q3. 安全性、誤操作のリスクは大丈夫?
A. 各ステップで安全チェックを挟む仕組みや、重要操作にはユーザー確認を要求する制御も可能なので、設計次第でリスクを抑えられます。
blog.google+2Google AI for Developers+2
Q4. 他の AI 操作モデルと比べて優れている点は?
A. ベンチマーク上で中央値以上の精度・速度を示しており、遅延・成功率のバランスが良いとの評価があります。
SiliconANGLE+3blog.google+3The Verge+3
Q5. どのような業務に応用できる?
A. UI テスト、定型入力、自動データ取得、Web フォーム処理、ワークフロー自動化など、画面操作が主体の業務に有望です。
Q6. 日本語・多言語 UI に対応できる?
A. 現時点では言語変化・UI ローカライズへの対応は課題になる可能性があります。
モデルの訓練データや視覚認識能力に依存します。
結論
今回紹介した CodeMender と Gemini 2.5 Computer Use は、AI が「理解」から「操作」へと一歩踏み出す転換点と言えるでしょう。
CodeMender によってソフトウェアの脆弱性修正を自動化し、Gemini 2.5 Computer Use によって UI 操作を AI に任せられるようになると、私たちの仕事のやり方、システムの設計、セキュリティ防御の形は大きく変わる可能性があります。
もちろん、現状には限界とリスクもありますが、これらは「実験段階」ではなく「応用可能性」を見せ始めた技術です。
次世代 AI エージェントの可能性を感じさせる発表と言えるでしょう。


コメント