最注目ポイントはシンプルだ。「モデル単体の精度」から「長時間・長手順の完走力」へ。
Anthropicが公開したClaude Sonnet 4.5は、ブラウザ操作からVS Codeでの編集、スプレッドシート入力までを織り交ぜつつ、30時間超を自律的に走り切った。
しかも実働デモと一次資料で裏取りされている。
OSWorldで61.4%、SWE-bench Verified_77.2%(条件付きで82%まで伸び)という数値の裏側には、メモリ管理・編集API・チェックポイント・権限付きサブエージェント協調といった“運転基盤”の刷新が横たわる。
Anthropic+2The Verge+2
🔎 何が「4.5」を特別にしたのか:作業スタミナ×手戻り耐性の同時強化
Sonnet 4.5は、OSWorld(実PC操作タスク)で61.4%に到達。
わずか4か月前のSonnet 4(42.2%)からの飛躍は、単なる推論精度の上積みではなく、長時間の道具使用(ブラウザ/表計算/IDE)を破綻なく継続できるという性質の獲得を示す。
Anthropicの公式デモは、サイト遷移→データ抽出→表計算投入→検収までを“人間の作業感覚”で通しきる様子を提示した。
Anthropic
一方、SWE-bench Verifiedは77.2%を公称(長文コンテキストや並列試行を用いる高負荷設定では82%に到達と補足)。
ここで重要なのは、「一発の最適化」ではなく「数時間かけた完走の安定性」を設計前提に据えていることだ。
Anthropic
そして極め付きは30時間の自律稼働。
AxiosやVentureBeat、The Vergeの一次報道は、約1.1万行規模のアプリをゼロから構築した事例まで伝えている。
“7時間で息切れ”しやすかった従来世代からの質的転換だ。
Axios+2Venturebeat+2
🧱 製品面の大刷新:「道具の整地」が長距離走を可能にする
Claude Code
チェックポイント&即時ロールバック、刷新されたターミナル、ファイル生成・コード実行までを会話内で直扱い。
試行錯誤を恐れない設計が、手戻りコストを大幅に圧縮する。
TechRadar
ネイティブVS Code拡張/Chrome拡張
開発者が常用する生態系へ“無摩擦”で同居。
ブラウザ内のデータ取得・ナビ・自動化を対話から即時に。
Anthropic
APIメモリ&コンテキスト編集
長時間/多段のセッションでも、設計意図・履歴・一時仕様が崩れにくい。
Anthropic
これらは“モデルの強化”というより、「長距離の作業線」を最後まで通すための路面整備に近い。
🧩 Claude Agent SDK:Anthropic内製エンジンの外部開放
最大の横展開は、Anthropic社内でClaude Codeを支えるエージェント用ハーネスを公開した点だ。
マネージドVM、メモリモジュール、コンテキスト/編集API、許可制サブエージェント協調といった運用部品をまとめて開放。
これにより、誰でも「計画→実装→検証→パッチ棄却→再実行」の長手順を、権限ガード付きで回せる。
Claude Docs+1
CognitionはSonnet 4.5対応版のDevinを公開し、計画性能+18%/E2E+12%(社内指標)相当の改善を報告。
単に“強いモデルを挿す”ではなく、アーキテクチャをモデル側に合わせて再設計したと明かしている。
現場が感じた“違い”はここだ。
Cognition
💵 価格と配備:据え置きのまま標準ツール群へ常駐
価格
入力$3/100万トークン、出力$15/100万トークン(据え置き)。
公式価格表と開発者ドキュメントで整合。
Claude Docs+1
GitHub Copilot
Pro/Business/EnterpriseでSonnet 4.5が選択可能に。
Copilotのツールオーケストレーションや文脈編集の強化をGitHubが明言。
The GitHub Blog
Microsoft 365 Copilot
Excel/WordのAgent Modeなど“エージェント化”を前提とした新機能群に接続。
オフィスワークの長手順自動化へ。
The Times of India
「Anthropicの壁の内側」から「開発・オフィスの標準生態系」へ常駐し始めた意味は大きい。
🔐 セーフティ&解釈可能性:ASL-3と“中の人”を読む試み
AnthropicはSonnet 4.5を同社史上もっともアラインしたフロンティアモデルと位置付け、プロンプトインジェクション耐性の強化、CBRN(化学・生物・放射性・核)領域の高度フィルタ、迎合/欺瞞/権限逸脱の低減を公表。
システムカードには、行動監査の改善傾向が明記された。
TechRadar+1
さらに注目なのは、メカニスティック・インタープリタビリティで内部表現(推論の中身)を分析し、モデルが“テストされている状況”や“危険シグナル”をどう識別するかを探った点。
安全設計を“外付けの規制”でなく、内因的な表現の育成として進めている。
transformernews.ai
📈 ベンチマーク詳細:「点の正解」より「線の完遂」
- SWE-bench Verified
77.2%(10試行平均、bash+文字列置換編集の2ツール・スキャフォールド、推論枠20万トークン)。
高計算条件では82%に。
Anthropic - OSWorld Verified
61.4%(100ステップ上限、4回平均)。
実務寄り操作の伸びが顕著。
Anthropic - 評論
技術系の第三者まとめも、OSWorld 61.4%/SWE-bench上位という大勢観を支持。
thenewstack.io+1
(注:公開リーダーボードは評価条件・スキャフォールド差で数値が揺れる。一次ソースの評価前提(ツール・試行数・トークン枠)を合わせて読むのが実務的だ。)
SWE-bench
🏭 現場で何が変わるか:生産の最小単位が「コミット」から「完遂ブロック」へ
人間は「方向付け・重要判断・倫理と統制」を担い、AIは「継続・反復・依存関係の決着」を担う。
この新しい分業が、完成までの距離を縮める。設計→実装→テスト→パッチ棄却→再実行を夜間も止めずに回す体制が一般化すれば、PMの見積り単位は“人時”から「達成マイルストーン」課金へ移行していく。
金融の長文スクリーニングや法務の全件精査、SOCの脆弱性トリアージなど、「重いけれど並列できない」仕事は、AIの持久走で“待ち時間の総量”がごっそり削れる。
AWS Bedrockの採用記事も、脆弱性の事前パッチ適用や監査自動化への転用可能性を示唆した。
Amazon Web Services, Inc.
🥊 競合と立ち位置:「最長耐久の公開実演」で半歩先へ
GPT系/Gemini系/Grok系も指標は肉薄するが、30時間の自律稼働を公開実演し、SDK/IDE拡張/ブラウザ/オフィス/APIまで横断整備したのはSonnet 4.5の強み。
GitHub Copilotチームもマルチステップの理由づけやツール連携の強化を評価。開発者エコシステム側の“受け皿”が整っている。
The GitHub Blog
🧭 まとめ:「AI同僚」が時間を味方にする
- 30時間ノンストップで設計→実装→検収まで完遂(一次報道と公式デモで裏付け)。
The Verge+1 - OSWorld 61.4%/SWE-bench Verified 77.2%:実務寄りベンチでトップ級。
Anthropic - チェックポイント/メモリ/Agent SDK:長手順の手戻りを前提とした“運転基盤”を外部に開放。
Claude Docs+1 - 据え置き価格のまま、GitHub Copilot/Microsoft 365に広域配備。
Claude Docs+2The GitHub Blog+2 - ASL-3、解釈可能性の強化でエンタープライズ導入の心理的障壁を低減。
Anthropic Brand Portal+1
結局の分岐点はひとつ。あなたのチームは、「夜間バッチ」の隣に「夜間開発」を置けるか。
置けるなら、プロダクトの更新速度は一段跳ねる。
Sonnet 4.5は、“AIが続ける、人が決める”時代の到来を、数字と実演で証明してみせた。