Claude Sonnet 4.5徹底解剖：30時間ノンストップ開発が現実になった日──長距離エージェント時代の幕開け 🛠️⚡

2025年10月1日

最注目ポイントはシンプルだ。「モデル単体の精度」から「長時間・長手順の完走力」へ。

Anthropicが公開したClaude Sonnet 4.5は、ブラウザ操作からVS Codeでの編集、スプレッドシート入力までを織り交ぜつつ、30時間超を自律的に走り切った。
しかも実働デモと一次資料で裏取りされている。
OSWorldで61.4%、SWE-bench Verified_77.2%（条件付きで82%まで伸び）という数値の裏側には、メモリ管理・編集API・チェックポイント・権限付きサブエージェント協調といった“運転基盤”の刷新が横たわる。
Anthropic+2The Verge+2

🔎 何が「4.5」を特別にしたのか：作業スタミナ×手戻り耐性の同時強化

Sonnet 4.5は、OSWorld（実PC操作タスク）で61.4%に到達。
わずか4か月前のSonnet 4（42.2%）からの飛躍は、単なる推論精度の上積みではなく、長時間の道具使用（ブラウザ／表計算／IDE）を破綻なく継続できるという性質の獲得を示す。
Anthropicの公式デモは、サイト遷移→データ抽出→表計算投入→検収までを“人間の作業感覚”で通しきる様子を提示した。
Anthropic

一方、SWE-bench Verifiedは77.2%を公称（長文コンテキストや並列試行を用いる高負荷設定では82%に到達と補足）。
ここで重要なのは、「一発の最適化」ではなく「数時間かけた完走の安定性」を設計前提に据えていることだ。
Anthropic

そして極め付きは30時間の自律稼働。
AxiosやVentureBeat、The Vergeの一次報道は、約1.1万行規模のアプリをゼロから構築した事例まで伝えている。
“7時間で息切れ”しやすかった従来世代からの質的転換だ。
Axios+2Venturebeat+2

🧱 製品面の大刷新：「道具の整地」が長距離走を可能にする

Claude Code

チェックポイント＆即時ロールバック、刷新されたターミナル、ファイル生成・コード実行までを会話内で直扱い。
試行錯誤を恐れない設計が、手戻りコストを大幅に圧縮する。
TechRadar

ネイティブVS Code拡張／Chrome拡張

開発者が常用する生態系へ“無摩擦”で同居。
ブラウザ内のデータ取得・ナビ・自動化を対話から即時に。
Anthropic

APIメモリ＆コンテキスト編集

長時間／多段のセッションでも、設計意図・履歴・一時仕様が崩れにくい。
Anthropic

これらは“モデルの強化”というより、「長距離の作業線」を最後まで通すための路面整備に近い。

🧩 Claude Agent SDK：Anthropic内製エンジンの外部開放

最大の横展開は、Anthropic社内でClaude Codeを支えるエージェント用ハーネスを公開した点だ。
マネージドVM、メモリモジュール、コンテキスト／編集API、許可制サブエージェント協調といった運用部品をまとめて開放。
これにより、誰でも「計画→実装→検証→パッチ棄却→再実行」の長手順を、権限ガード付きで回せる。
Claude Docs+1

CognitionはSonnet 4.5対応版のDevinを公開し、計画性能+18%／E2E+12%（社内指標）相当の改善を報告。
単に“強いモデルを挿す”ではなく、アーキテクチャをモデル側に合わせて再設計したと明かしている。
現場が感じた“違い”はここだ。
Cognition

💵 価格と配備：据え置きのまま標準ツール群へ常駐

価格

入力$3／100万トークン、出力$15／100万トークン（据え置き）。
公式価格表と開発者ドキュメントで整合。
Claude Docs+1

GitHub Copilot

Pro／Business／EnterpriseでSonnet 4.5が選択可能に。
Copilotのツールオーケストレーションや文脈編集の強化をGitHubが明言。
The GitHub Blog

Microsoft 365 Copilot

Excel／WordのAgent Modeなど“エージェント化”を前提とした新機能群に接続。
オフィスワークの長手順自動化へ。
The Times of India

「Anthropicの壁の内側」から「開発・オフィスの標準生態系」へ常駐し始めた意味は大きい。

🔐 セーフティ＆解釈可能性：ASL-3と“中の人”を読む試み

AnthropicはSonnet 4.5を同社史上もっともアラインしたフロンティアモデルと位置付け、プロンプトインジェクション耐性の強化、CBRN（化学・生物・放射性・核）領域の高度フィルタ、迎合／欺瞞／権限逸脱の低減を公表。
システムカードには、行動監査の改善傾向が明記された。
TechRadar+1

さらに注目なのは、メカニスティック・インタープリタビリティで内部表現（推論の中身）を分析し、モデルが“テストされている状況”や“危険シグナル”をどう識別するかを探った点。
安全設計を“外付けの規制”でなく、内因的な表現の育成として進めている。
transformernews.ai

📈 ベンチマーク詳細：「点の正解」より「線の完遂」

SWE-bench Verified
77.2%（10試行平均、bash＋文字列置換編集の2ツール・スキャフォールド、推論枠20万トークン）。
高計算条件では82%に。
Anthropic
OSWorld Verified
61.4%（100ステップ上限、4回平均）。
実務寄り操作の伸びが顕著。
Anthropic
評論
技術系の第三者まとめも、OSWorld 61.4%／SWE-bench上位という大勢観を支持。
thenewstack.io+1

（注：公開リーダーボードは評価条件・スキャフォールド差で数値が揺れる。一次ソースの評価前提（ツール・試行数・トークン枠）を合わせて読むのが実務的だ。）
SWE-bench

🏭 現場で何が変わるか：生産の最小単位が「コミット」から「完遂ブロック」へ

人間は「方向付け・重要判断・倫理と統制」を担い、AIは「継続・反復・依存関係の決着」を担う。
この新しい分業が、完成までの距離を縮める。設計→実装→テスト→パッチ棄却→再実行を夜間も止めずに回す体制が一般化すれば、PMの見積り単位は“人時”から「達成マイルストーン」課金へ移行していく。

金融の長文スクリーニングや法務の全件精査、SOCの脆弱性トリアージなど、「重いけれど並列できない」仕事は、AIの持久走で“待ち時間の総量”がごっそり削れる。
AWS Bedrockの採用記事も、脆弱性の事前パッチ適用や監査自動化への転用可能性を示唆した。
Amazon Web Services, Inc.

🥊 競合と立ち位置：「最長耐久の公開実演」で半歩先へ

GPT系／Gemini系／Grok系も指標は肉薄するが、30時間の自律稼働を公開実演し、SDK／IDE拡張／ブラウザ／オフィス／APIまで横断整備したのはSonnet 4.5の強み。
GitHub Copilotチームもマルチステップの理由づけやツール連携の強化を評価。開発者エコシステム側の“受け皿”が整っている。
The GitHub Blog

🧭 まとめ：「AI同僚」が時間を味方にする

30時間ノンストップで設計→実装→検収まで完遂（一次報道と公式デモで裏付け）。
The Verge+1
OSWorld 61.4%／SWE-bench Verified 77.2%：実務寄りベンチでトップ級。
Anthropic
チェックポイント／メモリ／Agent SDK：長手順の手戻りを前提とした“運転基盤”を外部に開放。
Claude Docs+1
据え置き価格のまま、GitHub Copilot／Microsoft 365に広域配備。
Claude Docs+2The GitHub Blog+2
ASL-3、解釈可能性の強化でエンタープライズ導入の心理的障壁を低減。
Anthropic Brand Portal+1

結局の分岐点はひとつ。あなたのチームは、「夜間バッチ」の隣に「夜間開発」を置けるか。
置けるなら、プロダクトの更新速度は一段跳ねる。
Sonnet 4.5は、“AIが続ける、人が決める”時代の到来を、数字と実演で証明してみせた。

よかったらシェアしてね！

コメント一覧（1件）

phwin8 より:

2026年1月8日 8:56 AM

Anyone had any good wins on ‘phwin8’ lately? Looking for a new spot with some decent payouts. Let me know your experiences!

返信