AutoAgentの登場でAI開発からコードを書く作業が消える理由。人間はベンチマーク設計に専念する

一晩でスコアが96.5%に到達した。

人間はコードを1行も書いていない。

メタエージェントが自律的にエージェントを最適化する。

開発者の仕事は「コードを書くこと」から完全に消滅する。

これは大げさな話ではない。

僕らの目の前で起きている。

AI開発のパラダイムは、根底から覆った。

一晩でスコアが96.5%に到達した。

人間はコードを1行も書いていない。

僕の昨日の徹夜作業は完全に無駄になった。

SNS運用を自動化しませんか？

ThreadPostなら、投稿作成・画像生成・スケジュール管理までAIがサポート。

無料で始める

泥臭いプロンプト調整の終焉

最近、エージェント開発の常識を破壊する新しい仕組みが登場した。

それは、AIに別のAIを開発・最適化させるというアプローチだ。

これまで、エージェント開発は泥臭い作業の連続だった。

誰もが以下のような単純作業を経験しているはずだ。

* システムプロンプトを書く

* ベンチマークを回す

* 失敗のログを読む

* プロンプトを微調整する

* ツールを追加する

* また実行する

これを数十回繰り返して、ようやく少しだけ精度が上がる。

これは単なる単純作業だ。

しかし、今は全く違う。

Kevin Guがthirdlayer.incで開発したAutoAgentというオープンソースライブラリが登場した。

メタエージェントにタスクを与えれば、24時間で自律的に改善ループを回す。

プロンプト、ツール定義、ルーティングロジックをAI自身が直接書き換える。

ベンチマークを実行し、スコアが上がれば変更を保持する。

下がれば破棄して、別の変更を試す。

この手法は、機械学習のモデル学習ループに非常に似ている。

モデルの重みを最適化する代わりに、エージェントの構成そのものを最適化する。

人間が直接ファイルを編集することは二度とない。

人間は方向性を指示するファイルだけを管理する。

驚異的なのは、この自律ループによって圧倒的なスコアを叩き出したことだ。

SpreadsheetBenchで96.5%を出し、1位を獲得した。

僕の書いたコードよりはるかに優秀で泣けてくる。

TerminalBenchでも55.1%を記録し、GPT-5の最高スコアを達成した。

AutoAgentは「エージェントエンジニアリングのための自動リサーチ」と表現されている。

GitHubリポジトリの構造も非常にシンプルだ。

agent.pyはテスト対象のハーネス全体を1つのファイルに収めている。

設定、ツール定義、エージェントレジストリ、ルーティング、オーケストレーションが含まれる。

アダプター部分は固定されており、残りの部分がメタエージェントの主な編集対象となる。

人間が編集するのはprogram.mdだけだ。

ここにはメタエージェントへの指示と、どのようなエージェントを構築するかのディレクティブが含まれる。

人間と機械の関心事の分離が明確に行われている。

人間はprogram.mdで方向性を設定する。

メタエージェントはそれを読み取り、agent.pyを検査し、ベンチマークを実行する。

失敗の原因を診断し、agent.pyの関連部分を書き換えて、再度実行する。

実験の履歴はresults.tsvというログファイルに自動的に記録される。

メタエージェントはこれを見て、次に何を試すべきかを学習し、調整する。

プロジェクトにはDockerfile.baseや、再利用可能なプロンプトを保存する.agent/ディレクトリもある。

ベンチマークのペイロードを格納するtasks/フォルダや、出力用のjobs/ディレクトリも用意されている。

評価指標はベンチマークのタスクテストスイートが算出する合計スコアだ。

メタエージェントはこのスコアを指標にして、山登り法で最適化を進める。

各タスクはHarborフォーマットで表現されている。

tasks/my-task/の下に配置され、タイムアウトなどを設定するtask.tomlが含まれる。

エージェントに送信されるプロンプトはinstruction.mdに記述される。

tests/ディレクトリには、スコアを/logs/reward.txtに書き込むtest.shがある。

検証には決定論的なチェックか、LLM-as-judgeを使用するtest.pyが使われる。

LLM-as-judgeのパターンは非常に興味深い。

単なる文字列一致のような決定論的なチェックだけではない。

別のLLMを使って、エージェントの出力が「十分に正しいか」を評価する。

これは、正解が単純な文字列一致に還元できないエージェントのベンチマークでよく使われる手法だ。

一方で、エンタープライズ向けの堅牢なフレームワークも進化を続けている。

Microsoft Agent FrameworkのようなC#ベースの堅牢な基盤では、型安全なステート管理やセッションの永続化が徹底されている。

AIAgentクラスは全エージェントの抽象基底クラスだ。

ChatClientAgentが主要な具象実装であり、IChatClientをラップしてエージェントとして振る舞わせる。

主要なプロパティにはId、Name、Descriptionがある。

IdはデフォルトでGUIDのNフォーマットが自動生成される。

IdCoreプロパティをオーバーライドすればカスタムIDを指定できる。

RunAsyncメソッドには4つのオーバーロードがある。

内部的にはすべて複数メッセージの処理に統一されている。

RunStreamingAsyncも同様に4つのオーバーロードが用意されている。

セッション周りではCreateSessionAsyncでセッションを作成する。

SerializeSessionAsyncやDeserializeSessionAsyncでセッション全体をJSONに永続化・復元できる。

GetService<T>を使えばサービスディスカバリが可能だ。

エージェントに登録したAIContextProviderなどのインスタンスを取得できる。

AgentSessionは会話ごとのステートコンテナだ。

その中にStateBagというキーバリューストアを持っている。

StateBagはAgentSessionStateBag型だ。

SetValue<T>で保存し、TryGetValue<T>やGetValue<T>で取得する。

TryRemoveValueで削除ができる。

内部はConcurrentDictionaryなのでスレッドセーフだ。

JSONシリアライズにも対応している。

セッションをシリアライズするとStateBagの中身も一緒に保存される。

ProviderSessionState<TState>はこのStateBagのラッパーだ。

AIContextProviderが型安全にセッションスコープの状態を管理するためのヘルパーとして機能する。

人間が厳密に設計し、管理するアプローチだ。

ここでは、AIの気まぐれな挙動は許されない。

さらに、最前線の開発現場では、AIをチームメンバーとして扱う手法が確立しつつある。

複数のAIを役割ごとに配置する。

PM役のAIに要件定義をさせ、エンジニア役のAIにコードを書かせる。

人間はマネジメントに徹する。

この手法により、個人開発でも重厚なアーキテクチャを構築できるようになっている。

これらの動きを総合すると、一つの明確なトレンドが見えてくる。

開発の抽象度が、上昇している。

人間が内部ロジックを実装する段階は完全に終わった。

AIエディタをマネジメントする段階すら、過去になろうとしている。

これからは、AI自身がエージェントを自動最適化する段階だ。

※この記事は、Claude Codeで1人SaaS開発しているしんたろーが、海外AI最新情報を開発者目線で解説する「AI活用Tips」です。

コーダーからベンチマーク設計者へのシフト

この変化は、僕ら開発者の存在意義を根本から問い直す。

開発者の役割は「コーダー」から「要件定義と評価指標の設計者」へと完全にシフトした。

もう、エージェントの内部ロジックを直接コーディングする機会は激減する。

これは確実な未来だ。

コードを書くスピードは、もはや何の価値も生み出さない。

AI駆動開発の進化には、明確な3つのグラデーションがある。

人間が直接コードを書く
人間がAIにコードを書かせる
AIがAIを実装し最適化する

第一段階は、人間が直接コードを書く。

堅牢なフレームワークを使い、型安全にステートを管理する。

これは従来のシステム開発の延長線上にある。

多くの企業はまだこの段階にとどまっている。

第二段階は、人間がAIにコードを書かせる。

AIエディタにプロジェクト全体を読み込ませる。

人間はフワッとした指示を出すのではなく、詳細な開発チケットを用意する。

AIはそのチケットに従って、プロジェクトに即座に組み込めるコードを生成する。

ここでの人間の役割は、優秀なディレクターだ。

そして第三段階が、AIがAIを実装し最適化する。

メタエージェントが対象エージェントのソースコードを直接書き換える。

人間は、AIが迷わず実装できる詳細な要件定義を用意する。

さらに、AIが自律的に改善ループを回すための自動テスト環境を構築する。

評価指標の設計こそが、人間の最後の砦となる。

しんたろー：
毎日Claude Codeでコード書いてる身からすると、この抽象度の上昇は本当にエグいと思った。
人間がチマチマとプロンプトをいじるのはもう終わりだ。
これからは、いかに質の高いベンチマークを作れるかが勝負になる気がする。

ここで、設計思想の明確な対立がある。

エージェントの内部状態やルーティングをどう管理するか。

一方は、人間が型安全に厳密に設計・管理すると主張する。

もう一方は、AIの試行錯誤による創発的な最適化に委ねると主張する。

この二つのアプローチは、水と油のように交わらない。

エンタープライズ環境では、依然として厳密な管理が求められる。

セキュリティや既存システムとの統合は、AIの試行錯誤だけでは解決できない。

しかし、プロンプトやツール定義の最適化は、完全にAIの領域になった。

堅牢な基盤の上で、柔軟な部分はAIに最適化させる。

このハイブリッドなアプローチが、今後の主流になる。

開発者として生き残るためには、このパラダイムシフトに適応するしかない。

AIが書いたコードをレビューする能力すら、いずれ陳腐化する。

必要なのは、AIが自律的に動くための「環境」を構築する能力だ。

テストコードを書き、ベンチマークを用意し、AIを放つ。

あとは結果を待つだけだ。

しんたろー：
型安全なステート管理と、AIの自律的な書き換え。この2つをどう共存させるかが一番気になっている。
ガチガチに固めすぎるとAIが最適化できないし、緩すぎるとシステムが崩壊する。
この境界線を設計するのが、これからのアーキテクトの仕事になるんだろうなと思った。

ここまで読んだあなたに

今なら無料で全機能をお試しいただけます。設定後はAIが投稿案を毎日生成。確認して選ぶだけ。

無料で始める

AIへの指示出しを今すぐやめる理由

で、僕らの開発にどう影響するのか。

結論から言うと、今すぐ開発スタイルを変える。

AIに直接「これを作って」と指示するのは、今日で終わりにしよう。

それは完全に悪手だ。

人間の曖昧な言葉は、AIのパフォーマンスを著しく低下させる。

具体的なアクションは以下の3つだ。

* AIを役割ごとに分割する

* エラーログを無加工で渡す

* 自動テストとベンチマーク環境を構築する

まずは、AIを役割ごとに分割する。

要件定義を行うPM役のAIと、実装を行うエンジニア役のAIを分ける。

人間が直接エンジニア役のAIに指示を出してはいけない。

必ずPM役のAIを挟む。

PM役のAIに、現状の課題、前提条件、追加要件を網羅した詳細な開発チケットを作成させる。

そのチケットを、エンジニア役のAIに渡す。

これが、AIに意図通りのコードを書かせるための最適解だ。

人間のフワッとした指示は、抜け漏れだらけのコードを生むだけだ。

この一手間で、開発効率は10倍変わる。

次に、エラーが出た際の対応を変える。

人間が親切心でエラー内容を意訳してAIに伝えてはいけない。

エラーログをそのまま、一切の加工なしでAIに渡す。

AIは人間よりもはるかに正確に、根本原因を特定できる。

人間の勝手な解釈は、ノイズにしかならない。

そして、自動テストとベンチマーク環境の構築だ。

AIが自律的に改善ループを回すためには、明確な評価指標が不可欠だ。

スコアが上がったか下がったか。

これを機械的に判定できる仕組みを作る。

これがなければ、メタエージェントは機能しない。

しんたろー：
うちの構成でも、Claude Codeに単にコードを書かせるだけじゃ限界が見えてきた気がする。
テストコードをガッチリ書いて、Claude Code自身にテストを回させながら修正させる。
このループを作れるかどうかが、開発スピードの決定的な差になると思った。

Claude Codeを用いた開発でも、このアプローチは極めて有効だ。

単にコードを生成させるツールとして使うのではない。

自律的なエージェントとして振る舞わせる。

そのための土台作りが、人間の最大の仕事になる。

要件定義の解像度を極限まで上げる。

評価指標をコードとして実装する。

あとはAIに任せて、人間は寝る。

これが、これからの開発者の日常になる。

コードを書かない開発者。

一見すると矛盾しているように聞こえる。

しかし、これこそがAI時代の真の開発者の姿だ。

僕らは、より高い抽象度でシステムを設計する側に回る。

よくある質問

Q1: この自律的な仕組みはどのようにエージェントを改善するのですか？

機械学習のモデル学習ループをエージェント開発に応用している。

メタエージェントが対象エージェントのコードを直接書き換え、ベンチマークテストを実行する。

スコアが向上すればその変更を保持し、下がれば破棄する。

このプロセスを一晩中自律的に繰り返すことで、プロンプトやツール定義を極限まで最適化する。

Q2: AI駆動開発でAIに意図通りのコードを書かせるコツは何ですか？

人間が直接フワッとした指示を出すのは厳禁だ。

別のAIをPM役として使い、現状の課題や前提条件を網羅した詳細な「開発チケット」を作成させる。

さらに、エラーが出た際に人間が意訳して伝えず、エラーログをそのまま渡す。

これにより、AIが根本原因を特定しやすくなる。

Q3: 従来のエージェントフレームワークは不要になるのでしょうか？

完全に不要になるわけではない。

自動最適化は強力だが、エンタープライズ環境で求められる厳密なセキュリティや型安全なステート管理には、堅牢な基盤が依然として必要だ。

今後は、堅牢な基盤の上でプロンプトやルーティング部分をAIに最適化させるハイブリッドなアプローチが主流になる。

AIにコードを書かせる時代は終わった

AIにコードを書かせる時代から、AIにエージェントを最適化させる時代へ。

開発者の仕事は確実に次のフェーズに突入した。

👉 ThreadPostでSNS運用を自動化する

AutoAgentの登場でAI開発からコードを書く作業が消える理由。人間はベンチマーク設計に専念する

泥臭いプロンプト調整の終焉

コーダーからベンチマーク設計者へのシフト

AIへの指示出しを今すぐやめる理由

よくある質問

Q1: この自律的な仕組みはどのようにエージェントを改善するのですか？

Q2: AI駆動開発でAIに意図通りのコードを書かせるコツは何ですか？

Q3: 従来のエージェントフレームワークは不要になるのでしょうか？

AIにコードを書かせる時代は終わった

関連記事

【2026年版】Claude Codeで始めるループエンジニアリング入門｜開発者が押さえるべき5つの鉄則

なぜ開発者はコードを書くのをやめるのか。Claude Codeの自律化で変わるエンジニアの役割

なぜAI開発はコードを書くより判断を設計する時代へ変わったのか

【2026年版】Claudeモデル選定の最適解｜コストと性能で導く3つの使い分け基準

SalesforceがClaude Codeで開発を18倍高速化した理由とエンジニアの役割変化

Gemini 3.5 FlashのPC操作機能とは。AI開発者がローカル環境での活用を徹底解説

人気の記事

カテゴリから探す