しんたろーのITアカデミー
AI活用Tips

AutoAgentの登場でAI開発からコードを書く作業が消える理由。人間はベンチマーク設計に専念する

AutoAgentの登場でAI開発からコードを書く作業が消える理由。人間はベンチマーク設計に専念する
しんたろーしんたろー
16分で読めます
この記事の内容(目次)

一晩でスコアが96.5%に到達した。

人間はコードを1行も書いていない。

メタエージェントが自律的にエージェントを最適化する。

開発者の仕事は「コードを書くこと」から完全に消滅する。

これは大げさな話ではない。

僕らの目の前で起きている。

AI開発のパラダイムは、根底から覆った。

一晩でスコアが96.5%に到達した。

人間はコードを1行も書いていない。

僕の昨日の徹夜作業は完全に無駄になった。

SNS運用を自動化しませんか?

ThreadPostなら、投稿作成・画像生成・スケジュール管理までAIがサポート。

無料で始める

泥臭いプロンプト調整の終焉

最近、エージェント開発の常識を破壊する新しい仕組みが登場した。

それは、AIに別のAIを開発・最適化させるというアプローチだ。

これまで、エージェント開発は泥臭い作業の連続だった。

誰もが以下のような単純作業を経験しているはずだ。

* システムプロンプトを書く

* ベンチマークを回す

* 失敗のログを読む

* プロンプトを微調整する

* ツールを追加する

* また実行する

これを数十回繰り返して、ようやく少しだけ精度が上がる。

これは単なる単純作業だ。

しかし、今は全く違う。

Kevin Guthirdlayer.incで開発したAutoAgentというオープンソースライブラリが登場した。

メタエージェントにタスクを与えれば、24時間で自律的に改善ループを回す。

プロンプト、ツール定義、ルーティングロジックをAI自身が直接書き換える。

ベンチマークを実行し、スコアが上がれば変更を保持する。

下がれば破棄して、別の変更を試す。

この手法は、機械学習のモデル学習ループに非常に似ている。

モデルの重みを最適化する代わりに、エージェントの構成そのものを最適化する。

人間が直接ファイルを編集することは二度とない。

人間は方向性を指示するファイルだけを管理する。

驚異的なのは、この自律ループによって圧倒的なスコアを叩き出したことだ。

SpreadsheetBench96.5%を出し、1位を獲得した。

僕の書いたコードよりはるかに優秀で泣けてくる。

TerminalBenchでも55.1%を記録し、GPT-5の最高スコアを達成した。

AutoAgentは「エージェントエンジニアリングのための自動リサーチ」と表現されている。

GitHubリポジトリの構造も非常にシンプルだ。

agent.pyはテスト対象のハーネス全体を1つのファイルに収めている。

設定、ツール定義、エージェントレジストリ、ルーティング、オーケストレーションが含まれる。

アダプター部分は固定されており、残りの部分がメタエージェントの主な編集対象となる。

人間が編集するのはprogram.mdだけだ。

ここにはメタエージェントへの指示と、どのようなエージェントを構築するかのディレクティブが含まれる。

人間と機械の関心事の分離が明確に行われている。

人間はprogram.mdで方向性を設定する。

メタエージェントはそれを読み取り、agent.pyを検査し、ベンチマークを実行する。

失敗の原因を診断し、agent.pyの関連部分を書き換えて、再度実行する。

実験の履歴はresults.tsvというログファイルに自動的に記録される。

メタエージェントはこれを見て、次に何を試すべきかを学習し、調整する。

プロジェクトにはDockerfile.baseや、再利用可能なプロンプトを保存する.agent/ディレクトリもある。

ベンチマークのペイロードを格納するtasks/フォルダや、出力用のjobs/ディレクトリも用意されている。

評価指標はベンチマークのタスクテストスイートが算出する合計スコアだ。

メタエージェントはこのスコアを指標にして、山登り法で最適化を進める。

各タスクはHarborフォーマットで表現されている。

tasks/my-task/の下に配置され、タイムアウトなどを設定するtask.tomlが含まれる。

エージェントに送信されるプロンプトはinstruction.mdに記述される。

tests/ディレクトリには、スコアを/logs/reward.txtに書き込むtest.shがある。

検証には決定論的なチェックか、LLM-as-judgeを使用するtest.pyが使われる。

LLM-as-judgeのパターンは非常に興味深い。

単なる文字列一致のような決定論的なチェックだけではない。

別のLLMを使って、エージェントの出力が「十分に正しいか」を評価する。

これは、正解が単純な文字列一致に還元できないエージェントのベンチマークでよく使われる手法だ。

一方で、エンタープライズ向けの堅牢なフレームワークも進化を続けている。

Microsoft Agent FrameworkのようなC#ベースの堅牢な基盤では、型安全なステート管理やセッションの永続化が徹底されている。

AIAgentクラスは全エージェントの抽象基底クラスだ。

ChatClientAgentが主要な具象実装であり、IChatClientをラップしてエージェントとして振る舞わせる。

主要なプロパティにはIdNameDescriptionがある。

IdはデフォルトでGUIDのNフォーマットが自動生成される。

IdCoreプロパティをオーバーライドすればカスタムIDを指定できる。

RunAsyncメソッドには4つのオーバーロードがある。

内部的にはすべて複数メッセージの処理に統一されている。

RunStreamingAsyncも同様に4つのオーバーロードが用意されている。

セッション周りではCreateSessionAsyncでセッションを作成する。

SerializeSessionAsyncDeserializeSessionAsyncでセッション全体をJSONに永続化・復元できる。

GetService<T>を使えばサービスディスカバリが可能だ。

エージェントに登録したAIContextProviderなどのインスタンスを取得できる。

AgentSessionは会話ごとのステートコンテナだ。

その中にStateBagというキーバリューストアを持っている。

StateBagAgentSessionStateBag型だ。

SetValue<T>で保存し、TryGetValue<T>GetValue<T>で取得する。

TryRemoveValueで削除ができる。

内部はConcurrentDictionaryなのでスレッドセーフだ。

JSONシリアライズにも対応している。

セッションをシリアライズするとStateBagの中身も一緒に保存される。

ProviderSessionState<TState>はこのStateBagのラッパーだ。

AIContextProviderが型安全にセッションスコープの状態を管理するためのヘルパーとして機能する。

人間が厳密に設計し、管理するアプローチだ。

ここでは、AIの気まぐれな挙動は許されない。

さらに、最前線の開発現場では、AIをチームメンバーとして扱う手法が確立しつつある。

複数のAIを役割ごとに配置する。

PM役のAIに要件定義をさせ、エンジニア役のAIにコードを書かせる。

人間はマネジメントに徹する。

この手法により、個人開発でも重厚なアーキテクチャを構築できるようになっている。

これらの動きを総合すると、一つの明確なトレンドが見えてくる。

開発の抽象度が、上昇している。

人間が内部ロジックを実装する段階は完全に終わった。

AIエディタをマネジメントする段階すら、過去になろうとしている。

これからは、AI自身がエージェントを自動最適化する段階だ。

AI開発パラダイムの3段階の進化
AI開発パラダイムの3段階の進化
※この記事は、Claude Codeで1人SaaS開発しているしんたろーが、海外AI最新情報を開発者目線で解説する「AI活用Tips」です。

コーダーからベンチマーク設計者へのシフト

この変化は、僕ら開発者の存在意義を根本から問い直す。

開発者の役割は「コーダー」から「要件定義と評価指標の設計者」へと完全にシフトした。

もう、エージェントの内部ロジックを直接コーディングする機会は激減する。

これは確実な未来だ。

コードを書くスピードは、もはや何の価値も生み出さない。

AI駆動開発の進化には、明確な3つのグラデーションがある。

  1. 人間が直接コードを書く
  2. 人間がAIにコードを書かせる
  3. AIがAIを実装し最適化する

第一段階は、人間が直接コードを書く。

堅牢なフレームワークを使い、型安全にステートを管理する。

これは従来のシステム開発の延長線上にある。

多くの企業はまだこの段階にとどまっている。

第二段階は、人間がAIにコードを書かせる。

AIエディタにプロジェクト全体を読み込ませる。

人間はフワッとした指示を出すのではなく、詳細な開発チケットを用意する。

AIはそのチケットに従って、プロジェクトに即座に組み込めるコードを生成する。

ここでの人間の役割は、優秀なディレクターだ。

そして第三段階が、AIがAIを実装し最適化する。

メタエージェントが対象エージェントのソースコードを直接書き換える。

人間は、AIが迷わず実装できる詳細な要件定義を用意する。

さらに、AIが自律的に改善ループを回すための自動テスト環境を構築する。

評価指標の設計こそが、人間の最後の砦となる。

しんたろーしんたろー:
毎日Claude Codeでコード書いてる身からすると、この抽象度の上昇は本当にエグいと思った。
人間がチマチマとプロンプトをいじるのはもう終わりだ。
これからは、いかに質の高いベンチマークを作れるかが勝負になる気がする。

ここで、設計思想の明確な対立がある。

エージェントの内部状態やルーティングをどう管理するか。

一方は、人間が型安全に厳密に設計・管理すると主張する。

もう一方は、AIの試行錯誤による創発的な最適化に委ねると主張する。

この二つのアプローチは、水と油のように交わらない。

エンタープライズ環境では、依然として厳密な管理が求められる。

セキュリティや既存システムとの統合は、AIの試行錯誤だけでは解決できない。

しかし、プロンプトやツール定義の最適化は、完全にAIの領域になった。

堅牢な基盤の上で、柔軟な部分はAIに最適化させる。

このハイブリッドなアプローチが、今後の主流になる。

開発者として生き残るためには、このパラダイムシフトに適応するしかない。

AIが書いたコードをレビューする能力すら、いずれ陳腐化する。

必要なのは、AIが自律的に動くための「環境」を構築する能力だ。

テストコードを書き、ベンチマークを用意し、AIを放つ。

あとは結果を待つだけだ。

しんたろーしんたろー:
型安全なステート管理と、AIの自律的な書き換え。この2つをどう共存させるかが一番気になっている。
ガチガチに固めすぎるとAIが最適化できないし、緩すぎるとシステムが崩壊する。
この境界線を設計するのが、これからのアーキテクトの仕事になるんだろうなと思った。
コーダーからベンチマーク設計者への役割のシフト
コーダーからベンチマーク設計者への役割のシフト

ここまで読んだあなたに

今なら無料で全機能をお試しいただけます。設定後はAIが投稿案を毎日生成。確認して選ぶだけ。

無料で始める

AIへの指示出しを今すぐやめる理由

で、僕らの開発にどう影響するのか。

結論から言うと、今すぐ開発スタイルを変える。

AIに直接「これを作って」と指示するのは、今日で終わりにしよう。

それは完全に悪手だ。

人間の曖昧な言葉は、AIのパフォーマンスを著しく低下させる。

具体的なアクションは以下の3つだ。

* AIを役割ごとに分割する

* エラーログを無加工で渡す

* 自動テストとベンチマーク環境を構築する

まずは、AIを役割ごとに分割する。

要件定義を行うPM役のAIと、実装を行うエンジニア役のAIを分ける。

人間が直接エンジニア役のAIに指示を出してはいけない。

必ずPM役のAIを挟む。

PM役のAIに、現状の課題、前提条件、追加要件を網羅した詳細な開発チケットを作成させる。

そのチケットを、エンジニア役のAIに渡す。

これが、AIに意図通りのコードを書かせるための最適解だ。

人間のフワッとした指示は、抜け漏れだらけのコードを生むだけだ。

この一手間で、開発効率は10倍変わる。

次に、エラーが出た際の対応を変える。

人間が親切心でエラー内容を意訳してAIに伝えてはいけない。

エラーログをそのまま、一切の加工なしでAIに渡す。

AIは人間よりもはるかに正確に、根本原因を特定できる。

人間の勝手な解釈は、ノイズにしかならない。

そして、自動テストとベンチマーク環境の構築だ。

AIが自律的に改善ループを回すためには、明確な評価指標が不可欠だ。

スコアが上がったか下がったか。

これを機械的に判定できる仕組みを作る。

これがなければ、メタエージェントは機能しない。

しんたろーしんたろー:
うちの構成でも、Claude Codeに単にコードを書かせるだけじゃ限界が見えてきた気がする。
テストコードをガッチリ書いて、Claude Code自身にテストを回させながら修正させる。
このループを作れるかどうかが、開発スピードの決定的な差になると思った。

Claude Codeを用いた開発でも、このアプローチは極めて有効だ。

単にコードを生成させるツールとして使うのではない。

自律的なエージェントとして振る舞わせる。

そのための土台作りが、人間の最大の仕事になる。

要件定義の解像度を極限まで上げる。

評価指標をコードとして実装する。

あとはAIに任せて、人間は寝る。

これが、これからの開発者の日常になる。

コードを書かない開発者。

一見すると矛盾しているように聞こえる。

しかし、これこそがAI時代の真の開発者の姿だ。

僕らは、より高い抽象度でシステムを設計する側に回る。

AI時代の新しい開発スタイル3つの鉄則
AI時代の新しい開発スタイル3つの鉄則

よくある質問

Q1: この自律的な仕組みはどのようにエージェントを改善するのですか?

機械学習のモデル学習ループをエージェント開発に応用している。

メタエージェントが対象エージェントのコードを直接書き換え、ベンチマークテストを実行する。

スコアが向上すればその変更を保持し、下がれば破棄する。

このプロセスを一晩中自律的に繰り返すことで、プロンプトやツール定義を極限まで最適化する。

Q2: AI駆動開発でAIに意図通りのコードを書かせるコツは何ですか?

人間が直接フワッとした指示を出すのは厳禁だ。

別のAIをPM役として使い、現状の課題や前提条件を網羅した詳細な「開発チケット」を作成させる。

さらに、エラーが出た際に人間が意訳して伝えず、エラーログをそのまま渡す。

これにより、AIが根本原因を特定しやすくなる。

Q3: 従来のエージェントフレームワークは不要になるのでしょうか?

完全に不要になるわけではない。

自動最適化は強力だが、エンタープライズ環境で求められる厳密なセキュリティや型安全なステート管理には、堅牢な基盤が依然として必要だ。

今後は、堅牢な基盤の上でプロンプトやルーティング部分をAIに最適化させるハイブリッドなアプローチが主流になる。

AIにコードを書かせる時代は終わった

AIにコードを書かせる時代から、AIにエージェントを最適化させる時代へ。

開発者の仕事は確実に次のフェーズに突入した。

👉 ThreadPostでSNS運用を自動化する

ThreadPost — SNS投稿をAIが自動化

この記事が参考になったら、ThreadPostを試してみませんか?投稿作成・画像生成・スケジュール管理まで、AIがサポートします。

無料で始める

この記事をシェア

XはてブLINE
しんたろー

ThreadPost開発者・個人開発エンジニア

AI × SaaS個人開発者。Cursor / Claude Code を使った効率的開発、SNS自動化について実体験から発信。

人気の記事