Claude Code開発で成功率33％向上、AIの出力を外部制御する新手法の理由

SNS運用を自動化しませんか？

ThreadPostなら、投稿作成・画像生成・スケジュール管理までAIがサポート。

無料で始める

AIの「素の知識」を上書きする3つの制御レイヤー

AIにコードを書かせると、一昔前の書き方が出てくる。

CSSのSubgridではなく古いGridのネストを提案する。

JavaScriptのObject.groupByではなく複雑な処理で書いてくる。

LLMはインターネット上の膨大な「過去のレガシーコード」を学習しているからだ。

この問題を解決するために、3つのアプローチがある。

一つ目は、外部知識の注入だ。

最新のWebプラットフォームの知識をAIエージェントに直接流し込む。

AIは「多数派の古いコード」ではなく「最新のベストプラクティス」を選択する。

二つ目は、指示追従のためのファインチューニングだ。

特定のスタイルやフォーマットを強制するために、モデル自体を微調整する。

事前学習のみのモデルでは指示無視が目立つが、この微調整で指示遵守率は100％に到達する。

三つ目は、Rerank（再順位付け）による後処理だ。

AIに自由に生成させるのではなく、複数の候補を出させてから最適なものを選び直す。

かな漢字変換エンジンのように、候補の並び替えに特化したモデルを介在させる。

この手法を導入するだけで、第一候補の正解率は47％から73％まで跳ね上がる。

これらの手法を統合したのが、最新のAI活用パイプラインだ。

モデルのパラメータ更新、プロンプトでの制約、出力後の選別。

この3つのレイヤーを使い分けることが、プロの開発者に求められている。

しんたろー：
AIが古いコードを出してくるたびに「お前、いつの時代のエンジニアだよ」とツッコんでいた。
AIからすればネット上の情報の多数派を返しているだけだ。
モデルを新しくするのを待つより、こっちで「正解」を教え込む方が速い。

なぜAIは「分かっているのに」古いコードを書くのか

AIの内部では、常に「次に来る確率が高い言葉」が選ばれている。

Webの世界には、10年以上前に書かれた古い記事やコードが大量に放置されている。

最新の仕様がリリースされても、ネット上の情報の絶対量では古いものに勝てない。

AIは悪気なくレガシーな手法を「最も可能性が高い正解」として出力する。

これを防ぐための武器が、Modern Web Guidanceという仕組みだ。

これは、最新のWebプラットフォーム機能をAIエージェントに教え込むための「スキル」だ。

6つの分野に整理されたガイドラインをAIに参照させる。

CSSレイアウト: コンテナクエリやSubgrid、最新の色空間の扱い方。
ユーザーエクスペリエンス: View Transitionsやアニメーションの最新実装。
パフォーマンス: ページの先読みや、最新のタスク分割手法。
フォームとUI: Popover APIや最新のバリデーション機能。
アクセシビリティ: フォーカス管理やエラー通知の標準的な書き方。
ブラウザ内蔵AI: 端末内で動くローカルAIモデルの活用法。

例えば、画像の読み込み最適化を依頼したとする。

従来のAIなら一般的な圧縮を提案するだけだった。

しかし、このガイダンスがあれば、fetchpriority属性を適切に使い分けるコードを出す。

重要な画像には高い優先順位を、そうでないものには低い優先順位を割り当てる。

こうした「最新の当たり前」をAIに強制できるのが、この手法の強みだ。

さらに重要なのが、Baselineという指標との連動だ。

主要ブラウザでその機能が安全に使えるようになったかを示す共通指標だ。

AIが「最新すぎて特定のブラウザで動かないコード」を書くリスクも、これで回避できる。

リアルタイムな互換性データに基づき、AIは「今、使うべきコード」を選択する。

しんたろー：
AIが「動くけど古い」コードを量産するのが怖い。
後でリファクタリングする手間を考えたら、最初から最新の書き方を強制したい。
Claude Codeにこのスキルを読み込ませるだけで、レビューの手間が減る。

ここまで読んだあなたに

今なら無料で全機能をお試しいただけます。設定後はAIが投稿案を毎日生成。確認して選ぶだけ。

無料で始める

制御アーキテクチャがもたらす開発効率の変化

モデルの「素の知識」に依存しない開発は、多くのメリットを生む。

その一つが、特定のドメインへの特化だ。

汎用的なAIモデルは、あらゆる質問に答えようとして回答がブレる。

ここに指示と回答のペアによるファインチューニングを加えると、挙動が安定する。

実験データによれば、指示の有無によって回答を切り替える能力は、微調整で獲得できる。

「指示がある時だけ特定のフォーマットを守る」という切り替えが、機能する。

これは、1人SaaS開発のような多忙な環境では、定型作業の自動化に直結する。

出力形式をJSONに固定できれば、そのままAPIのレスポンスとして使えるからだ。

また、Rerank（再順位付け）の導入も見逃せない。

AIが生成した複数の「もっともらしい回答」を、別の専門モデルが評価する仕組みだ。

かな漢字変換の実験では、この手法で変換精度が向上している。

これをコード生成に応用すれば、AIが書いた複数のパターンから、最もバグが少ないものを選べる。

僕らが構築すべきは、単一のAIモデルではない。

以下の要素を組み合わせた、AI制御パイプラインだ。

知識注入層: 最新の仕様や社内ルールをAIに参照させる。
指示遵守層: 特定のスタイルやフォーマットを強制する微調整モデル。
評価選別層: 出力された複数の候補から、最適なものを再選択する仕組み。

このアーキテクチャがあれば、モデル自体が1世代古くても、最新モデル以上の成果を出せる。

AI開発の主戦場は、プロンプトエンジニアリングだけではない。

こうした外部制御システムの設計へとシフトしている。

しんたろー：
AIをどう使いこなすかは、どうやって「枠」をはめるかに行き着く。
自由奔放に喋らせるんじゃなくて、ガチガチにルールを敷いたレールの上を走らせる。
自由度が減るほど、開発ツールとしての信頼性は上がる。

僕らが今すぐ開発パイプラインに取り入れるべきこと

「AIに書かせたコードが古い」と嘆く前に、やるべきことは明確だ。

まずは、外部スキルをエージェントに導入すること。

最新のWebガイダンスをプロジェクトのドキュメントとして配置するだけでいい。

AIエージェントは、コードを書く前にそのドキュメントを「検索→取得→適用」するようになる。

次に、評価指標の自動化だ。

AIが出したコードが、最新のセキュリティ基準やパフォーマンス指標を満たしているか。

それを人間がチェックするのではなく、別のAIや自動テストで検証する仕組みを作る。

特にフロントエンド開発では、ブラウザの対応状況を自動でチェックする工程が不可欠だ。

そして、モデルの依存度を下げる設計を意識すること。

「どのAIを使えばいいか」と悩むより、「どのAIが来ても正しく動く制御層」を作る。

外部知識を参照し、出力を検証し、必要なら再順位付けを行う。

このパイプラインさえあれば、AIモデルの進化をそのまま開発効率の向上に直結させられる。

AIは魔法の杖ではない。

しかし、正しく制御されたAIは、1人でのSaaS開発を10人体制並みのスピードに変えてくれる。

僕のThreadPost開発でも、この「外部制御」の考え方を導入してから、手戻りが激減した。

最新技術を安全に、かつ最速で取り入れる。

それが、これからの開発者に求められるスキルだ。

AI活用に関するよくある質問

Q1: AIエージェントが古いコードばかり書くのはなぜ？

LLMの学習データには、インターネット上に蓄積された膨大な過去のレガシーコードが含まれているためだ。AIは確率的に「多数派」のパターンを優先して出力する。最新のモダンな書き方よりも、普及している古い書き方を優先してしまう。これを防ぐには、最新のベストプラクティスを明示的に参照させる仕組みが不可欠だ。

Q2: ファインチューニングとRerank、どちらを優先すべき？

タスクの性質によって使い分ける。指示に従うスタイルやフォーマットの固定化が目的なら、指示と回答のペアでファインチューニングを行うのが効果的だ。一方、複数の選択肢から最適なものを選ぶ必要がある場合は、Rerank（再順位付け）を行う方が精度を維持しやすい。自由生成による不自然な出力を避けたいなら、まずはRerankを検討する。