【2026年5月最新】自己改善エージェントはどう作るか｜OpenAI Tax AI事例

2026年5月27日、OpenAIはThrive Holdingsと共同で開発した税務向けAI Tax AI の事例を公開しました。注目すべき点は、単にCodexで税務作業を速くしたことではありません。現場担当者の訂正を構造化し、評価データに変え、Codexが改善課題として扱う 自己改善エージェントの設計が示されたことです。

この記事では、OpenAI公式事例をもとに、自己改善エージェントがなぜ業務AI導入の次の論点になるのか、中小企業がそのまま真似できる部分と、まだ人間のレビューを外してはいけない部分を整理します。 Codexの社内導入全体を見たい方は、先に OpenAIとDell提携の記事も参考になります。

1. まず押さえるべき事実

OpenAIの2026年5月27日の記事によると、Tax AIはCreteに参加する 30以上の会計事務所と協力し、今シーズンに 7,000件の税務申告を処理しました。対象は1040と1041の税務申告で、複雑な申告ではデータ入力だけで1件あたり8時間かかることもある、と説明されています。

項目	OpenAI公式事例の内容	業務AI導入で見るべき意味
対象業務	1040・1041税務申告の準備	専門知識と書類処理が混ざる業務でAIを使っている
処理規模	パイロット期間で7,000件の申告を処理	小さなデモではなく、実運用のデータから改善している
効果	税務準備時間を約3分の1削減、最大97%精度、処理量約50%増	「速い」だけでなく、訂正量と処理量を合わせて評価している
改善指標	75%正答到達の申告が、初期の25%から6週間で86%へ改善	現場訂正を次の評価に戻す仕組みが成果を左右する

ここで重要なのは、Tax AIが「最初から完璧な税務AI」だったわけではないことです。現場で使うと、書類の揺れ、過年度資料の癖、顧客固有の注記、計算の例外が出ます。従来ならエンジニアがログを読み、プロンプトや処理を直し、また現場に戻す流れになりがちでした。 OpenAIの事例では、この手戻りをCodexが扱える改善ループへ変えている点が新しい論点です。

2. なぜ自己改善エージェントが重要なのか

自己改善エージェントとは、現場で起きた失敗や訂正をただのエラー報告で終わらせず、次回の精度改善につながる形へ変換するAIシステムです。ここでいう自己改善は、 AIが勝手に本番ルールを書き換えるという意味ではありません。 人の訂正を観測し、評価ケースを作り、改善候補を出し、人が確認して反映する流れです。

中小企業のAI導入でよく起きる失敗は、最初のPoCだけで「便利そう」と判断し、その後の訂正・例外・更新を管理しないことです。たとえば見積書作成AI、問い合わせ分類AI、社内FAQチャットボットは、導入直後よりも運用3カ月後の方が本当の課題が見えます。現場が直した内容を評価データに戻せなければ、AIは同じ間違いを繰り返し、担当者は「結局自分で見た方が早い」と感じます。

従来のAI導入

PoCで精度を確認する
現場訂正は個別対応で埋もれる
改善は担当者の記憶と手作業に依存する

自己改善エージェント

訂正を評価ケースとして残す
失敗パターンを分類して改善候補にする
人が承認して本番反映する

自己改善エージェントは、導入後の訂正を「人の負担」から「改善資産」へ変える考え方

MIRAINA視点では、自己改善エージェントの本質はモデル性能より運用設計です。最新モデルを入れても、現場の訂正がSlack、口頭、スプレッドシート、メールに散らばると改善できません。逆に、訂正理由、対象データ、期待出力、承認者、再発条件を残せる業務では、AIの改善速度が上がります。これはRAGによる自社データ活用や AI開発サービスでも同じ論点です。

3. OpenAI Tax AIの3段階ループ

OpenAIはTax AIの改善方法を、現場訂正、プロダクトトレース、Codexによる改善課題化の3段階で説明しています。まず会計実務者が申告内容をレビューし、AI出力のどこを直したかが明らかになります。次に、その訂正と周辺の処理履歴を見て、再現可能な評価ケースに変えます。最後に、Codexがその失敗を改善すべき課題として扱い、処理やテストの改善につなげます。

段階	やること	中小企業での置き換え例
1. 現場訂正	専門家がAI出力を直し、何が違ったかを残す	営業担当が見積AIの品目・数量・条件ミスを修正する
2. 評価化	訂正前後、入力資料、判断理由を評価ケースにする	問い合わせ分類の誤分類を「再テストできる例」として保存する
3. 改善実行	Codexが失敗パターンを改善課題として扱う	プロンプト、検索条件、バリデーション、画面入力ルールを見直す

この構造は、税務以外にも応用できます。美容サロンなら口コミ返信、採用応募の一次整理、カルテ要約、 ECなら商品問い合わせ分類、BtoBなら議事録からのタスク抽出などです。どの業務でも「AIが出した結果」と「人が直した結果」の差分を残せるなら、自己改善エージェントの土台になります。ただし、差分を残すだけでは不十分で、どの修正が本当に正しいのかを承認する人も必要です。

4. 中小企業が真似できる実装ステップ

Tax AIのような大規模な仕組みを、最初から作る必要はありません。中小企業が始めるなら、まずはAIが毎週使われ、かつ人の確認が必須の業務を1つ選ぶことです。問い合わせ返信、見積作成、採用メール整理、社内FAQ、SNS投稿下書きのように、「正解に近づけるほど現場が楽になる」業務が向いています。

ステップ	具体的に決めること	避けるべき状態
1. 業務を絞る	週次で発生し、訂正履歴を集めやすい業務を選ぶ	全社の業務を一気にAI化しようとする
2. 訂正フォームを作る	入力、AI出力、人の修正、修正理由を同じ場所に残す	口頭やチャットだけで修正依頼が流れる
3. 評価セットを作る	よくある失敗10件を固定テストとして保存する	毎回違うサンプルで感覚的に判断する
4. 月次で改善する	失敗分類、改善案、再テスト結果を月1回見る	導入初月だけ確認して放置する

既にCodexや開発支援AIを使っている企業なら、評価セットをリポジトリ内に置き、修正前後の期待値をテストとして扱う方法が現実的です。非エンジニア中心の組織なら、スプレッドシートやNotionに「AI出力」「人の修正」「修正理由」「承認者」を残すだけでも始められます。重要なのは、改善を気合いで回さず、毎月同じ形式で比較できる状態を作ることです。

5. 導入時に決めるべきガードレール

自己改善エージェントは魅力的ですが、運用ルールなしで本番に入れると危険です。特に税務、法務、医療、採用、金融、労務のような領域では、AIが改善候補を出しても、最終判断は必ず専門家や責任者が確認する必要があります。Tax AIの事例も、実務者がレビューする前提で語られています。

最低限決めるべきガードレールは3つです。1つ目は、AIが自動反映してよい範囲と、人の承認が必要な範囲を分けること。 2つ目は、個人情報や機密情報を評価データに残すときのマスキングルールを決めること。 3つ目は、改善後に必ず過去の評価セットで再テストすることです。これを省くと、ある失敗は直ったが別の重要なケースが壊れる、ということが起きます。

AI導入をPoCで終わらせたくない企業へ

MIRAINAは、業務選定、評価設計、AI開発、現場定着まで一体で支援します。

無料相談はこちら

6. まとめ

OpenAIのTax AI事例は、Codexが税務作業を支援したニュースであると同時に、これからの業務AI導入で重要になる自己改善エージェントの設計例でもあります。現場訂正を集め、評価ケースに変え、改善候補を出し、人が確認して反映する。この循環を作れるかどうかが、 AI活用の差になっていきます。

中小企業が今すぐ取り組むべきことは、大規模な自律AIを作ることではありません。まず1業務を選び、AI出力と人の訂正を同じ場所に残し、月次で改善できる評価セットを作ることです。 AIの導入効果は、最初のモデル選定だけでなく、導入後にどれだけ学習できる運用を作れるかで決まります。

自己改善エージェントは
どう作るか

1. まず押さえるべき事実

2. なぜ自己改善エージェントが重要なのか

3. OpenAI Tax AIの3段階ループ

4. 中小企業が真似できる実装ステップ

5. 導入時に決めるべきガードレール

AI導入をPoCで終わらせたくない企業へ

6. まとめ

参考情報

記事の概要

1. まず押さえるべき事実

2. なぜ自己改善エージェントが重要なのか

3. OpenAI Tax AIの3段階ループ

4. 中小企業が真似できる実装ステップ

5. 導入時に決めるべきガードレール

AI導入をPoCで終わらせたくない企業へ

6. まとめ

参考情報

関連記事