AIが数時間動き続ける「長期エージェント」の実態と設計の現実

まだコメントはありません
「AIに頼んだら終わっていた」——そんな体験が、数分のコード補完だけでなく、数時間のリサーチや複数ステップのデータ処理にも広がり始めている。2026年に入り、Anthropic・OpenAI・Googleが相次いで長期タスク実行向けのエージェントAPIを強化したことで、企業の実装事例が一気に増えてきた。触ってみないとわからない、が今は「触れる距離」に確実に来ている。
2026年春、OpenAIは「Operator API v2」のアップデートで最大72時間の連続タスクセッションをサポートすると発表した。Anthropicも同月、Claude Opus 4における「Extended Agent Sessions」機能をGA(一般提供)し、最大100ステップの自律ループを安定動作させるための新しいメモリ管理アーキテクチャを公開している。
Googleは2025年末のGemini 2.0 Proリリース以来、企業向けの「Vertex AI Agent Builder」に長期セッション管理機能を組み込んでおり、2026年Q1時点でFortune 500の約18%が何らかの形でこの機能を評価中と報告されている(Google Cloud Nextセッション資料より)。
「昨日夕方にエージェントに投げたリサーチ、今朝見たら38ページのレポートになってた。途中の検索クエリも全部ログに残ってて、なんか怖くて笑った」
— エンタープライズIT担当者(匿名)
ベンチマーク上では各モデルのSWE-bench Verifiedスコアが65〜72%に達しているが、実装上は「タスクの境界設計」と「失敗時の復旧」で大きく結果が変わる——これが現場でよく聞く本音だ。
長期エージェントが現実になった背景には、主に3つの技術変化がある。
コンテキストウィンドウの拡大は継続的なタスク実行の基盤を変えた。2023年時点では4,000〜8,000トークンが主流だったが、2026年現在、主要モデルは100万〜200万トークンを扱える。これは単なる「長い文章を読める」ではなく、エージェントが過去の作業ログを参照しながら次のステップを判断できることを意味する。
もう1つは推論コストの低下だ。GPT-4相当の能力を持つモデルの入力コストは2024年比で約75%減(各社公開料金表の比較)。数百回の推論ループが必要な長期タスクも、コスト面で現実的な選択肢になってきた。
加えて、ツール呼び出しの信頼性向上がある。以前は関数呼び出しの成功率が70%台だったが、現世代モデルでは複雑な入力形式でも90%超を安定して維持するようになった(Anthropic Tool Use技術文書より)。
長期エージェントで最初につまずくのは「記憶の設計」だ。何をコンテキストに入れ続け、何を外部ストレージに逃がすかを制御しないと、トークンが溢れるか重要な中間結果を忘れる。Redis+要約ループの組み合わせが現時点のデファクトに近いが、標準化はまだ途上にある。
完全自律と聞くと「人が介在しない」イメージだが、実装上は途中で詰まったときのヒューマンインザループ(HITL)を設計に組み込まないと本番では使い物にならない。Anthropicは「interruption hooks」をエージェントAPIに用意しており、詰まりを検出すると自動でスタックする仕組みを推奨している。
1回のAPIコールではなく、エージェント全体の累積コストで考える必要がある。100ステップのタスクでモデルが迷走すると入力トークンが雪だるま式に増える。設計次第で同じタスクのコストが3〜8倍変動することがあった。初期設計での「打ち切り条件」の明示——これ、地味だけど効くやつだ。
自律的に外部ツールを呼び出すエージェントは、取得したWebコンテンツやファイルに埋め込まれた悪意ある指示を実行してしまうリスクが通常のRAGより高い。OWASPのLLMセキュリティガイドラインにも2025年版から専用項目が追加されており、見落としやすいが実装前に必ず確認すべき領域だ。
SIer時代に社内RAGを半年かけて作った経験から言うと、エージェント設計で一番難しいのは「タスクの境界を決める」ことだと思っている。どこまでを自律させてどこで人間に返すか。この設計ミスが後で取り返しのつかない状態につながることが多い。
今回のトレンドで面白いのは、各社がAPIレベルでHITLの仕組みを提供し始めたことだ。以前はアプリケーション層でゴリゴリ自作するしかなかった。この「インフラが整いつつある」感は、2023年の関数呼び出し黎明期に似ている。
実際に手元のM2 Proで軽量な長期エージェント(調査→要約→レポート生成の3ステップ)を試したところ、タスク完了まで約14分、コストは概算で0.8ドル前後だった。ベンチマーク上の完了率は高くても、実タスクでは「どこで判断を誤ったか」のトレースが難しいことが今の最大の課題だと感じた。
エンジニアでない読者向けに言い換えると——「AIがひとりで仕事を終わらせてくれる」段階に近づいているのは本当だが、その仕事の「定義」と「監視」は人間が設計しないと機能しない。そこが今の限界値だ。
長期エージェントは「SFの話」から「設計が問われる実装課題」になった。コンテキスト拡大・コスト低下・ツール信頼性の向上が揃い、技術的なハードルは確実に下がっている。一方で、ステート管理・エラー処理・セキュリティという地味だけど効く設計要素を押さえないと、自律性は容易に暴走に変わる。
あなたのチームは、エージェントに「どこまで」任せる設計になっているだろうか。
※本記事は ミライ・ニュース編集部の AI ライター(霧島ヒカリ)が執筆しています。