AIがGitHubの実在するissueを自律修正する能力を測る「SWE-bench Verified」で、2026年5月末時点で複数の最新エージェントが正答率50%超を記録した。2023年末時点でのトップスコアが約4%だったことを踏まえると、18カ月で10倍以上の跳躍となる。この数字は「使えるかもしれない補助」から「任せられる主体」への質的転換を意味すると見られる。
SWE-bench Verifiedは、実在するオープンソースリポジトリのバグ修正・機能追加タスク500件以上をAIエージェントに課し、テストが通るパッチを自律的に生成できるかを評価するベンチマークだ。人間の介入なしにリポジトリを閲覧・編集・テスト実行までこなす必要がある。
2025年初頭に登場したDevin(Cognition AI)が初めて13.86%を記録して話題を呼んだが、2026年5月末現在、複数の商用エージェントが50%台に到達しており、一部では60%に迫るスコアも報告されている。
「SWE-benchで50%を超えたエージェントがチームに加わったら、PRレビューの優先度を根本から見直さないといけない。これはAI補助の話じゃなく、チーム構成の話だ」
こうした現場感覚が、ここ数日でエンジニアリングコミュニティ内に急速に広まっている。
SWE-benchが単なる精度指標を超えた意味を持つのは、タスクの性質にある。ファイル検索・コード理解・差分生成・テスト実行という一連のサイクルを、エージェントが自律的に回す必要がある。従来の「コード補完」や「チャット型コード生成」とは根本的に異なり、ソフトウェア開発ワークフロー全体の代替可能性を直接測る指標になっている。
2024年後半から2025年にかけ、長コンテキスト対応モデルが登場し、大規模コードベースの把握が現実的になった。2026年に入り、推論能力の強化と複数ステップの計画立案を組み合わせたエージェントアーキテクチャが急速に成熟したことで、50%超という数字が現れ始めたと見られる。
SWE-benchの設計者は当初、人間のジュニアエンジニアの正答率を約25〜30%と見積もっていた。現在の50%超スコアはその水準を既に上回っており、単純なバグ修正・テスト補完・ドキュメント更新といった業務では、AIエージェントの方が稼働コストと速度で優位に立つ局面が増えている。
GitHubやJetBrainsなど複数のIDE・開発プラットフォームが、自社AI機能のSWE-benchスコアを公式に開示し始めている。2026年末には「SWE-benchスコア非公開のAIコーディングツールは信用されない」という空気が業界標準になるとも言われており、ベンダー間の開示競争が加速しそうだ。
SWE-benchがデファクト指標になるほど、ベンダーはベンチマーク特化の最適化を進める可能性がある。実務タスクの難易度分布とベンチマーク問題の分布がずれてくると、スコアと実際の業務生産性の乖離が生じうる。この点は導入判断の際に慎重に見極める必要がある。
正答率50%という数字を「まだ半分しかできない」と読むか、「もう半分は人手不要になった」と読むかで、チームの設計方針は180度変わる。
重要なのは、SWE-benchが測るのは「自律的な問題解決サイクル」の完遂率であるという点だ。コード補完精度やチャット応答の質を測る指標とは異なり、ここでのスコア向上は直接的に「エンジニアがレビューや設計に集中できる時間」に換算できる。
採用の観点でも変化が出始めている。一部のスタートアップでは「エンジニアの評価軸をコード生成量からAIエージェントの監督・指示能力にシフトする」方針を打ち出しており、2026年後半にかけて採用要件の書き換えが本格化すると見られる。
スコアのインフレ問題は実際に起きうるが、それ自体が「より難しいベンチマーク」への移行圧力となり、評価基準の高度化サイクルを生む。この競争が止まる理由は今のところない。
SWE-bench 50%超は、AIコーディングエージェントが「試験的導入」から「設計前提」になる転換点を示している。開発チームがまず問い直すべきは「このエージェントを使うか」ではなく、「エージェントを前提にチームのどの仕事をどう再設計するか」だ。
次に起きるのは、上位スコアエージェントのエンタープライズ向けSLA(障害対応保証・コードレビュー品質担保など)の整備と、それに対応した契約形態の標準化と見られる。開発生産性の「測り方」そのものが、2026年内に刷新されるだろう。
※本記事は ミライ・ニュース編集部の AI ライター(AIニュース)が執筆しています。
まだコメントはありません