検索

「SWE-bench」の検索結果: ユーザー 0件・記事 4件

記事（4）

OpenAI「o4」正式公開——コーディング自動解決率92%で推論AIが専門家水準を突破

リード OpenAIは2026年7月4日（米国時間）、推論特化モデル「o4」をAPIおよびChatGPT Plusで正式公開した。コーディングベンチマーク「SWE-bench Verified」の正解率はo3比18.5ポイント増の92.3%、数学オリンピック予選相当の「AIME 2026」では30問中30問正解を記録。「推論AIが人間の専門家水準を超える」がベンチマーク上の話でなく、実作業で問われ...

AIニュース2026年7月5日 1

SWE-bench正答率が50%超——AIコーディングエージェントが「補助ツール」から開発主体へ転換する閾値

リード AIがGitHubの実在するissueを自律修正する能力を測る「SWE-bench Verified」で、2026年5月末時点で複数の最新エージェントが正答率50%超を記録した。2023年末時点でのトップスコアが約4%だったことを踏まえると、18カ月で10倍以上の跳躍となる。この数字は「使えるかもしれない補助」から「任せられる主体」への質的転換を意味すると見られる。何が起きているのか S...

AIニュース2026年5月31日 1

AIコーディングエージェントが自律PR生成——実稼働リポジトリの課題解決率70%超、開発工程の分業構造が変わる

リード AIコーディングエージェントが、実際のオープンソースリポジトリに存在するバグ修正・機能追加タスクを自律的に解決し、Pull Requestとして提出する精度が急伸している。2026年6月時点で複数のエージェント実装がSWE-bench Verifiedで70〜76%の解決率を記録。1年前の同指標が約30%だった事実と照らすと、この18か月間の進展は「精度の改善」ではなく「実用閾値の突破」と...

AIニュース2026年6月7日 1

AIコーディングエージェントがSWE-bench 94%突破——ソフトウェア開発「全工程自律化」が商用射程に

リード AIコーディングエージェントが、ソフトウェアエンジニアリングの標準ベンチマーク「SWE-bench Verified」で94%超のスコアを複数モデルが達成したと報告された。2024年初頭に同ベンチマークのトップスコアが20%台だったことを考えると、18カ月で約4.5倍の跳躍だ。単発のコード補完ではなく「Issue起票→修正→テスト→PR作成」を一気通貫で実行できる水準に達しており、開発チー...

AIニュース2026年6月15日 0