Alibaba「Qwen 3-235B」完全オープン公開——中国発LLMが国際ベンチマークでGPT-5水準に到達

リード

AlibabaのクラウドAI部門が2026年6月25日、235Bパラメータの大規模言語モデル「Qwen 3-235B」をApache 2.0ライセンスで公開した。MMLUで91.4点、数学ベンチマークAIME 2025で72.8%、コーディング評価LiveCodeBenchではOpenAIのo3-miniを上回るスコアを計測。OSS陣営から初めて「フロンティアモデル相当」と評価される水準に到達した可能性がある。

何が起きているのか

Alibaba Cloudは日本時間2026年6月25日23時頃、Hugging Face上にQwen 3-235Bの全ウェイトを公開した。同時に、より軽量なQwen 3-30B-A22B（MoEアーキテクチャ）も投入。30B級でありながら実効パラメータ22Bで動作し、単一A100×2枚での推論を可能にしている。

公式技術レポートに記載された主要スコアは以下の通り。

MMLU（5-shot）: 91.4点（GPT-5: 92.1、Claude 4 Opus: 91.8）
AIME 2025: 72.8%（o3-mini: 67.5%）
LiveCodeBench v6: 68.3%（o3-mini: 65.1%）
GPQA Diamond（科学推論）: 75.2%

X（旧Twitter）上のMLエンジニアコミュニティでは速報後に以下のような反応が相次いだ。

「Qwen 3-235Bをローカルで動かしてみた。推論速度はまだ重いが、コード補完の精度はGPT-4o超えてる体感。これが無料で使えるのは構造が変わる」

背景

Qwen系列はQwen 1（2023年9月）、Qwen 2（2024年6月）、Qwen 2.5（2024年9月）と約9か月周期で世代交代を繰り返してきた。Qwen 2.5-72Bが2025年初頭にOSSベンチマークで首位を獲得した後、Meta Llama 4・Mistral Large 3との熾烈な競争が続いている。

今回の235Bは、Alibabaが2025年内に着手したとされる「Post-training集中投資」の成果とみられる。技術レポートによれば、強化学習（GRPO）を数学・コーディング・科学推論の3領域で個別チューニングしており、汎用性よりも評価ベンチマーク上の最大化を意図した設計が透けて見える。

商業利用については、月間アクティブユーザー1億人以上のサービスへの組み込みにはAlibabaへの事前通知義務が残る（Llama 4と同条件）。完全な「無制限商用」ではない点は留意が必要だ。

着目ポイント

自社ホスティングの現実的な選択肢になった

235BクラスのモデルをA100×8枚（約600万円/台×8）で推論できるとすれば、API従量課金との損益分岐点は月間数千万トークン規模に下がる。大量呼び出しを前提とするコールセンター・ドキュメント処理系の企業にとって、クラウドAPI依存からの脱却シナリオが現実味を帯びる。

中国発モデルの地政学リスクは残る

2026年1月施行の米国AI輸出規制改正（BIS最終規則）により、Alibabaクラウドを経由した推論APIの米国企業利用には一部グレーゾーンが生じている。ウェイトをダウンロードしてオンプレ運用する場合は規制対象外との見方が主流だが、法務確認なしに商用展開するのは早計だ。

Qwen 3-MoEが「デプロイコスト革命」の本命か

今回の本命は235BよりQwen 3-30B-A22B（MoE）という見方もある。MoE構造により推論時のFLOPを抑えながら、Qwen 2.5-72Bに近い性能を実現。GPU2枚で商用水準を達成できるなら、スタートアップや中小企業のプライベートLLM内製化に最も直結するモデルとなる。

ベンチマーク汚染リスクの再浮上

AIME 2025やLiveCodeBenchへのデータ汚染疑惑は、LlamaやGeminiでも過去に議論された問題だ。Qwen 3の数字が突出している点は、独立した第三者評価が出るまで割り引いて見るべきであろう。

編集部の視点

LLMの「頂点争い」が従来はOpenAI対Anthropicの2強構造だったとすれば、2026年前半はMetaのオープン戦略とAlibabaの技術積み上げが第三の軸として確立しつつある局面といえる。

日本企業の観点で重要なのは、自社データをクラウドAPIに送り続けるコスト・セキュリティリスクへの意識が変わりつつある点だ。Qwen 3-30B-A22Bが実際にA100×2で商用品質を出せるなら、2026年後半には国内GPU投資の賭け方が変わるとみられる。

一方で「ベンチマーク上の数字」と「実務品質」の乖離は依然として大きい。日本語理解・ハルシネーション率・長文一貫性といった実運用指標での検証は、リリース後2〜4週間でコミュニティから出揃うであろう。その数字が出た段階でもう一度評価し直すのが賢明な判断だ。

まとめ

Qwen 3-235Bの公開は、「フロンティア性能＝クローズドモデル」という前提を崩しうる出来事だ。自社LLM運用を検討している企業は、今後2週間の独立ベンチマーク結果を注視し、API依存とオンプレ運用の損益分岐点を自社規模で試算し直すタイミングに来ている。OSS陣営の技術水準は、もはや「クローズドの2世代遅れ」ではなくなりつつある。

※本記事はミライ・ニュース編集部の AI ライター（AIニュース）が執筆しています。

リード

何が起きているのか

公式技術レポートに記載された主要スコアは以下の通り。

MMLU（5-shot）: 91.4点（GPT-5: 92.1、Claude 4 Opus: 91.8）
AIME 2025: 72.8%（o3-mini: 67.5%）
LiveCodeBench v6: 68.3%（o3-mini: 65.1%）
GPQA Diamond（科学推論）: 75.2%

X（旧Twitter）上のMLエンジニアコミュニティでは速報後に以下のような反応が相次いだ。

「Qwen 3-235Bをローカルで動かしてみた。推論速度はまだ重いが、コード補完の精度はGPT-4o超えてる体感。これが無料で使えるのは構造が変わる」

背景

着目ポイント

自社ホスティングの現実的な選択肢になった

中国発モデルの地政学リスクは残る

Qwen 3-MoEが「デプロイコスト革命」の本命か

ベンチマーク汚染リスクの再浮上

編集部の視点

まとめ

※本記事はミライ・ニュース編集部の AI ライター（AIニュース）が執筆しています。

リード

何が起きているのか

背景

着目ポイント

自社ホスティングの現実的な選択肢になった

中国発モデルの地政学リスクは残る

Qwen 3-MoEが「デプロイコスト革命」の本命か

ベンチマーク汚染リスクの再浮上

編集部の視点

まとめ

リード

何が起きているのか

背景

着目ポイント

自社ホスティングの現実的な選択肢になった

中国発モデルの地政学リスクは残る

Qwen 3-MoEが「デプロイコスト革命」の本命か

ベンチマーク汚染リスクの再浮上

編集部の視点

まとめ

他の記事

コメント