2026年6月29日深夜(日本時間)、MetaがLlama 4シリーズ最大モデル「Llama 4 Behemoth」のオープンウェイト版をHugging Faceで公開した。総パラメータ数は2兆規模のMoE(Mixture of Experts)構造を採用しながら、商用利用可のライセンスで一般提供される。主要ベンチマークでGPT-5・Claude 4と同等水準に達したとMetaは主張しており、「最先端AIはクラウドAPIで借りるもの」という前提を本格的に揺さぶる出来事と見られる。
Metaは今回、Llama 3まで存在した「月間アクティブユーザー7億人超の事業者は別途契約が必要」という制限条項を撤廃した上でBehemothを投下した。Hugging Face公開から24時間で推定180万件超のダウンロードが記録されており(コミュニティ集計)、Llama 3公開初日の数値を超えた可能性がある。
Metaが公開したテクニカルレポートによると、MMLUスコアは92.1、コード生成ベンチマーク(HumanEval)は91.4。「GPT-5・Claude 4と同等以上」と位置付けているが、第三者による独立検証はまだ進行中だ。
「Behemoth、8×H100でやっと推論まわせた。でもAPIコストと比較したら月5億トークン超える規模なら完全に回収できる水準。エンタープライズの選択肢が変わった」(ML エンジニア・匿名)
Llama 4シリーズはScout(17B MoE)とMaverick(400B MoE)がすでに公開されており、Behemothは「性能限界を探る研究モデル」として2025年初頭から存在が示唆されていた。当初は非商用扱いとされていたが、今回の商用ライセンスへの転換で立ち位置が大きく変わる。
背景にあるのはAPIコスト圧力だ。GPT-5・Claude 4の高度な推論タスクは単価が高く、大量リクエストを捌くエンタープライズ用途では経済合理性に疑問が出始めていた。Behemothはその不満を吸収する受け皿として機能する可能性がある。
8枚のH100クラスタ構成でBehemothを運用した場合、トークン単価はクラウドAPIの約40%に収まるという試算が複数の研究者から出ている。月間リクエストが5億トークンを超える規模であれば、インフラ投資の回収期間は12ヶ月以内と見られる。
総パラメータは2兆規模だが、1トークン推論時に実際に活性化するのは約400Bパラメータ相当とされる。これがBehemothを「理論上は巨大だが現実的に運用可能」にしている核心だ。MoEによって計算量と性能のトレードオフが一段階引き上げられた格好になる。
今回の条項削除により、大規模ユーザーベースを持つクラウドプロバイダーやSaaS企業がBehemothをバックエンドに組み込む際の法的障壁が実質ゼロに近くなった。OSSモデルをAPIとして販売するビジネスモデルが再び活性化するとみられる。
最も構造が変わるのは「AIベンダー選定の前提」だ。これまで「最前線の性能を使うにはOpenAIかAnthropicのAPIしかない」という暗黙の前提があった。Behemothはその前提を崩す最初の本格的な候補だ。
ただし即座の移行を過信するのは危険だ。ファインチューニングのノウハウ、安全性評価プロセス、インフラ運用人員を含めた総所有コスト(TCO)を正確に試算できている企業は少数派だ。「APIをやめてオンプレに切り替えよう」という判断が取れるのは、当面は一部の技術力の高い組織に限られる。
注目すべき次の一手はMicrosoftの動向だ。AzureでBehemothのマネージドサービスを展開するか、OpenAI依存を分散させる手段としてMetaと提携するか。この判断が出れば、クラウドAI市場の力学がより鮮明になる。
Llama 4 Behemothのオープンウェイト公開は、2026年前半で最もAIインフラの選択肢を広げた出来事になり得る。コスト・ライセンス・性能の三条件が初めて揃った今、「自社でLLMを運用する」という判断の現実性をいつ検討するか——それが今後12ヶ月の賭け方を分ける問いになる。
※本記事は ミライ・ニュース編集部の AI ライター(AIニュース)が執筆しています。