Baidu ERNIE-Image衝撃｜無料8Bで文字も描ける

2026年4月15日、中国Baidu（百度）が画像生成AI「ERNIE-Image」をApache 2.0で無料公開——商用利用・改変自由
わずか80億パラメーター（8B）の軽量モデルでOneIG-Bench英語スコアがGPT Image 1 [High]やZ-Imageを上回る
画像内の文字描画が超得意——LongTextBench 0.9733でオープンウェイト最高クラス
50ステップの標準版と8ステップで6倍高速の「Turbo」版を同時リリース
24GB VRAMで動作、FP8量子化なら約11GB——RTX 3090やRTX 4090など家庭用GPUでもローカル実行可能

「画像AIを使いたいけど、月額課金は続けにくい……」「企業データを外部に送らずローカルで動かしたい……」そんな悩みを抱える方に朗報です。

2026年4月15日、中国Baidu（百度）が衝撃の画像生成AI「ERNIE-Image」をApache 2.0ライセンスで完全無料公開。

わずか80億パラメーターで有料の大手モデルを凌ぐ性能を見せ、公開から数日で世界中のAIコミュニティが沸騰しています。

ERNIE-Imageとは？8Bで最強クラスの無料画像AI

ERNIE-Imageは、中国の検索大手Baidu（百度）が2026年4月15日にオープンソース公開した画像生成AIモデルです。文字（プロンプト）を入れると画像が生成される、いわゆる「テキスト・トゥ・イメージ」タイプのAIです。

最大の特徴は、わずか80億パラメーター（8B）で最先端クラスの性能を出していること。

たとえるなら、これまで画像AIの世界は「大きいほど強い」が常識で、OpenAIやStability AIの最新モデルは数百億パラメーター級でした。

そこに登場したERNIE-Imageは、軽自動車サイズで高級スポーツカーと張り合うような存在です。

主な仕様

開発元：Baidu（百度）ERNIE-Imageチーム
リリース日：2026年4月15日
ライセンス：Apache 2.0（商用利用・改変・再配布すべてOK）
本体：80億パラメーターのDiT（Diffusion Transformer：拡散トランスフォーマー）
プロンプト強化機能：30億パラメーターの言語モデルを内蔵
配布先：Hugging Face（baidu/ERNIE-Image）とGitHub
対応ツール：ComfyUI（公式ワークフロー提供）

Apache 2.0という「自由度の高いライセンス」で公開されたのも大きなポイント。個人の趣味利用はもちろん、企業が商用サービスに組み込むこともOKです。

衝撃の性能｜ベンチマークで見える実力

ERNIE-Imageが業界を驚かせているのは、3つの主要ベンチマークで最高クラスのスコアを叩き出したからです。

OneIG-Bench英語総合：0.5750（標準版）／0.5656（Turbo版）——Z-ImageやGPT Image 1 [High]を上回る
GenEval（構成理解ベンチ）：0.8856——オープンウェイト画像生成AIで首位
LongTextBench（画像内長文の読みやすさ）：0.9733——英語・中国語サブセット平均

特に注目すべきは「画像内の文字描画」です。

従来の画像AIは「READ」が「RFAD」になるなど、文字が崩れるのが悩みの種でした。

ERNIE-Imageはポスターの見出し、Tシャツのロゴ、書籍の表紙など、文字入り画像を鮮明に生成できるため、広告・販促物のデザインに革命が起きると期待されています。

なぜ8Bなのに強い？2つの技術的工夫

「小さいモデルなのに大きなモデルを超える」という不思議な現象の裏には、2つの設計思想があります。

① シングルストリームDiT：画像と文字の情報を1本の流れで処理する新型アーキテクチャ。無駄な計算を省いて効率を最大化した
② プロンプトエンハンサー内蔵：30億パラメーターの小型言語モデルが、ユーザーの短い指示を自動で詳細なプロンプトに書き換える。つまり「犬」と入れるだけで、内部的に「ゴールデンレトリバーの子犬が芝生で走る、自然光、シャロー・デプス・オブ・フィールド……」と豪華プロンプトに変換される仕組み

さらにTurbo版では、DMD（Diffusion Model Distillation）という蒸留技術と強化学習を組み合わせ、通常50ステップかかる生成を8ステップに圧縮。

画質をほぼ落とさず約6倍の速度を実現しました。

1枚あたりの生成時間が数秒に短縮されたイメージです。

競合比較｜Stable Diffusion・Flux・GPT Image 1との違い

画像生成AIは群雄割拠。主要モデルを整理すると、ERNIE-Imageのポジションがよく見えてきます。

Stable Diffusion XL：オープンソースの定番だが、画像内文字が苦手で日本語プロンプトもほぼ通らない
Flux：高品質だがモデルサイズが12B以上と重い、商用ライセンスに制約がある
GPT Image 1（OpenAI）：高性能だが有料API課金必須、データを外部サーバーに送る必要がある
Midjourney：美麗だがクローズドソース・有料サブスク、ローカル実行不可
ERNIE-Image：無料・Apache 2.0・ローカル実行可・文字描画トップクラス——全部盛り

使い分けの目安

「芸術的・幻想的な画像を作りたい」なら → Midjourneyがまだ優勢。

「商用利用で手堅く使いたい」なら → Stable Diffusion XLの日本語ファインチューニングモデル。

「文字入り画像・広告素材・ローカル実行・無料」が1つでも重要なら → ERNIE-Image一択というのが2026年春の現実解です。

日本市場への影響｜日本語対応と今後

日本語プロンプトの実力

ERNIE-Imageは日本語プロンプトも受け入れますが、追従性は英語・中国語より一段落ちるというのが公開直後の検証結果です。

理由はシンプルで、学習データの大半が英語と中国語だから。

ただ、プロンプトエンハンサーが翻訳的な役割を果たすので、「簡単な日本語→英訳して入力」すれば実質問題なく使えます。

日本企業へのインパクト

ある地方都市の従業員10人の雑貨店を想像してみてください。

毎月のチラシ制作を外注すると1回3〜5万円、年間で40〜60万円が広告費に消えていました。

ERNIE-Imageをローカル環境で動かせば、商品写真の背景差し替え・ポップ作成・SNS画像がすべて無料で内製化できます。

月額課金ゼロ・データ外部送信ゼロで、セキュリティ重視の医療・法律・金融系企業にも導入障壁が低いのが魅力です。

使ってみよう｜ComfyUIで動かす手順

エンジニアでなくても、以下3ステップでローカル実行できます。

① ComfyUIをインストール：画像生成AIの定番GUIツール。公式サイトからダウンロードしてインストール
② モデルをダウンロード：Hugging Faceの「baidu/ERNIE-Image」からモデルファイルを取得し、ComfyUIのmodelsフォルダに配置
③ 公式ワークフローをロード：ERNIE-Image公式GitHubで配布されているComfyUIワークフロー（.jsonファイル）をインポート、プロンプトを入れて実行

必要スペックは24GB VRAM（RTX 3090／RTX 4090など）。

FP8量子化版なら約11GBに圧縮されるため、RTX 3060 12GBクラスでも動作します。

Macユーザーは現時点ではLinuxやWindows PCでの実行を推奨します。

よくある質問（FAQ）

Q. 本当に完全無料で商用利用もOK？

A. はい、Apache 2.0ライセンスで完全無料です。

商用利用・改変・再配布いずれも自由。

生成した画像を広告・商品パッケージ・サービスに使うこともまったく問題ありません。

ただし、モデル自体を再配布する場合はライセンス表記が必要な点だけ注意しましょう。

Q. 日本語プロンプトはどこまで使える？

A. 入力は可能ですが、英語・中国語よりも追従性が落ちます。

ChatGPTやDeepLで一度英訳してから入れるのが実用的です。

「犬が公園で走っている写真」→「A dog running in a park, photorealistic」とするだけで精度が跳ね上がります。

Q. ハイスペックPCがないと動かない？

A. 推奨は24GB VRAMですが、FP8量子化版を使えば約11GBまで下がり、RTX 3060 12GB・RTX 4070 12GBでも動作可能です。さらにunsloth/ERNIE-Image-GGUFなど有志のさらに軽量化バージョンも公開されており、8GB VRAMマシンでの稼働例も出ています。

Q. Stable Diffusionからの乗り換え価値は？

A. 「画像内に文字を入れたい」「複雑なプロンプトを忠実に再現したい」用途なら乗り換え価値は非常に高いです。一方、アニメ・イラスト特化のカスタムモデルが豊富なSD系が必要な領域では、しばらく併用が現実的でしょう。

Q. 生成した画像の著作権はどうなる？

A. モデルライセンスは画像の著作権に影響しません。

生成画像の著作権帰属は各国の法律次第で、日本では「創作的寄与がある場合は生成者に権利発生」が現在の解釈。

ただし商用利用時は、学習データに含まれる他者著作物との類似を避ける注意は依然必要です。

まとめ

2026年4月15日、Baiduが画像生成AI「ERNIE-Image」をApache 2.0で無料公開——商用利用・改変OK
わずか8Bでオープンウェイト最強クラス——GenEval 0.8856、LongTextBench 0.9733
画像内の文字描画が超得意、広告・販促物デザインに革命の予感
Turbo版は6倍高速、50ステップ→8ステップで生成時間を数秒に圧縮
24GB VRAMで動作、FP8なら11GB——家庭用GPUでローカル実行可
次の一手：今週中にHugging FaceでERNIE-Imageのページを開き、スペック・ライセンスを確認。ComfyUIを持っているなら公式ワークフローを試して、自社広告素材の内製化PoCを始めてみましょう

Stable Diffusionが登場して画像AIが一般化したように、ERNIE-Imageは「無料・軽量・高品質」の3拍子が揃った新世代モデルの号砲です。

「月額課金に頼らずローカルで画像AIを使い倒したい」と考えてきた個人・中小企業にとって、2026年春は分水嶺。

今週の小さな一歩が、1年後の制作コストに決定的な差を生むかもしれません。

参考文献

Baiduがイラストも実写風も生成できる画像生成AI「ERNIE-Image」を公開 — GIGAZINE
baidu/ERNIE-Image 公式GitHubリポジトリ
baidu/ERNIE-Image — Hugging Face
Baidu ERNIE-Image: 8B Open-Source Text-to-Image AI Beats Larger Models — StableLearn
「ERNIE-Image」の導入方法・使い方！ — くろくまそふと

この記事は AI Friends からのクロスポストです。

2026年4月15日、中国Baidu（百度）が画像生成AI「ERNIE-Image」をApache 2.0で無料公開——商用利用・改変自由
わずか80億パラメーター（8B）の軽量モデルでOneIG-Bench英語スコアがGPT Image 1 [High]やZ-Imageを上回る
画像内の文字描画が超得意——LongTextBench 0.9733でオープンウェイト最高クラス
50ステップの標準版と8ステップで6倍高速の「Turbo」版を同時リリース
24GB VRAMで動作、FP8量子化なら約11GB——RTX 3090やRTX 4090など家庭用GPUでもローカル実行可能

「画像AIを使いたいけど、月額課金は続けにくい……」「企業データを外部に送らずローカルで動かしたい……」そんな悩みを抱える方に朗報です。

2026年4月15日、中国Baidu（百度）が衝撃の画像生成AI「ERNIE-Image」をApache 2.0ライセンスで完全無料公開。

わずか80億パラメーターで有料の大手モデルを凌ぐ性能を見せ、公開から数日で世界中のAIコミュニティが沸騰しています。

ERNIE-Imageとは？8Bで最強クラスの無料画像AI

最大の特徴は、わずか80億パラメーター（8B）で最先端クラスの性能を出していること。

たとえるなら、これまで画像AIの世界は「大きいほど強い」が常識で、OpenAIやStability AIの最新モデルは数百億パラメーター級でした。

そこに登場したERNIE-Imageは、軽自動車サイズで高級スポーツカーと張り合うような存在です。

主な仕様

開発元：Baidu（百度）ERNIE-Imageチーム
リリース日：2026年4月15日
ライセンス：Apache 2.0（商用利用・改変・再配布すべてOK）
本体：80億パラメーターのDiT（Diffusion Transformer：拡散トランスフォーマー）
プロンプト強化機能：30億パラメーターの言語モデルを内蔵
配布先：Hugging Face（baidu/ERNIE-Image）とGitHub
対応ツール：ComfyUI（公式ワークフロー提供）

衝撃の性能｜ベンチマークで見える実力

ERNIE-Imageが業界を驚かせているのは、3つの主要ベンチマークで最高クラスのスコアを叩き出したからです。

OneIG-Bench英語総合：0.5750（標準版）／0.5656（Turbo版）——Z-ImageやGPT Image 1 [High]を上回る
GenEval（構成理解ベンチ）：0.8856——オープンウェイト画像生成AIで首位
LongTextBench（画像内長文の読みやすさ）：0.9733——英語・中国語サブセット平均

特に注目すべきは「画像内の文字描画」です。

従来の画像AIは「READ」が「RFAD」になるなど、文字が崩れるのが悩みの種でした。

なぜ8Bなのに強い？2つの技術的工夫

「小さいモデルなのに大きなモデルを超える」という不思議な現象の裏には、2つの設計思想があります。

① シングルストリームDiT：画像と文字の情報を1本の流れで処理する新型アーキテクチャ。無駄な計算を省いて効率を最大化した
② プロンプトエンハンサー内蔵：30億パラメーターの小型言語モデルが、ユーザーの短い指示を自動で詳細なプロンプトに書き換える。つまり「犬」と入れるだけで、内部的に「ゴールデンレトリバーの子犬が芝生で走る、自然光、シャロー・デプス・オブ・フィールド……」と豪華プロンプトに変換される仕組み

さらにTurbo版では、DMD（Diffusion Model Distillation）という蒸留技術と強化学習を組み合わせ、通常50ステップかかる生成を8ステップに圧縮。

画質をほぼ落とさず約6倍の速度を実現しました。

1枚あたりの生成時間が数秒に短縮されたイメージです。

競合比較｜Stable Diffusion・Flux・GPT Image 1との違い

画像生成AIは群雄割拠。主要モデルを整理すると、ERNIE-Imageのポジションがよく見えてきます。

Stable Diffusion XL：オープンソースの定番だが、画像内文字が苦手で日本語プロンプトもほぼ通らない
Flux：高品質だがモデルサイズが12B以上と重い、商用ライセンスに制約がある
GPT Image 1（OpenAI）：高性能だが有料API課金必須、データを外部サーバーに送る必要がある
Midjourney：美麗だがクローズドソース・有料サブスク、ローカル実行不可
ERNIE-Image：無料・Apache 2.0・ローカル実行可・文字描画トップクラス——全部盛り

使い分けの目安

「芸術的・幻想的な画像を作りたい」なら → Midjourneyがまだ優勢。

「商用利用で手堅く使いたい」なら → Stable Diffusion XLの日本語ファインチューニングモデル。

「文字入り画像・広告素材・ローカル実行・無料」が1つでも重要なら → ERNIE-Image一択というのが2026年春の現実解です。

日本市場への影響｜日本語対応と今後

日本語プロンプトの実力

ERNIE-Imageは日本語プロンプトも受け入れますが、追従性は英語・中国語より一段落ちるというのが公開直後の検証結果です。

理由はシンプルで、学習データの大半が英語と中国語だから。

ただ、プロンプトエンハンサーが翻訳的な役割を果たすので、「簡単な日本語→英訳して入力」すれば実質問題なく使えます。

日本企業へのインパクト

ある地方都市の従業員10人の雑貨店を想像してみてください。

毎月のチラシ制作を外注すると1回3〜5万円、年間で40〜60万円が広告費に消えていました。

ERNIE-Imageをローカル環境で動かせば、商品写真の背景差し替え・ポップ作成・SNS画像がすべて無料で内製化できます。

月額課金ゼロ・データ外部送信ゼロで、セキュリティ重視の医療・法律・金融系企業にも導入障壁が低いのが魅力です。

使ってみよう｜ComfyUIで動かす手順

エンジニアでなくても、以下3ステップでローカル実行できます。

① ComfyUIをインストール：画像生成AIの定番GUIツール。公式サイトからダウンロードしてインストール
② モデルをダウンロード：Hugging Faceの「baidu/ERNIE-Image」からモデルファイルを取得し、ComfyUIのmodelsフォルダに配置
③ 公式ワークフローをロード：ERNIE-Image公式GitHubで配布されているComfyUIワークフロー（.jsonファイル）をインポート、プロンプトを入れて実行

必要スペックは24GB VRAM（RTX 3090／RTX 4090など）。

FP8量子化版なら約11GBに圧縮されるため、RTX 3060 12GBクラスでも動作します。

Macユーザーは現時点ではLinuxやWindows PCでの実行を推奨します。

よくある質問（FAQ）

Q. 本当に完全無料で商用利用もOK？

A. はい、Apache 2.0ライセンスで完全無料です。

商用利用・改変・再配布いずれも自由。

生成した画像を広告・商品パッケージ・サービスに使うこともまったく問題ありません。

ただし、モデル自体を再配布する場合はライセンス表記が必要な点だけ注意しましょう。

Q. 日本語プロンプトはどこまで使える？

A. 入力は可能ですが、英語・中国語よりも追従性が落ちます。

ChatGPTやDeepLで一度英訳してから入れるのが実用的です。

「犬が公園で走っている写真」→「A dog running in a park, photorealistic」とするだけで精度が跳ね上がります。

Q. ハイスペックPCがないと動かない？

Q. Stable Diffusionからの乗り換え価値は？

Q. 生成した画像の著作権はどうなる？

A. モデルライセンスは画像の著作権に影響しません。

生成画像の著作権帰属は各国の法律次第で、日本では「創作的寄与がある場合は生成者に権利発生」が現在の解釈。

ただし商用利用時は、学習データに含まれる他者著作物との類似を避ける注意は依然必要です。

まとめ

2026年4月15日、Baiduが画像生成AI「ERNIE-Image」をApache 2.0で無料公開——商用利用・改変OK
わずか8Bでオープンウェイト最強クラス——GenEval 0.8856、LongTextBench 0.9733
画像内の文字描画が超得意、広告・販促物デザインに革命の予感
Turbo版は6倍高速、50ステップ→8ステップで生成時間を数秒に圧縮
24GB VRAMで動作、FP8なら11GB——家庭用GPUでローカル実行可
次の一手：今週中にHugging FaceでERNIE-Imageのページを開き、スペック・ライセンスを確認。ComfyUIを持っているなら公式ワークフローを試して、自社広告素材の内製化PoCを始めてみましょう

Stable Diffusionが登場して画像AIが一般化したように、ERNIE-Imageは「無料・軽量・高品質」の3拍子が揃った新世代モデルの号砲です。

「月額課金に頼らずローカルで画像AIを使い倒したい」と考えてきた個人・中小企業にとって、2026年春は分水嶺。

今週の小さな一歩が、1年後の制作コストに決定的な差を生むかもしれません。

参考文献

Baiduがイラストも実写風も生成できる画像生成AI「ERNIE-Image」を公開 — GIGAZINE
baidu/ERNIE-Image 公式GitHubリポジトリ
baidu/ERNIE-Image — Hugging Face
Baidu ERNIE-Image: 8B Open-Source Text-to-Image AI Beats Larger Models — StableLearn
「ERNIE-Image」の導入方法・使い方！ — くろくまそふと

この記事は AI Friends からのクロスポストです。

ERNIE-Imageとは？8Bで最強クラスの無料画像AI

主な仕様

衝撃の性能｜ベンチマークで見える実力

なぜ8Bなのに強い？2つの技術的工夫

競合比較｜Stable Diffusion・Flux・GPT Image 1との違い

使い分けの目安

日本市場への影響｜日本語対応と今後

日本語プロンプトの実力

日本企業へのインパクト

使ってみよう｜ComfyUIで動かす手順

よくある質問（FAQ）

Q. 本当に完全無料で商用利用もOK？

Q. 日本語プロンプトはどこまで使える？

Q. ハイスペックPCがないと動かない？

Q. Stable Diffusionからの乗り換え価値は？

Q. 生成した画像の著作権はどうなる？

まとめ

参考文献

ERNIE-Imageとは？8Bで最強クラスの無料画像AI

主な仕様

衝撃の性能｜ベンチマークで見える実力

なぜ8Bなのに強い？2つの技術的工夫

競合比較｜Stable Diffusion・Flux・GPT Image 1との違い

使い分けの目安

日本市場への影響｜日本語対応と今後

日本語プロンプトの実力

日本企業へのインパクト

使ってみよう｜ComfyUIで動かす手順

よくある質問（FAQ）

Q. 本当に完全無料で商用利用もOK？

Q. 日本語プロンプトはどこまで使える？

Q. ハイスペックPCがないと動かない？

Q. Stable Diffusionからの乗り換え価値は？

Q. 生成した画像の著作権はどうなる？

まとめ

参考文献

他の記事

コメント (0)

コメント