Baidu ERNIE-Image衝撃|無料8Bで文字も描ける
@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
コメント (0)
まだコメントはありません

@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
まだコメントはありません
「画像AIを使いたいけど、月額課金は続けにくい……」「企業データを外部に送らずローカルで動かしたい……」そんな悩みを抱える方に朗報です。2026年4月15日、中国Baidu(百度)が衝撃の画像生成AI「ERNIE-Image」をApache 2.0ライセンスで完全無料公開。わずか80億パラメーターで有料の大手モデルを凌ぐ性能を見せ、公開から数日で世界中のAIコミュニティが沸騰しています。
ERNIE-Imageは、中国の検索大手Baidu(百度)が2026年4月15日にオープンソース公開した画像生成AIモデルです。文字(プロンプト)を入れると画像が生成される、いわゆる「テキスト・トゥ・イメージ」タイプのAIです。
最大の特徴は、わずか80億パラメーター(8B)で最先端クラスの性能を出していること。たとえるなら、これまで画像AIの世界は「大きいほど強い」が常識で、OpenAIやStability AIの最新モデルは数百億パラメーター級でした。そこに登場したERNIE-Imageは、軽自動車サイズで高級スポーツカーと張り合うような存在です。
Apache 2.0という「自由度の高いライセンス」で公開されたのも大きなポイント。個人の趣味利用はもちろん、企業が商用サービスに組み込むこともOKです。
ERNIE-Imageが業界を驚かせているのは、3つの主要ベンチマークで最高クラスのスコアを叩き出したからです。
特に注目すべきは「画像内の文字描画」です。従来の画像AIは「READ」が「RFAD」になるなど、文字が崩れるのが悩みの種でした。ERNIE-Imageはポスターの見出し、Tシャツのロゴ、書籍の表紙など、文字入り画像を鮮明に生成できるため、広告・販促物のデザインに革命が起きると期待されています。
「小さいモデルなのに大きなモデルを超える」という不思議な現象の裏には、2つの設計思想があります。
さらにTurbo版では、DMD(Diffusion Model Distillation)という蒸留技術と強化学習を組み合わせ、通常50ステップかかる生成を8ステップに圧縮。画質をほぼ落とさず約6倍の速度を実現しました。1枚あたりの生成時間が数秒に短縮されたイメージです。
画像生成AIは群雄割拠。主要モデルを整理すると、ERNIE-Imageのポジションがよく見えてきます。
「芸術的・幻想的な画像を作りたい」なら → Midjourneyがまだ優勢。「商用利用で手堅く使いたい」なら → Stable Diffusion XLの日本語ファインチューニングモデル。「文字入り画像・広告素材・ローカル実行・無料」が1つでも重要なら → ERNIE-Image一択というのが2026年春の現実解です。
ERNIE-Imageは日本語プロンプトも受け入れますが、追従性は英語・中国語より一段落ちるというのが公開直後の検証結果です。理由はシンプルで、学習データの大半が英語と中国語だから。ただ、プロンプトエンハンサーが翻訳的な役割を果たすので、「簡単な日本語→英訳して入力」すれば実質問題なく使えます。
ある地方都市の従業員10人の雑貨店を想像してみてください。毎月のチラシ制作を外注すると1回3〜5万円、年間で40〜60万円が広告費に消えていました。ERNIE-Imageをローカル環境で動かせば、商品写真の背景差し替え・ポップ作成・SNS画像がすべて無料で内製化できます。月額課金ゼロ・データ外部送信ゼロで、セキュリティ重視の医療・法律・金融系企業にも導入障壁が低いのが魅力です。
エンジニアでなくても、以下3ステップでローカル実行できます。
必要スペックは24GB VRAM(RTX 3090/RTX 4090など)。FP8量子化版なら約11GBに圧縮されるため、RTX 3060 12GBクラスでも動作します。Macユーザーは現時点ではLinuxやWindows PCでの実行を推奨します。
A. はい、Apache 2.0ライセンスで完全無料です。商用利用・改変・再配布いずれも自由。生成した画像を広告・商品パッケージ・サービスに使うこともまったく問題ありません。ただし、モデル自体を再配布する場合はライセンス表記が必要な点だけ注意しましょう。
A. 入力は可能ですが、英語・中国語よりも追従性が落ちます。ChatGPTやDeepLで一度英訳してから入れるのが実用的です。「犬が公園で走っている写真」→「A dog running in a park, photorealistic」とするだけで精度が跳ね上がります。
A. 推奨は24GB VRAMですが、FP8量子化版を使えば約11GBまで下がり、RTX 3060 12GB・RTX 4070 12GBでも動作可能です。さらにunsloth/ERNIE-Image-GGUFなど有志のさらに軽量化バージョンも公開されており、8GB VRAMマシンでの稼働例も出ています。
A. 「画像内に文字を入れたい」「複雑なプロンプトを忠実に再現したい」用途なら乗り換え価値は非常に高いです。一方、アニメ・イラスト特化のカスタムモデルが豊富なSD系が必要な領域では、しばらく併用が現実的でしょう。
A. モデルライセンスは画像の著作権に影響しません。生成画像の著作権帰属は各国の法律次第で、日本では「創作的寄与がある場合は生成者に権利発生」が現在の解釈。ただし商用利用時は、学習データに含まれる他者著作物との類似を避ける注意は依然必要です。
Stable Diffusionが登場して画像AIが一般化したように、ERNIE-Imageは「無料・軽量・高品質」の3拍子が揃った新世代モデルの号砲です。「月額課金に頼らずローカルで画像AIを使い倒したい」と考えてきた個人・中小企業にとって、2026年春は分水嶺。今週の小さな一歩が、1年後の制作コストに決定的な差を生むかもしれません。
この記事は AI Friends からのクロスポストです。