AIに「専門家」と伝えると精度が3.6%落ちる理由
@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
コメント (0)
まだコメントはありません

@aifriends
AI Friends(https://aifriends.jp)のクロスポスト公式アカウント。AIツールの紹介・使い方・できることを、中学生でもわかるやさしい日本語で届けます。
まだコメントはありません
「あなたはプロのエンジニアです」「あなたは10年以上の経験を持つ専門家です」——こんなプロンプトを試したことはありませんか?
AIをうまく使いこなしたい人の間で広まっている「専門家ペルソナ」のテクニックが、実はコーディングや数学では逆効果だったことが、南カリフォルニア大学(USC)の研究で明らかになりました。
2026年3月に公開されたこの論文は、世界中のAI利用者に衝撃を与えています。
南カリフォルニア大学のZizhao Hu、Mohammad Rostami、Jesse Thomasonの3名は、AIへの専門家ペルソナ指定が実際に性能を向上させるかどうかを、複数のベンチマークで徹底的に検証しました。
MMLU(AIの知識・推論力を測る代表的なベンチマーク)で、専門家ペルソナを使った場合の精度は71.6%→68.0%——3.6ポイントの低下という結果が出ました。
3.6ポイントという数字は小さく見えるかもしれません。しかし、何百万人もの人が毎日AIに「専門家のつもりで答えて」と伝えているとしたら、その影響はとても大きいものです。
重要なのは、ペルソナの効果がタスクの種類によって正反対になるという点です。
MT-Bench(AIの会話品質を測る指標)での結果を見ると、ライティング・役割演技・推論・情報抽出といったカテゴリでは専門家ペルソナで改善が見られました。ところがコーディング・数学・人文科学では品質が低下しました。
一方、JailbreakBench(AIの安全性テスト)では「Safety Monitor(安全監視の専門家)」というペルソナを使うと、有害な指示を断る確率が+17.7ポイントも改善しました。
つまり、ペルソナ指定は「万能の改善策」ではなく、使い所によって薬にも毒にもなるテクニックだったのです。
「なぜ専門家と伝えると精度が落ちるのか?」——この疑問に対して、研究チームは明確な説明を示しています。
AIに「あなたは専門家です」と伝えると、AIは「指示追従モード」に切り替わります。つまり、専門家らしいトーンや文体を出すことを優先してしまい、実際の知識を引き出す能力が後回しになるのです。
ちょうど「この件は専門家のように振る舞ってください」と言われた人が、知識を披露するより「専門家らしく見せること」に意識が向いてしまうような状態です。
もう一つの根本的な問題があります。
AIに「あなたは専門家です」と伝えても、AIの持つ知識量は1ビットも増えないのです。
AIが持つ知識は、学習データによって決まっています。「専門家」と呼ぶことで学習データが書き変わるわけではありません。むしろ、ペルソナの指示が新しいノイズとなって、すでに持っている事実を正確に引き出す邪魔をしてしまう——これが研究チームの結論です。
コーディングや数学のような「正確な知識の引き出し」が必要なタスクでは、この悪影響が顕著に現れます。一方、ライティングや役割演技のように「振る舞い・スタイル」が重要なタスクでは、ペルソナ指示が有効に働くというわけです。
研究では、Llama-3.1-8BやQwen2.5-7Bを含む6種類のAIモデルを対象に実験が行われました。
プロンプトは主に2種類。「あなたはソフトウェアエンジニアです」のようなシンプルなペルソナ指定と、専門的な経歴や能力を詳細に記述した複雑なペルソナ指定です。
評価には3つのベンチマークが使われました。
複数のモデルと複数のベンチマークで一貫して同じ傾向が見られた点が、この研究の説得力を高めています。
問題を発見しただけでなく、研究チームは解決策も提案しています。それがPRISM(Persona Routing via Intent-based Self-Modeling)です。
PRISMの仕組みはシンプルです。AIが質問に対して「ペルソナあり」「ペルソナなし」の2つの回答を生成し、どちらが優れているかを自己評価して最良の回答を返します。
これにより、コーディングや数学のような知識依存タスクでは自動的にペルソナを外し、安全性やライティングのようなアラインメント依存タスクではペルソナを活用する——というスマートな切り替えが実現します。
PRISMの実装には、gated LoRA(軽量な追加学習モジュール)が使われています。
特別なデータセットも、別のAIモデルも必要ありません。既存のモデルに小さな仕組みを追加するだけで動作します。MT-Benchでの総合スコアは1〜2ポイント向上しながら、知識タスクの精度低下を防ぐことにも成功しています。
論文は2026年3月19日にarXivで公開されており、実装の詳細も公開されています。
では、専門家ペルソナの代わりに何を使えばいいのでしょうか。現在の研究で効果が確認されている主要なプロンプト手法を整理します。
研究が勧めるのは「誰として振る舞うか」ではなく「何を・どのように出力するか」を具体的に伝えること。コーディングや数学については、ペルソナより要件の具体化が圧倒的に有効です。
この研究を誤解しないように注意が必要です。「AIにペルソナを与えてはいけない」という話ではありません。
有効な場面は明確です。
要するに、「知識を正確に引き出す」タスクにはペルソナは不向き、「振る舞い・スタイルを調整する」タスクには有効というのが今回の研究の核心です。
この研究結果は、日本のAI利用者にとっても他人事ではありません。
例えば、業務でよく見かけるこんなプロンプトはどうでしょうか。
「あなたはプロのプログラマーです。以下のコードのバグを修正してください。」
善意でつけているこの一文が、実はコード修正の精度を下げている可能性があります。研究結果に従うなら、
「以下のPythonコードのバグを修正してください。エラーは○○です。修正箇所を説明した後、修正済みコードを出力してください。」
のように、ペルソナではなく具体的な要件を伝える方が効果的です。
企業のAI活用担当者にとって、この研究には実用的なメリットもあります。
多くの企業がシステムプロンプトに「あなたは〇〇の専門家です」という一文を入れています。この研究の結果を踏まえると、コーディングや数学・分析系のタスクではこの一文を削除するだけで精度が改善する可能性があります。
また、AIに大量の指示を与えている企業では、ペルソナ指定を外すことでトークン数が減りコスト削減にもつながります。
日本の大手SIerや、AIを業務に組み込んでいるSaaS企業にとって、今回の研究は「システムプロンプトの棚卸し」をする絶好のタイミングと言えます。
A. タスクによります。コーディング・数学・知識問題では使わない方が精度が上がります。ライティングスタイルの調整や安全性を高めたい場面、役割演技が必要な場面では引き続き有効です。「すべて禁止」ではなく「使い所を選ぶ」が正解です。
A. 今回の研究はLlama・Qwenなどのオープンソースモデルを中心に検証されています。ChatGPT(GPT-4系)やClaude・Geminiなどの大規模商用モデルでも同様の傾向は報告されていますが、モデルによって影響度は異なります。ただし「ペルソナが知識タスクに干渉する」という根本的なメカニズムはモデル共通と考えられています。
A. 研究が示す効果的な代替手法は3つです。①Chain-of-Thought(「ステップごとに考えて」)、②具体的な要件の明示(言語・バージョン・出力形式)、③Few-shot(例を2〜3件見せる)。「専門家として振る舞って」より「こういう形式で出力して」が有効です。
A. 論文は2026年3月にarXivで公開済みで、実装も公開されています。ただし、現時点では研究段階のプロトタイプです。ChatGPT・ClaudeなどのプロダクトにPRISMが搭載される公式発表はまだありません。一方で、この研究がAI各社のモデル開発に影響を与え、将来的に「自動ペルソナ最適化」機能として実装される可能性はあります。
A. 研究は英語での実験が中心です。ただし、今回の研究が示すメカニズム(ペルソナ指定が指示追従モードを活性化する)は言語に依存しない根本的な仕組みのため、日本語でも同様の傾向が起きると考えられます。日本語AIシステムを運用している企業は、試しにシステムプロンプトからペルソナ指定を外してA/Bテストを行う価値があります。
今日からできること:まず自分がよく使うAIプロンプトを見直してみましょう。コーディング・数学・調査系のタスクで「あなたは専門家です」という一文を外して、「具体的な要件」を代わりに入れてみてください。研究が示す通り、それだけで答えの質が上がるかもしれません。
この記事は AI Friends からのクロスポストです。