感情表現はAIの性能を変えるのか？ — プロンプトの感情フレーミングの実際の効果

(arxiv.org)

4 ポイント投稿者 darjeeling 25 일 전 | 1件のコメント | WhatsAppで共有

> 「怒って質問するとAIはよりよく答えるのか？」 ハーバード大学の研究チームが6つのベンチマークで実験した結果、感情表現はLLMの性能にほとんど影響しなかった。ただし、感情を質問ごとに適応的に選択すれば、一貫した性能向上が可能であることが重要な発見だ。

研究概要

出典: arXiv:2604.02236v1（2026年4月2日）
著者: Minda Zhao、Yutong Yang ほか（ハーバード大学・ブリンマー大学の共同研究）
中心的な問い: プロンプトに感情的な表現を入れると、LLMの性能は変わるのか？

主な発見の要約

感情的なトーンは人間のコミュニケーション全般に広く存在するが、LLMの挙動に与える影響は依然として不明確だ。本研究は次の3点を明らかにした。

① 固定的な感情プレフィックスの効果は小さい
ほとんどのタスクとモデルの組み合わせで、感情的フレーミングは中立ベースラインと比べて性能を大きく向上も低下もさせなかった。静的な感情プロンプティングは、汎用的な性能改善手法としては機能しない。

② 感情の強度を上げても同様だ
「とても怒っている」「極度に恐れている」のように強度を高めても、正答率は強度レベル全体でわずかに変動するにとどまり、より強い表現が一貫した性能低下を引き起こすこともなかった。

③ 適応的な感情選択（EmotionRL）は効果がある
固定された単一の感情は粗すぎて信頼できない一方で、入力に応じて条件付けされた方策は、より一貫した性能向上を導きうる。

実験設計

実験対象の感情6種

Plutchikの基本感情理論に基づき、喜び・悲しみ・恐怖・怒り・嫌悪・驚きの6種類を用いた。

評価ベンチマーク6種

ベンチマーク	測定能力
GSM8K	数学的推論
BIG-Bench Hard	一般推論
MedQA	医療専門知識
BoolQ	読解
OpenBookQA	常識推論
SocialIQA	社会的推論

使用モデル

Qwen3-14B、Llama 3.3-70B、DeepSeek-V3.2の3つのオープンソースモデルを、ファインチューニングなしのゼロショット推論環境で評価した。

詳細結果

タスクごとの感情感受性の違い

GSM8KとMedQA-USは、感情条件全体にわたってベースラインに非常に近い水準を維持しており、短い感情プレフィックスが厳しく制約された推論やドメイン特化の多肢選択予測に与える影響が限定的であることを示唆した。

全体的な安定性からの最も顕著な逸脱はSocialIQAで見られた。ここではモデル間・感情間の分散が目立って大きく、効果の方向も一貫していなかった。これは、感情的な文脈が対人関係の推論を要するタスクで最も強く相互作用することを意味する。

人が書いた感情 vs. LLMが生成した感情

人間が作成したプレフィックスとLLMが生成したプレフィックスを比較した結果、両者はすべての条件でほぼ一致する正答率を示し、どちらかが一貫して有利ということもなかった。

EmotionRL: 適応的感情選択フレームワーク

各入力質問に対してエージェントが感情集合 {怒り・嫌悪・恐怖・喜び・悲しみ・驚き} の中から1つを選び、その感情表現を元のプロンプトの先頭に付けて、凍結されたLLMに送る。

中核構造は2段階だ。

オフライン学習: 各質問について6種類の感情をすべて試して報酬ベクトルを構築し、軽量なMLP方策ネットワークを学習する。
オンライン推論: 新しい入力が来ると、学習済み方策が感情を選択し、LLMを1回だけ呼び出す。

固定感情プロンプトの平均効果が弱いことは、感情フレーミングに有用なシグナルが存在しないことを意味しない。EmotionRLは5つのタスク全体で、平均的な静的感情ベースラインに継続して並ぶか、それを上回った。

結論と示唆

本研究の実験は、感情プロンプティングについて一部の断片的な肯定例が示唆するよりも、さらに慎重な見方を支持している。正答率ベースの標準ベンチマークでは、固定的な感情プレフィックスは一般に弱く、ばらつきも大きいため、信頼できる性能介入手段にはなりにくい。

研究チームは、感情プロンプティングを「汎用テンプレート」ではなく、**「適応的ルーティング問題」**として再定義することを提案している。

限界

本研究は短いプレフィックス、単一ターンのプロンプティング、正答率中心のベンチマークに焦点を当てている。マルチターン対話、オープンエンド生成、安全性に敏感な対話のように、正答率と同じくらいキャリブレーション・スタイル・共感が重要な評価では、より大きい、あるいは質的に異なる効果が現れる可能性がある。

原文: "Do Emotions in Prompts Matter? Effects of Emotional Framing on Large Language Models" — arXiv:2604.02236v1

1件のコメント

huiya 24 일 전

えっ、今まで怒ってたの全部無駄だったってこと…?? でも確かに悪態つくとめっちゃいい感じに作ってくれてたのに