在提示词(Prompt)领域,人们早已注意到提示的措辞、结构、上下文等都会影响大型语言模型的输出质量,于是诞生了大量关于提示词优化的教程和方法。但在众多探索中,“礼貌用语”这一维度却鲜少被系统研究。
不少人凭直觉觉得,对AI“客气点”会得到更好的结果。也有人在使用中察觉到对AI更凶,反而AI会更加卖力的工作,像极了被领导打压的我们。
最近,美国宾州州立大学的研究者 Om Dobariya 和 Akhil Kumar 就对此进行了有趣的研究。他们想弄清:提示语的礼貌程度,究竟会不会显著影响大语言模型(LLM)的回答准确率?
研究者从数学、科学、历史等领域选取了 50道基础多选题(每题四个选项,一项正确答案),并将每道题分别改写为 五种语气版本——从 Very Polite(非常礼貌) 到 Very Rude(非常粗鲁),共生成 250 条提示。
每条提示在 ChatGPT-4o 上独立测试 10 次,以回答准确率为指标,并使用 配对样本 t 检验 来分析不同语气之间的显著性差异。
研究结果令人意外——语气确实会对模型表现产生显著影响。
|
语气类型 |
平均准确率 |
误差范围(最低—最高) |
|
Very Polite |
80.8% |
[80%, 82%] |
|
Polite |
81.4% |
[80%, 82%] |
|
Neutral |
82.2% |
[82%, 84%] |
|
Rude |
82.8% |
[82%, 84%] |
|
Very Rude |
84.8% |
[82%, 86%] |
主要发现如下:
- 与 Very Polite / Polite 相比,Neutral / Rude / Very Rude 语气表现显著更好。
- 越不礼貌的提示版本,准确率整体呈上升趋势;Very Rude 语气版本的准确率最高。
- 中性语气处于折中位置,优于礼貌版本但不如极端不礼貌版本。
这些结果显著颠覆了人类的常识:在人类交流中,礼貌往往带来更好的反馈;但在与大语言模型的互动中,“有礼貌”反而不如语气强硬或中性的表达。
但是,这并不意味着我们应该开始“凶”AI。对人类来说,说“请”“谢谢”是一种心理暗示,能让语气变得更积极。礼貌用语不是在影响AI,而是在影响你自己的思维状态。它能让互动变得更像一种高质量的交流,而不仅仅是命令与执行。
虽然目前的研究结果显示语气越不礼貌,模型的表现似乎越好,但随着 AI 技术不断进步、学习能力越来越强,我们不应为了眼前的目的而让自己变得粗鲁或麻木。保持礼貌,是对自己的尊重。
FAQ
Q:礼貌 / 语气对所有任务都有影响吗?
未必。本研究仅在多选题准确率维度上做探索;在开放生成、推理、对话、创意写作等任务上,语气效应可能不同,甚至不显著。
Q:不同模型会对语气有不同反应吗?
是的。研究者指出不同 LLM 架构、训练语料、能力层次等对语气敏感度可能不同。高级模型可能更能忽略语气干扰,聚焦于任务核心。
Q:语气效应是否受语言 /文化影响?
极有可能。礼貌 / 侮辱的表达在不同语言文化中的语义内涵不同。那篇 Yin et al. 跨语言研究就表明,不同语言环境中礼貌提示效果差异显著。
参考资料
- Om Dobariya & Akhil Kumar, Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy, arXiv:2510.04950