对大模型说“请”“谢谢”,它会对我更“偏心”吗?

AI资讯4个月前更新 智子
18 0

在提示词(Prompt)领域,人们早已注意到提示的措辞、结构、上下文等都会影响大型语言模型的输出质量,于是诞生了大量关于提示词优化的教程和方法。但在众多探索中,“礼貌用语”这一维度却鲜少被系统研究。

不少人凭直觉觉得,对AI“客气点”会得到更好的结果。也有人在使用中察觉到对AI更凶,反而AI会更加卖力的工作,像极了被领导打压的我们。

对大模型说“请”“谢谢”,它会对我更“偏心”吗?

最近,美国宾州州立大学的研究者 Om Dobariya Akhil Kumar 就对此进行了有趣的研究。他们想弄清:提示语的礼貌程度,究竟会不会显著影响大语言模型(LLM)的回答准确率?

研究者从数学、科学、历史等领域选取了 50道基础多选题(每题四个选项,一项正确答案),并将每道题分别改写为 五种语气版本——从 Very Polite(非常礼貌) 到 Very Rude(非常粗鲁),共生成 250 条提示。
每条提示在 ChatGPT-4o 上独立测试 10 次,以回答准确率为指标,并使用 配对样本 t 检验 来分析不同语气之间的显著性差异。

研究结果令人意外——语气确实会对模型表现产生显著影响。

语气类型

平均准确率

误差范围(最低最高)

Very Polite

80.8%

[80%, 82%]

Polite

81.4%

[80%, 82%]

Neutral

82.2%

[82%, 84%]

Rude

82.8%

[82%, 84%]

Very Rude

84.8%

[82%, 86%]

 

主要发现如下:

  • Very Polite / Polite 相比,Neutral / Rude / Very Rude 语气表现显著更好。
  • 越不礼貌的提示版本,准确率整体呈上升趋势;Very Rude 语气版本的准确率最高。
  • 中性语气处于折中位置,优于礼貌版本但不如极端不礼貌版本。

这些结果显著颠覆了人类的常识:在人类交流中,礼貌往往带来更好的反馈;但在与大语言模型的互动中,有礼貌”反而不如语气强硬或中性的表达。

但是,这并不意味着我们应该开始“凶”AI。对人类来说,说“请”“谢谢”是一种心理暗示,能让语气变得更积极。礼貌用语不是在影响AI,而是在影响你自己的思维状态。它能让互动变得更像一种高质量的交流,而不仅仅是命令与执行。

虽然目前的研究结果显示语气越不礼貌,模型的表现似乎越好,但随着 AI 技术不断进步、学习能力越来越强,我们不应为了眼前的目的而让自己变得粗鲁或麻木。保持礼貌,是对自己的尊重。

 

FAQ

Q:礼貌 / 语气对所有任务都有影响吗?
未必。本研究仅在多选题准确率维度上做探索;在开放生成、推理、对话、创意写作等任务上,语气效应可能不同,甚至不显著。

Q:不同模型会对语气有不同反应吗?
是的。研究者指出不同 LLM 架构、训练语料、能力层次等对语气敏感度可能不同。高级模型可能更能忽略语气干扰,聚焦于任务核心。

Q:语气效应是否受语言 /文化影响?

极有可能。礼貌 / 侮辱的表达在不同语言文化中的语义内涵不同。那篇 Yin et al. 跨语言研究就表明,不同语言环境中礼貌提示效果差异显著。

参考资料

  • Om Dobariya & Akhil Kumar, Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy, arXiv:2510.04950
© 版权声明

相关文章

暂无评论

暂无评论...