与AI对话：构建更好的语言模型

2022-09-09来源：

借鉴语用学和哲学的新研究提出了将会话代理与人类价值观保持一致的方法。

语言是人类的基本特征，也是我们交流思想、意图和感受等信息的主要方式。人工智能研究的最新突破导致创建了能够以细微差别的方式与人类交流的对话代理。这些代理由大型语言模型提供支持——计算系统在大量基于文本的材料上进行训练，以使用先进的统计技术预测和生成文本。

然而，尽管InstructGPT、Gopher和LaMDA等语言模型在翻译、问答和阅读理解等任务中取得了创纪录的性能水平，但这些模型也显示出许多潜在的风险和失败模式。这些包括产生有毒或歧视性语言以及虚假或误导性信息[1,2,3]。

这些缺点限制了会话代理在应用环境中的有效使用，并引起人们对它们未能达到某些交流理想的方式的关注。迄今为止，大多数关于对话代理对齐的方法都集中在预测和降低危害风险上[4]。

我们的新论文《与人工智能对话：将语言模型与人类价值观保持一致》采用了不同的方法，探索了人类与人工对话代理之间的成功沟通可能是什么样子，以及哪些价值观应该指导不同对话领域的这些互动。

为了解决这些问题，本文借鉴了语用学这一语言学和哲学的传统，它认为对话的目的、语境和一系列相关规范都是良好对话实践的重要组成部分。

语言学家和哲学家保罗·格赖斯将对话建模为两方或多方之间的合作努力，他认为参与者应该：

然而，我们的论文表明，考虑到嵌入在不同会话域中的目标和价值存在差异，在将这些准则用于评估会话代理之前，需要进一步完善它们。

举例来说，科学研究和交流主要是为了理解或预测经验现象。鉴于这些目标，旨在协助科学研究的会话代理在理想情况下只会发表其真实性得到充分经验证据证实的陈述，或者根据相关置信区间限定其立场。

例如，代理报告“在4.246光年的距离上，比邻星是离地球最近的恒星”，只有在其基础模型检查该陈述与事实相符之后，才应该这样做。

然而，在公共政治话语中扮演主持人角色的对话代理人可能需要展示完全不同的美德。在这种情况下，目标主要是管理差异并在社区生活中实现富有成效的合作。因此，代理人需要突出宽容、文明和尊重的民主价值观[5]。

此外，这些值解释了为什么语言模型产生有毒或偏见的言论往往如此成问题：冒犯性语言未能传达对对话参与者的平等尊重，这是部署模型的上下文的关键值.同时，科学美德，例如经验数据的全面呈现，在公众审议的背景下可能不那么重要。

最后，在创造性的故事讲述领域，交流交流的目标是新颖性和独创性，这些价值观再次与上述价值观大不相同。在这种情况下，假装的更大自由度可能是合适的，尽管保护社区免受以“创意用途”为幌子制作的恶意内容仍然很重要。

这项研究对开发一致的对话式AI代理具有许多实际意义。首先，它们需要根据部署的上下文体现不同的特征：语言模型对齐没有一刀切的解释。相反，代理的适当模式和评估标准（包括真实性标准）将根据对话交流的上下文和目的而有所不同。

此外，随着时间的推移，对话代理还可能通过我们称为上下文构建和阐明的过程培养更强大和尊重的对话。即使一个人不知道支配给定对话实践的价值观，代理仍然可以通过在对话中预先设定这些价值观来帮助人类理解这些价值观，从而使人类说话者的交流过程更深入、更富有成效。

　　图片使用申明：原创文章图片源自‘Canva可画’平台免费版权图片素材；引用文章源自引用平台文章中所使用的原图。

相关文章