顺便聊一下为什么无法与聊天机器人进行真正的对话

当然,我们可以要求Siri或Alexa回答问题或执行某一动作。但是,Siri和Alexa只能对预先编程的问题和命令做出回应。你可以在这里找到关于个人助理工作方式的详细解释。它们并不能真正理解你在说什么,而你也无法像与其他人交谈一样与个人助理进行真正的对话。

Photo: iStockPhoto | pikepicture

三岁的孩子能听懂语言。我们的计算机可以击败国际象棋冠军。为什么构建能够理解自然语言的计算机系统如此困难?自然语言是指人们所说的语言,而不是计算机语言。

很自然的想法是,句子的含义是句子中各个单词的含义的组合,而段落的含义是段落中各个句子的含义的组合。语义合成原则(the principle of compositionality)由哲学家戈特洛布·弗雷格(Gottlob Frege)于1882年首次提出,它指出句子(或文本)的含义是各个单词的含义加上词义组合的句法规则。但是,这种字面意思只是人类理解的冰山一角。对语言的理解远不止于了解单词的字典含义和运用语法规则。

世界知识

人们拥有大量的世界知识,可以用于通过推断自然语言话语的隐含意义来理解自然语言。一些世界知识的示例包括:

  • 实体(Entities):我们对实体——人、地点和事物了解很多。我们知道关于巴拉克·奥巴马、泰格·伍兹、巴黎、伦敦、泰姬陵和超级碗等的事实。同样重要的是,我们知道如何在需要时查找信息。
  • 概念(Concepts):我们知道德国牧羊犬是狗;狗属于哺乳纲;哺乳纲属于动物。我们还知道狗有四条腿和一条尾巴,并且狗(通常)会吠叫。
  • 关系(Relationships):我们知道很多关于实体之间的关系。我们知道奥森·威尔斯制作了电影《公民凯恩》。或者,如果我们不知道,我们也知道如何查找。
  • 事件(Events):我们了解很多事件,比如兴登堡号空难。
  • 数字(Numbers):我们知道10比5大。我们了解分数、百分比和货币。
  • 地理(Geography):我们能在脑海中想象出城市、州、国家、水域和山脉的相对位置。
  • 时间(Time):人们能看懂时钟和日历,知道一天的小时数和出生日期。
  • 年龄(Aging):人们知道对新生儿、幼儿、儿童、青少年、成年人和老年人的认知能力和行为有不同的期待。
  • 脚本(Script):我们知道在餐厅吃饭、在商店购买商品或借钱给朋友等典型的事件模式(Schank和Abelson,1977)。
  • 日常生活(Daily living):我们知道如何吃饭、洗澡和使用手机。
  • 心理学(Psychology):我们了解情绪、心情、关系、态度和信仰。
  • 物理学(Physics):我们知道,如果我们扔掉一个玻璃杯,它会掉落、接触地面并且摔成碎片。我们至少对可以统称为“直观物理学”(如Lake等人,2017)的很多原理和概念有基本的了解,诸如重力、摩擦、冷凝、蒸发、腐蚀、弹性、惯性、支撑、容纳、光、热、电、磁、传导等。
  • 生物学(Biology):我们知道人类和大多数动物都需要吃食物、呼吸、睡眠和繁殖。我们知道狮子吃羚羊,鸟儿吃虫子,小鱼吃浮游生物。
  • 统计学(Statistics):我们知道,如果我们掷骰子,平均而言会得到相同次数的1、2、3、4、5、6。
  • 经验法则(Rules of thumb):我们知道大多数但不是所有的狗都会吠叫。我们知道大多数但不是所有的鸟都会飞。我们知道要避开蛇和鳄鱼。
  • 视觉信息(Visual information):当问到德国牧羊犬的耳朵形状时,大多数人都表示会想象德国牧羊犬的样子,并在脑海中检查它的形状(Kosslyn等人,1979)。
  • 空间(Space):我们知道世界存在于三维空间,并且能够理解“上方”、“附近”和 “向左侧”等表述。
  • 数学(Math):我们知道如何对数字进行数学运算。
  • 程序(Procedures):我们知道许多程序。例如:“首先,把车顶起来;然后取下旧轮胎;然后换上新轮胎。”
  • 情绪(Emotions):我们了解愤怒、恐惧、喜悦、悲伤和其他许多情绪。
  • 心情(Moods):说话者的心情,如愉快、烦躁、沮丧等。
  • 态度(Attitudes):发言者的信念、偏好和偏见。
  • 性格(Personality):说话者的性格特征,如紧张、焦虑、嫉妒等。
  • 因果关系(Causality):我们了解因果关系。例如,我打开灯的开关,灯就会亮。
  • 专业知识(Specialized knowledge):银行家对银行业务拥有专业知识。小儿眼科医生对儿童眼睛疾病拥有专业知识。

理解语言需要世界知识

即使是儿童在理解语言的过程中,也会广泛运用世界知识。例如,考虑以下语句:

警察举起手来,拦住了卡车。

正如心理学家艾伦·柯林斯和罗斯·奎里安(Collins和Quillian,1972)指出的那样,人们对这句话的理解远远超出了字面意思,包括了大量的隐含意义。对这句话的理解包括以下事实:

  • 车辆中有司机。
  • 人民服从警察。
  • 车辆有刹车,刹车会导致车辆停止。
  • 司机可以踩刹车,让车辆停止。

即使是八岁的孩子,他们对句子的理解也会包括这些世界知识。

相反,请考虑以下非常相似的语句:

超人举起手来,拦住了卡车。

我们对这句话的理解是截然不同的(Schank和Abelson,1977)。在这里,我们借助于对科幻小说人物的了解,我们理解为超人运用了物理力量来阻止卡车。

我们对这两个句子的理解远远超出了各个单词的含义加上语法规则(这两个句子的语法规则基本相同)。

同样,如果我们听到有人说:

我喜欢苹果。

我们知道他们在谈论“吃”,尽管这句话没有提及“吃”(Schank,1972)。如果你听到:

约翰一边加油一边点烟。

我们的常识告诉我们,这是一个坏主意,我们希望下一句话能告诉我们是否发生了爆炸。

同样,思考一下《法庭上的混乱》(Disorder in the Court, Sevilla,1999年)这本书中的上述示例。看到上述示例,我们都笑了,因为证人误解了律师的问题。但是,请考虑一下,为了正确理解律师的意图,我们需要应用多少世界知识。在第一个示例中,“gear”这个词有多种含义,而证人选择了错误的含义。但如果没有其他背景,我们大多数人看了律师的问题都会推断出这是一起交通事故的法庭案件。

我们可以继续无限地讲述为了理解每个示例中律师的问题而需要的世界知识以及需要做出的所有推论。

人们认为语言理解是理所当然的。但是,为了理解自然语言,人们必须利用他们所有的世界知识,并根据这些世界知识进行推理。尽管人工智能取得了惊人的进步,但我们仍然不知道如何将这些世界知识和这些推理能力构建到计算机中。我们也不知道如何教计算机自己获取这些知识。

参考资料

  • Lake, B. M., Ullman, T. D., Tenenbaum, J. B., & Gershman, S. J. (2017). Building machines that learn and think like people. Behavioral and Brain Sciences, 40. https://doi.org/10.1017/S0140525X16001837
  • Kosslyn, S. M., Pinker, S., Smith, G. E., & Shwartz, S. P. (1979). On the demystification of mental imagery. Behavioral and Brain Sciences. https://doi.org/10.1017/S0140525X00064268
  • Collins, A. M., & Quillian, M. R. (1969). Information processing models and computer aids for human performance. Air Force Office of Scientific Research.
  • Schank, R. C. (1972). Conceptual dependency: A theory of natural language understanding. Cognitive Psychology. https://doi.org/10.1016/0010-0285(72)90022-9
  • Schank, R., & Abelson, R. (1977). Scripts, Plans, Goals, and Understanding: An Inquiry Into Human Knowledge Structures (Artificial Intelligence Series) (1st ed.). Psychology Press.
  • Sevilla, C. M. (1999). Disorder in the Court: Great Fractured Moments in Courtroom History. W. W. Norton & Company.
正文完