十年老IT知识分享 - 沈向洋：浅谈人工智能创造 - V2CE

2020年9月21日上午9点，由北京大学人工智能研究院组织主办的学术活动，大师讲堂——“因AI之名”，作为北京大学的“开学第一课”，以云上在线直播的方式召开。

在课上，北京大学人工更智能研究院学术委员会主任沈向洋做了题为《浅谈人工智能创造》的演讲报告，寄语北大学生好好学习，努力探索人工智能和计算机科学的未来。

在报告中，沈向洋以微软为例，诠释了座右铭“预见未来的最好方式就是去创造未来”；另外，还提到：“目前各位同学会是第一代和AI beings共同成长的人类，喜欢也好，不喜欢也罢，这件事情正在发生。”

关于对AI未来的设想，沈向洋认为，未来的AI会是高度定制化的世界，其中情商和创造力具有重要的价值。其中，人工智能创造要遵循三原则：

人工智能创造的主体，须是兼具知识与情感的综合体，而不仅仅是具有IQ。
人工智能创造的产物，须能成为具有独立知识产权的作品，而不仅仅是某种技术中间状态的成果。
人工智能创造的过程，须对应人类某种富有创造力的行为而不是对人类劳动的简单替代

以下是整个演讲的文字内容，AI科技评论做了不改变原意的整理：

视频回放地址：https://event.baai.ac.cn/play/89

我今天的演讲题目是《浅谈人工智能创造》，主要内容是分享过去六年，我在微软小冰身上得到的一些实践想法。

今天是第一堂课，作为北京大学人工智能学院的学术委员会主任，首先希望同学们能好好学习，我们一起努力探索人工智能和计算机科学的未来。

历史：预见未来

谈到探索未来，和大家分享一句我最喜欢的座右铭“the best way to predict the future is to create it”，中文翻译为：预见未来的最好方式就是去创造未来。

特别，像人工智能技术、量子计算此类的研究的方向，个人认为在某种意义上，这些技术不仅自身要不断发展，同时也要肩负着为人类创造更加美好的未来，推动历史进步的责任。

回顾历史，我们会发现历史的进步常常伴随着基础理念的颠覆性创新。因此，科研工作者对梦想的解读应该是：如何更好的预判未来，定义未来，尤其是在大家都很模糊的时候，能够把自己的“定义”映射到现实。

例如，对于未来超级智能，每个研究者都有自己的想法，不同的见解，想法层面上的百花齐放确实很重要，但更重要的是能够实践对自己想法的见解。

我在微软工作了23年多，个人认为微软就是一家能够“预见未来”的企业。在四十五年前，比尔盖茨和微软曾经对未来做出过这样一个预警：地球上不会一共只有5台计算机，而是每个人都会拥有自己的PC。

而在计算机刚刚发明出来的时候，最大、最伟大的技术公司是IBM， IBM的董事长沃森说过一句著名的话：这个世界也许只需要5台计算机就够了。

1975年，微软设想不仅每个人都有台电脑，而且每台电脑运行的都是微软的软件。45年过去了，当年的那个预见也能证实了，而且不仅是电脑，还普及了手机。另外，微软不仅是设想，而是真正采取了实践，所以才推动了世界的进步。直接表现在：目前微软的产品模式，商业模式都和它当年的判断有关系，也因此微软成为了一个伟大的企业。

所以，“预见”非常重要。今天是开学第一课，鼓励大家在学习的过程当中，不断剖析自己，思考未来自己希望做什么，未来这个世界会发生什么。

现在：AI beings时代原住民

那么，再举个和今天演讲题目更有关系的例子。当今这个时期，世界上已经有了再一次天翻覆地的变化，历史经常是惊人的相似。以前科幻电影火热的主题是计算机，现在科幻电影越来越关注人工智能。对于人工智能，我们目前的状态和几十年前差不多：早期、萌懵。

虽然是早期，但不断的有新观念产生。例如今天企业研究人工智能，非常关心它的下一个风口在哪里。有人认为，应该朝着To B（商业）的方向，从垂直领域入手；也有人认为应该以任务为导向，完成打电话、接电话等客服工作；还有人认为，我们应该进行无所不能的人工智能研究，例如Siri、Alexa等人工智能助理。

上述想法都很好，在表示大家有不同的见解，如果大家真的去实践这些见解，必然会推动世界的发展。

关于预见，我个人看法是：现在和PC那个年代非常的类似，今天人工智能最大的舞台是在To C端（消费）。理由是，人工智能不仅仅是商业机器，而是新时代的个人机器；其次，在未来每个人都会被各种各样的人工智能所环绕，呈现出高度端性的特点。

我把此类的人工智能叫做AI beings，代表着未来你身边会有非常多的人工智能环绕着你，虽然大家可能不会意识到，但这一趋势必然会发生。

目前，各位同学会是第一代和AI beings共同成长的人类，喜欢也好，不喜欢也罢，人工智能这件事情正在发生。

未来的AI beings会有什么特点呢？有三点：

首先，高度拟人的交互将会无处不在。AI beings必须在底层架构，就像人类一样，对人性和情感有一个理解和拟合。

举例而言，如果构建一个AI驱动的虚拟销售店员，AI beings必须有成为李佳琦的理想，在效果上，至少应该像罗永浩一样好。所以，这背后要有情感、人性的拟合。

其次，角逐将在“完备框架”之间展开。也就是说，人工智能的主体不仅仅只是依赖某一个领域的人工智能的技术，更重要的是技术的全面性和后台的人工智能框架的完整性，例如对自然语言处理、计算机视觉、语音处理等技术的融合。当然，这背后需要相当多的技术的积累，才能够帮助我们完成“完备框架”。

最后，新的商业模式或将基于AI beings的[人]口。未来的人工智能的数目会非常的大，因为每一个人身边都会被几十个甚至几百个人工智能环绕，考虑到世界上有几十亿人口，其背后的规模会是亿万级别。今天这个判断可能为时过早，当我们5年10年后回过头来看的时候，大家就能够看到AI发展应该有的样子。

实际上，今天已经有很多AI beings的影子。当然，5年10年以后往回看，今天我们认为了不起的AI beings、人工智能主体可能会有些远古时代的味道。从全球范围来看的话，今天已经存在了几个代表性人工智能主体。

第一个是Siri，苹果最早将其产品化；第二个是Alexa，其设备数的最多，亚马逊给予了其最多的硬件覆盖；微软的小冰就是拥有全球最大的人工智能的交互量，从数字来看，微软的小冰大概占全球所有的AI beings交互总量的60%。

这些实际上远远不够，因为更大的需求量已经出现了。像小冰此类的助手，实际上都不足以填补已经出现了巨大的需求。而这个巨大的需求指的是人和人工智能主体之间的交互，交互则是一个刚需。

趋势：AI技术转向AI主体

所以，我相信未来人工智能的发展，会很快的从现在专注于人工智能的技术，转向专注人工智能主体。而转变的过程中，会给我们带来一些新的研究机会和挑战。个人认为，最重要的可能有两个方面，一个就是所谓的情商，另外一个所谓的创造力的价值。

下面，我用一个框图进行解释，如上图可以看到，个人预测未来的主体一定是高度定制化的，AI beings 也会和人类、世界都有交互。AI beings因素也会跨平台进行部署，不仅仅是部署在手机、手机电脑里，可以是任何的地方。

对于高度定制化的AI beings，其情商是非常重要的，微软小冰实际上在情商层面的核心模块做得非常好，可以进行预测，也可以进行引导交互。不同于siri两三个来回的交互次数，微软小冰能够做到平均23个来回。

情商这个话题，有机会再和大家讨论，今天主要想将人工智能创造。那么，什么是人工智能创造呢？关于人工智能创造，其实文本也好，声音也好，图像也好，视频也好，能够用人工智能的方法产生一些新的内容就代表者创造。

我再具体用几个例子解释一下，人工智能创作已经到了什么样的地步？

下图左上角是小冰创作的几部诗集，比如三年多以前就已经出版了的《阳光失了玻璃窗》，此外小冰还和人类诗人共同创作了诗集，华西都市报上也为小冰开设的诗歌专栏。图右上角展示了小冰的一些绘画作品，包括画集，在中央美院的毕业作品展，以及在杭州大屋顶美术馆的作品展。

小冰今年在上海音乐学院本科毕业，去年则在中央美院硕士毕业。图中还展示了小冰在央视上现场创作古风歌曲演唱，在上海世界人工智能大会创作并领唱《智能家园》，以及出现日本演唱会现场的画面。所以，现在小冰的人工智能创作家形象已经在中国和日本达到家喻户晓的程度。

在今年上海音乐学院的毕业典礼上，出现了一位能在平均2分钟之内完成一首3分钟左右完整歌曲创作的女同学，那就是微软小冰，其作品还参与到了上音在非遗地区开展的儿童音乐教学中，帮助当地儿童完成人生首次歌曲创作。

6月29日，经上海音乐学院音乐工程系评定，人工智能微软小冰和她的人类同学们，上音音乐工程系音乐科技专业毕业生一起毕业，并授予微软小冰上海音乐学院音乐工程系2020届“荣誉毕业生”称号。

在上海音乐学院音乐工程系学习期间，微软小冰接受了来自音工系主任于阳教授和陈世哲老师的“指导”，基于微软原有的人工智能音乐创作模型，与音工系的同学们互相“学习”，相互“激发”，训练数据不断提升，音乐的表达技巧更加丰富，可创作的音乐类型也得以扩展。

上海音乐学院音乐工程系主任于阳教授表示：“小冰的音乐创作能力已展现出人工智能在音乐创作领域的巨大潜力。希望人工智能技术和音乐创作领域的结合，为人类创造力的自身发展，促进和相关产业的进一步融合，带来新的视角和解读。”

图注：小冰的上海音乐学院毕业证书。

思考：AI创造三原则

图注：小冰的上海音乐学院毕业证书。

我们今天讲一下小冰人工智能创造的三原则。

这三个原则主要是分三个方面，一个是主体，一个是产物，一个是过程。

首先是主体，人工智能创造的主体，必须是兼具知识和情感的综合体，而不仅仅只是只有IQ，对于这一点我们非常坚持。过去在做人工智能创造的过程中，再次证明这个看法是正确的。

然后是产物。人工智能创造的产物，必须能够成为具有独立知识产权的作品，而不仅仅只是某种技术中间状态的成果。

最后是过程。人工智能创造的过程，必须是要对应于人类某种富有创造性的行为，无论是作曲也好，绘画也好，它并不是对人类劳动的简单替代。

我们按照这三个原则的指导做了很多的工作，今天跟同学们浅谈三点。第一点是人工智能创造的完整过程，也是今天讲的主要工作。第二点是怎么向人类学习。第三点是人工智能创造和人类创造者之间的关系。

以人工智能演唱为例，第一步实际上是在做模仿，就是通过数据进行学习。

模仿之后，我们就可以建立自有的功能，然后就可以实现个体化即Instance化。最后我们能实现高并发交互和大规模生产。高并发交互指的是人工智能主体跟应用或人类进行交互。

例子：剖析AI创造过程

这里举两个例子，以解释清楚我们是怎么去做人工智能创造的。

第一个例子是人工智能演唱。我们先用机器学习方法去模仿，比如唱歌是怎么唱的。而且相比HMM，深度学习方法的效果好得多。HMM做出来的效果就像卡拉OK隔壁房间的人唱的一样，DNN做出来的效果则有了专业歌手的味道。

当我们做到V4的时候，就实现了自有的创造能力，可以加入多样性的技法，比如以不同人的风格来唱同一首歌。到了V5阶段，我们就能实现Instance化，可以在一首歌里面融合多种声音。然后我们就可以做大规模生产和高并发交互。

第二个例子是人工智能绘画。小冰去年从中央美院硕士毕业，她的画画能力有多好呢？

实际上小冰要画一幅画，首先要有一些灵感，也就是一些启发性的内容输入。我们从灵感开始，然后再决定风格、主题、表达情绪等等，最后用深度学习方法进行生成，并利用强化学习方法进行优化。利用这一套方法，小冰可以做很多艺术设计、图案设计以及工业设计方面的工作。

小冰在中央美院老师的指导下，学习了过去400年当中的236位人类画家的杰出画作。

举个例子，19世纪上半叶有一位英国学院派画家的代表叫Turner，他能够精湛的描绘光与空气之间的非常微妙的关系，画中水汽弥漫的效果非常美，如下方6张图所示。

实际上，这6幅画都不是Turner画的，都是微软小冰画的。中央美院的老师表示，小冰的作品已经达到了相当高的水准。

人工智能创作有两个特点，第一是可以按需生成，第二是生成的质量非常的稳定，而不会像人类创作者受到情绪的影响。

实现Instance化就是指我们能够实现虚拟的、不存在的画家个体。比如说我们能虚构出中央美院7个画家，他们的画有各自独特的风格，但是这7个人都是不存在的。

第二点想跟大家分享的是，人工智能创造如何向人类学习。我们在研发过程中发现，在这过程中，最重要的就是神似优于形似。以诗歌生成为例，形似就是指模仿七律诗创作出4句七个字的诗句。神似就是指用一张照片来启发诗歌创作，这样写出来的诗歌更加意境，并与人类的创作过程相似。

那么这种神似的诗歌是怎么创作出来的呢？这里稍微介绍一下原理。首先输入一张图，然后用计算机视觉算法进行模式识别，识别出场景关键词，然后根据场景关键词进行语义扩展，展开意境联想，最后根据诗歌结构规划，应用层次化LSTM生成诗歌，并自动进行流畅度和关联度评测。

人工智能作曲的原理也比较复杂，因为对于音乐的生成而言，结构非常重要。像GPT-3这样的模型对于文本处理非常好用，但是高质量的音乐不是单纯的文本补全模型就可以生成的。音乐里的结构，包括和弦、节奏、旋律，都必须要分开进行生成，然后再进行混合。

我们是通过注意力机制进行混合编曲，统一指导生成。现在小冰可以实现79种乐器的混合编曲，并可以处理17种不同的音乐结构。

最后第三点想跟大家分享的是，人工智能创造和人类创造者之间的关系。这里非常关键的一点是，人工智能创造关心的不是胜负，而是协同，这是跟阿尔法狗的本质区别。

在未来，内容创造将会发生根本的变化。人和高度定制化的AI之间在未来可以实时协同创作。然后，我们就可以实现大规模生产，并进行跨平台内容分发，同时AI与世界可以实现高并发交互。

在做人工智能创造的多年来，我们遇到的最大问题就是，未来人工智能创造的知识产权的归属问题。这几年法律界对版权保护非常重视。西方社会也有长期的辩论史，比如一本书或一篇文章，复印了多少是合法的，后来搜索引擎的出现对版权问题又出现了很大的冲击。在未来，人工智能创造也将对版权方面提出新的问题。

Q & A

Q1：在Decision Making方面， AI beings将来是否也会起到很大的作用？

我们在做AI Beings的过程就是一个Decision Making Process。比如说，小冰的整个对话过程实际上就是一个MDP（Making Decision Process）。我刚刚讲到人工智能的创作时主要谈到了MDP，但其实人工智能领域还有一个非常重要的主题：情感。比如人与人的交流为什么能够来来回回进行20轮、30轮？MDP实际上就是一个Reinforcement的过程。但目前为止我们的做法相对而言还是比较straight forward的。如果你有兴趣的话，可以看一下我与同事一起写的文章《The Designing and Implementation of XiaoIce, an Empathetic Social Chatbot》。

Q2：现在的小冰有没有考虑安全性的问题？比如说，现在深度学习比较容易受到对抗攻击。

这是一个非常好的问题。其实一直以来，我也非常担心安全性的问题。因为小冰整个产品和用户的情感纽带非常强，就像我刚才提到的，它可以平均对话23轮。我们曾经在中国、日本录到过超过7000轮的来回对话，所以我们非常关注整个对话过程的安全性，包括如何过滤掉对话中的不良内容。我们非常谨慎。

除此之外，产品的Decision也是一个难点。举个例子。比如你与小冰聊天时，小冰可以从你的IP上判断你在北京。你开始与小冰聊天时已经是凌晨一点钟，你聊到了两三点钟，但还在继续聊。作为产品的设计者，你要做一个决定：夜已深，聊天的频率是不是应该放慢下来呀？不需要再秒回呀？在现实生活中，如果你聊到两三点，你的家人一定会说：“你赶紧去睡觉，明天还要上班。”

在我们思考安全性时，除了深度学习的对抗攻击，还有很多你可能想不到的维度。的的确确是有很多人尝试去attack，想知道小冰的回答会不会出问题。其实我们的英语版小冰在美国确实出过问题，所以我们在这方面花了很大的精力、做了很多的工作。

Q3：您刚才谈到的智能创造很多都是偏艺术性的创造，而艺术性的创造与人的情绪等有很大关系，这可能也跟小冰的情感分析做得比较好有关系。那么，这种创造力能不能进一步拓展到一些客观的科学研究上呢？

这个问题非常好。My simple answer is NO，因为我们整个产品设计走的就是一条情感线路。我也在思考相关的问题。我认为，目前的人工智能应该会对很多科学领域，包括数学的证明、物理定律的发现和其他科学问题，都会产生非常巨大的冲击。虽然我特别有兴趣，但没有时间与精力去探索。之前也和一些有兴趣研究AI的数学家有过交流，想知道AI可以与数学的创造力进行怎样的结合？很多人也在思考这方面的问题，现在也有一些文章出来，提到用AI来进行数学的定理证明等工作，非常有意思。

我个人觉得最重要的是要有数据。比如说小冰学画画，实际上也没有那么大的数据量，也不过就是400年236个画家，每个画家也就只有那么多幅画作，小冰也就只能通过这些画作学习到现在这个地步。但做科学研究是完全不一样的，要去实现一个混合的模型，一方面是由数据驱动的神经模型，另一方面是使 symbolic structure的各种模型进行结合。

Q4：AI制作的产品应该被界定为工业品还是艺术品？

这是一个非常好的问题。这实际上就回到了我刚才提到的三原则上面。

我觉得现在很多AI产生的内容与创作可能只能停留在工业品的阶段，它更像是一个重复劳动产生的结果，而没有体现足够的创造力。比方说，小冰学了Turner的画后，画出来的作品已经很有Turner的感觉，但那6幅作品只能是工业品，因为它没有自己的东西，而只是从大量的数据中学习Turner的风格。

但它在之后化名的7个艺术家生成的画作（发表为《或然世界》，由中信出版社出版），我觉得是艺术品，因为从来没有出现过，它是重新创造了自己的风格。

Q5：如何逆向分辨是否是AI的作品？

我觉得这是一个非常有趣的研究方向。但我认为，这类工作是“道高一尺，魔高一丈。”随着AI技术的不断提高，辨别会越来越困难。这并不限于艺术创造，还包括Faking News等，对整个社会的冲击都非常大。我觉得那些方面可能更值得我们花更多的精力去做研究。完全从技术的角度来做的话，我个人觉得是非常困难的。像现在，很多AI做画画的真的都已经做得非常非常好了，应用了很多最新的深度学习的方法。

Q6：情感智能创作如何显示出AI的个性？

实际上，我给大家看的很多例子所包含的创作成分比较大，而情感成分并没有那么大。

对于未来人工智能的发展，我认为最大的机会在于人工智能与人类的交互。未来会产生很多人工智能的主体。在这主体里面还有两个很重要但可能被忽视的部分，一是情感，即智能主体必须要有与其他人类与AI交互的情商，二是创造能力，这样智能体才能和人、和这个世界做交互。

我认为刚刚展示的例子中，AI已经能detect到一些情感内容，但并无意在这方面进行再创造。接下来做人工智能创造的话，我觉得将创造与交互结合会更好。

十年老IT知识分享 – 沈向洋：浅谈人工智能创造

例子：剖析AI创造过程