悦读

王小川:人和机器终将合二为一

经理人网07-27


如果用技术改变人,将人变成超人,我们会愿意吗?今天就在发生这样的事情,我们大多数人还是采取这种拒绝的态度,因为觉得人更渺小,但是,在未来,人和机器会有一种新的合体,跟技术在一起,我们会变得更加强大,形成新的生态,这是人和机器协同进化的未来。

我们一直在寻求人和机器的关系。

然而在讨论这种关系的时候,就要涉及到历史的趋势,尤其是什么事情是必然会发生的。只有对趋势的了解,对于必然有认知,我们才能够开始探讨人与机器的关系,这是哲学的问题。

纵观历史发展,我们经历了从史前文明、农业文明、工业文明到信息文明的各个阶段的技术突破。其实,离我们最近一次的信息文明其实并没有结束,是计算机和互联网发展推动了信息文明的快速发展。

即使到今天,在中国还有大量的场景并没有信息化,比如教育。但,这时候已经有一个苗头,就是智能文明的降生。说到智能文明,人工智能是我们绕不过去的话题。

AI带来的启蒙

人工智能有广义和狭义之分。狭义的人工智能,讲的就是2012年之后的深度学习,尤其是2016年阿尔法狗的诞生。可人工智能有更长的历史,最早从上世纪60年代的专家系统,之后是特征工程,到现在,我们开始使用的更多的监督学习,尤其是对语音图像的处理能力。

在深度学习和监督学习之后,我们还在做的工作叫做强化学习,或者叫做推理,但是,它们到现在还没有进入到实用阶段。我们今天讲到的深度学习,还停留在现有的语音图像处理阶段。所以,我们对于未来的趋势充满好奇。

我更多是想探讨技术将会带来什么变化。

其实,2016年给我最大的冲击是阿尔法狗,我们称之为一场启蒙运动。相对以前的文艺复兴,它是在探寻人和人,以及人和神之间的关系。阿尔法狗之后,我们关注的是人与机器的关系。

2016年的那场比赛,我参与比较多,我当时在在新浪直播全程见证了李世石被机器打败。在那场比赛中,和我一起做嘉宾的是中国围棋队总教练余斌。赛前,他坚定认为,人一定会打败机器,甚至觉得机器能够下围棋是一件不可理喻的事情。

赛后,余斌教练的精神出现了一定的崩溃,我听说是新浪编辑帮忙打车送他回去的,他已经不知道怎么打出租车了。

当一个机器文明诞生时,对于我们来说,特别是专家,被机器取代的那一刻,自己的内心是难以接受的。之后在医疗、驾驶等各领域都会发生这样的变化。

赛前,我们对阿尔法狗有很多质疑,赛后,我们发现很多年轻朋友把阿尔法狗称为狗狗,对它有很大的接受,围棋九段选手们把它称为“阿老师”。今天,我们通过拟人化的方式接纳了机器。这种接纳的速度会更快一些。

语音为AI入口

什么样的工作将会被取代?这是很多媒体人好奇的问题。我想,这是近期要去解决的回答,还有一个问题是人类是否会被机器取代,这是更加远期的问题。实际上,2016年到现在的3年时间,我永远被追问的最核心问题也是这两件事情,而不是探讨背后的技术。

关于什么样的工作将被机器取代?我们要理解当下机器本身的强大,以及它目前的局限性。在一些媒体或影视作品中的解读中,机器很强大,想象它变成人的形状,能跟人对话,甚至比人更加厉害。实际上,以今天的技术能力、水平,要制造这样的机器人,恐怕还只能处于幻想中。

我用两个观点来阐述现在人工智能本身的局限性。

第一个观点是,今天人工智能已经具有了强大的感知能力。什么感知呢?就是听觉、视觉,跟外界接触之后进行信息低层次处理的感知。现在图像识别里面,机器做人脸识别已经可以超越人了。

另一个就是认知领域,机器就会难很多了,尤其是跟语言相关的。语言是我们对世界的一种抽象认识,就像人类简史里讲到的。我们在森林里去找仙女,这样的事情是有概念有故事的,这个事情机器没有掌握。加上人类还有迁移学习能力,机器目前都不具有。

在这种局限性下,我们可以做一种简单的断言,在认知问题里面机器只能辅助人类,比如说写一部小说或者对话的时候,机器并不能独立工作,但在认知问题、感知问题里面,机器可以独立上岗,就像图像和语音的处理。

我们的做法是以语言为核心,去探讨语言相关的感知和认知,感知是处理语音、图像,认知处理的是对话、翻译和问答。在这个感知中,机器已经可以达到和人相同的水平,但是在认知领域会非常难。

从优先顺序看,最容易做的事情是机器翻译。即使如此,我们可以看到它跟人相比较,也有一定的差距,尤其是,人觉得特别简单的事情,机器并不一定处理很好,而人觉得复杂的问题,机器可以做得很好。这与感知不一样。在感知方面,机器可以比人做的更全面,机器不精准的地方,人也做不好。而认知世界里,机器和人好像是不同类型的人。

在感知领域,我们已经做了语音识别。搜狗是中国今天To C领域语音识别量最大的引擎。因为我们拥有中国最大的输入法,每天有超过6亿次语音识别请求,包括语音修改,目的就是以语言为核心使得人跟人通过感知能进行更好的沟通。

但是,我们觉得这件事不代表技术前沿,我们又做了唇语的识别。之前是用声音转化为文字,现在,我们可以做到用嘴形变化转化为文字。

除了语音识别,还有语音合成,包括风格迁移。在互联网上,除了机器能识别用户以外,当用户在表达的时候,机器能够做更多辅助的工作。我们可以把自己的音色做迁移,变成个性化合成。

我们发布了一款技术,叫做AI的合成主播。就是把语音、图像和文字的关系完全联动起来。之前,我们将嘴形识别变成声音、变成文字,现在我们倒过来,也是同样的技术,能把文字变成声音的表情。我们的AI合成主播,能合成人的声音、嘴形、表情,同时也是我们在全球首个用AI能取代人的分身技术。

AI的合成主播技术已经上线,全球很多媒体都会采购,包括国内最大的一家保险公司在线客服也将采用我们的技术,用机器取代部分人。在感知视觉里,机器和人沟通机器能做到很大的取代人的作用,独立开展工作。

人机“新合体”

未来,随着AI技术发展,机器越来越准确之后,其辅助能够逐步给出标准答案的结果。可以看到,从语言处理当中,我们的努力方向就是从搜索走向问答,以后用语音提问就能给除直接的结果。现在,我们能看到40%的用户提问能给到直接的回答。从搜索到问答,最终的形态是走向个人助理,让机器和人产生后面的交流,能辅助完成一些任务。

人类是否真得会被机器取代,这是我们需要回答的事情。有一个悖论,学术上很有名,我们的感知说,人脑太聪明了,我们竟然能造成出一台比自己更聪明的机器,但是另一个人说,人脑太聪明了,我们不能造出一台比人脑更聪明的机器。

这两个说法都成立,人聪明的时候,到底是否机器能超过人自己,这是很难回答的问题。我的看法是,未来我们做出的人工智能,和人脑不是进行直接的比较,也不是做出拟人的机器成为人工智能发展的未来,而是走不同的道路。

在人最擅长的领域中,机器的设计原理,从目前可知道的技术是没法到达的;但是倒过来,机器所擅长的这些事情,人也做不到。就像一个计算器,我们不会跟一个计算器比拼计算速度怎么样,同时,未来的人工智能在特定领域里的使用,也一定远远超过人。

但是,我们通用的智能,我们的生命力,适应环境的能力,在可见的技术里面,机器也是做不到的。这里我想提到的一个基本观点,首先不要妄自菲薄,我们想机器会把人取代了,因为我们找不着一个方法比人更厉害、能完整替代人的机器。

之前,我们有一种狭隘的理解,我们特别害怕机器在某个领域里面把人给超越了,就像下围棋一样。事实上,我们要去接受机器在很多情况里面能够替代人的部分的功能,或者增强人部分的功能。比如,有很多人都在戴眼镜,想过没有,我们已经被技术入侵了,因为眼镜使得你视力变得更好,因为手机我们每个人变成千里眼、顺风耳。未来一样,技术和人会产生新的融合体。

跟一个猴子说,如果改变基因把你变成人你会愿意吗?猴子肯定不愿意,因为它听不懂,也不理解。同样的,如果用技术改变人,将人变成超人,我们会愿意吗?今天就在发生这样的事情,我们大多数人还是采取这种拒绝的态度,因为觉得人更渺小,但是,在未来,人和机器会有一种新的合体,跟技术在一起,我们会变得更加强大,形成新的生态,这是人和机器协同进化的未来。

我们的使命是,在AI中做简单的工作,让表达和信息变得简单,并在大时代找到自己的位置。

■ 文 / 王小川 搜狗公司CEO(本文首发于《经理人》杂志2019年07月刊)


相关信息