人工智能怎么发展的?看看人工智能的进化史就知道了
在今日大数据热潮中,重新焕发青春的神经网络、模式识别、机器学习和人工智能都始于20世纪50年代。1957年美国海军研究室弗兰克·罗森布拉特(Frank Rosenblatt)提出了一种模拟神经元感知、有识别智能的数学模型:感知器(Perceptron)。这个能够在线学习、具有图像识别功能的原型在计算机模拟试验后,有了硬件实现—“ Mark 1 Perceptron”(包括400个光学传感器,用变阻器作为电导的权重,被随机连接到一组“神经元”)。每个神经元电路对应于一个视觉的判断,神经元汇合传感来的电流,以是否超过域值输出来进行逻辑判断。该感知器可以通过样本来学习,在训练中根据误差的反馈,用马达调节变阻器来改变神经元中联接的权重。这是一个只有输入输出、无隐含层的人工神经元网络。该网络有n个传感器的输入,每个神经元都是通过在数学上实现一个n维空间的超平面来区分样本点的模型。其学习的过程是用迭代的算法调节这个超平面的参数,使得它对样本区分的误差最小。这实际上也是一种统计分类,其收敛的算法成为模式识别中线性分类法的基础。这也是认知、心理和智能研究上联结主义的开端。
1958年,在由美国海军组织的发布会上,罗森布拉特公布了此项研究成果。这个在当时还是雏形的人工智能社区引发了人们的热烈讨论和广泛联想。《纽约时报》报道说:“感知器将会是能够行走、会交谈、有视觉、能写作、自我繁殖、感知自身存在的电脑胚胎。”这种智能基于感知和联想,可以对输入的数据进行学习分类和类比判断,是一种模拟动物本能和应用经验的方式。
在随后的年代里,人们很快发现了它的局限性。对于许多模式,感知器并不能通过训练来分辨。比如,在二维平面里的一、三象限上同属一类的点与二、四象限上属另一类的点无法用一条直线划分,这意味着感知器不能识别异或逻辑(XOR)的模式。研究的热情在失望中逐渐消退。1969年,当时人工智能界的领军人物马文·明斯基(Marvin Minsky)和西蒙·派珀特(Seymour Papert)在《感知器》(Perceptrons)一书中总结道:感知器神经网络只能区分线性可分的模式,它甚至不能学习简单的异或逻辑。尽管这对于多层网络来说并非如此,其后也有人发表了关于多层网络的异或逻辑实现的研究,但由于人们已被新的人工智能研究方向所吸引,使得感知器已成昨日黄花,因此大家都认为明斯基权威的论断终结了人工神经元网络的前途。这一方向的研究不幸停滞了十几年,人工智能研究由此转入用逻辑的方法来搜索推理知识的轨道。
正当人们对感知器失望之时,费根鲍姆(Feigenbaum)的DENDRAL专家系统和指导性论文出现了,对智能的模拟采用了种与以往完全不同的思路。它根据给定的有机化合物分子式和质谱图数据,在保存了化学和质谱仪知识的数据库中,利用逻辑推理的方法,从几千种可能的组合中挑选出正确的分子结构。这是一个能产生高端实用价值的计算机新用法。人们憬然有悟,为什么我们不参考人类理性思考的方式,直接从成熟的知识系统中用逻辑来猜测搜索求解?经过几百年发展而来的科学知识是一个巨大的宝藏,科学利用因果关系构造出一个可以理解的世界模型,以此发现许多规律。作为站在智慧高端的人类,我们不必再模仿生物的低级智能,仅需模仿人类的理性,以谓词逻辑进行运算和启发式搜寻,就可拥有高级的智慧。如同机械放大了人力,我们可以用计算机来提高推理能力。这个基于科学推理和知识系统的计算主义智能研究路线使得专家系统在二十世纪七八十年代成为人工智能的代名词。人们相信,实现具有人类智慧的机器只是一个工程问题。1981年,日本投入大量资金,雄心勃勃地开始了第五代计算机的研究。然而在长达十几年的专家系统探索中,人们认识到有两个根本问题无法绕过。一是交互问题,专家系统只能模拟人类深思熟虑的理性。对于机器人来说最需要的是感知、互动,而不是人类最无趣的抽象思维技能。二是规模扩展问题,想象中无限美好的前景,只限于较窄一类问题的专家咨询,或小规模游戏问题的演示;将证明过的原理应用于实践中时,各种复杂因素的组合需要巨大的计算量,对比人类瞬间都能按直觉做出的判断(例如识别人脸,穿过有家具的房间)等,这些对计算机来讲则十分困难。80年代,人工智能的主流研究虽然有一些商业应用,但思想上沉闷乏味,最终进入冬天。
科学研究的激情犹如新颖时装的热潮,各种不同的思路总要等到主流新奇穷尽、精彩衰竭之后才会引人注目。1982年,美国加州理工学院物理学家霍普菲尔德(J. J. Hopfield),在带有隐含层的神经网络上,用反向传播(Back Propagation,BP)算法完成了异或逻辑的学习。他对学习算法收敛性的物理解释直观易懂,再次掀起了联结主义智能的热潮。其实多层神经网络能够实现异或逻辑,早在70年代就有研究论文。1974年保罗·韦伯司(Paul Werbos)给出了如何训练一般网络的BP学习算法,当时却无人重视。直到80年代,BP算法才被戴维·鲁姆哈特(David Rumelhart)、杰弗里·欣顿(Geoffrey Hinton)、罗纳德·威廉姆斯(Ronald Williams)、戴维·帕克(David Parker)和雅恩·乐昆(Yann LeCun)重新发现。
单层的感知器只能辨识线性可分的模式。而具有隐含层(多层)的神经网络能够识别所有的逻辑模式,具有简单链式法则的BP算法,为其奠定了学习算法的基础。经此突破后,由于语音和手写体字识别的市场需求以及硬件技术的成熟,到了90年代,对人类智能模仿的研究再次回到以模式识别为主的道路上。虽然BP算法在理论上适用于任意多层的神经网络,但其误差传播的梯度会随着层数的增加而扩散,易使非凸目标函数陷入局部稳定平衡点而无法提高效益,或“死记硬背”只记住样本而不会类推的局面。所以,单纯的BP算法只对浅层的网络起到作用。为此,有许多研究集中在对多层神经网络学习算法的改进上,出现了各种算法,如统计热力学的模拟退火技术,用波尔兹曼模型说明趋于全局稳定的学习算法,模拟进化过程能迅速收敛的遗传算法等。但是自80年代起的20年间,各种效率较高的模式识别模型(如向量机、Boosting等)也不过是与浅层神经网络相似的数学模型。
浅层的神经网络仅仅是具有简单分类能力的低阶智能。模式识别在技术上是利用特征进行分类的,通常依赖于人工选择辨识的特征。这对于模糊特征等复杂的情况具有极大的局限性。而人类的大脑甚至动物的大脑都具有深层的网络结构,底层对感知信号进行特征的抽象,高层对这些特征进行归纳,并做进一步抽象,逐层辨识抽象,从而能够分析复杂情况。学习的关键是如何将深层的潜力变成功能。在2006年欣顿(Hinton)等人发表深度习文章之前,对深层神经网络的学习都未能在理论上有所突破。
如果把每层神经元的映射看成对输入属性的抽象,那么采用某种反馈奖励机制进行预先学习,就有可能在样本中自动地聚合出一些属性的抽象,而合适的抽象又能在后续样本训练中被强化,作为下一层模式识别所需要的特征。这种预先学习是无监督学习,类似于人的智商悟性;有目标训练的学习称为监督学习,类似于上课学习。欣顿的创意是基于深信度网(Deep Belief Networks,DBN)的深度学习,在深层网络中逐层采用无监督的预先学习和随后的监督学习,从而提高学习效率。该方法在语音识别上获得了很大的成功。另一方面,动物大脑在出生之始并非是同质通用的构造,其底层如视神经、听觉神经都是由遗传而得的分化结构。早在20世纪60年代休布尔(Hubel)和威赛尔(Wiesel)就发现猫脑皮层中独特的网络结构可以有效降低学习的复杂性,于是人们提出了卷积神经网络(Convolutional Neural Networks,CNN)。具有局部连接和参数共享的卷积数学模型含有较少的参数和位移以及缩放扭曲等不变性,作为神经网络的底层部分可以很容易地学习二维图像特征提取,用于直接输入原始图像的监督训练。这种具有“先天”视觉底层结构的人工大脑很快就在图像识别领域大放异彩。