机器学习的认知模式探讨
动物依靠本能与经验进行模式识别,这种在意识之外的辨识能力称为直觉。古人认为,有某种神秘机制的直觉联系,在看似随机的占卜中得到卦象,通过综合已知信息,依卦辞可以做出预测。在这过程中,只有解卦的推理在可理解的意识层次,而核心的直觉环节,在常人的理解之外。这种难以理解的直觉和存在着误差的认知模式,被讲求理性的科学所排斥。
理性时代的辨识和预测,依赖于在意识层次上的逻辑求证。科学方法不外乎归纳和演绎。归纳是从已知的经验寻找相符的规律;演绎则从确立的原理出发,依靠逻辑推导涵盖对象的性质。科学的进步,从经验的归纳开始,走向可以进行演绎推理的理论体系,极大地推动了自然规律的发现和科技的进步。几百年来,抽象的概念,如时间、空间、力、粒子、波、场、能量等等,已经用因果关系的思想模式,建造为不被质疑的真实,变成据以进一步想象推理的基石。归纳与演绎法在人类脑力可及的范围内相辅相成,其前提、过程和结论皆在人的意识监督之下,所得的结果能被想象,自洽和谐,得以信赖。凡是不能在这种科学体系中得到解释的机制,都被看作没有根据,视为迷信。
人工智能的研究也走过从模仿感性辨识到理性演绎的道路。在20世纪50年代,它通过研究模拟动物应用经验方式的感知器(perceptron),对输入数据学习并进行分类,实现联想推测。到了70年代,转轨到直接模仿人类的理性思维,以谓词逻辑进行运算和启发式搜索,根据科学知识资料作答。科学用因果关系构造了可以演绎推理的世界模型,几个世纪万众合力的研究已经累积起丰富的知识。人们曾经相信,在严谨的数理逻辑理论下,机器以其精确快捷的逻辑功能,依靠已有的科学知识,会突破人类推理能力的局限,超越人类智能。可惜的是,这曾经寄予的厚望只停留在实验室阶段。今天在市场应用中大放异彩的人工智能,依赖的不是在规则下演绎的推理,而是用机器学习产生近乎直觉的智能。虽然机器学习的过程清晰,算法明确,结果有据可查,但参数演化如同卦象形成一般复杂多变,巨量关系的计算犹如解卦般难以深究。
给予一组样本,从选项中挑出一个最“合理”的答案,这个类比判断的能力,被用于度量人的智商。它与拥有的知识无关,而是赖以学习知识的功能。学习算法通过计算机,模拟这种根据样本类比判断的功能,赋予机器智商。机器利用输入的样本数据,调整表示规律和分类的通用数学模型参数,汲取样本中的知识,然后以拥有该知识的模型作答。通常这些参数的数量是以万计到百亿计。虽然这种数学模型很简单,但是却适用于各种辨识模式,足以涵盖复杂的预测和分类问题。这种调整模型参数以及应用模型的计算机制,在数学上都是精确有效的。但巨大数量的可变参数,难以把简单结构数学模型的一个具体的辨识判断过程,解析成像物理规律那样的单纯过程的因果性机制,也无法用简单逻辑推演的跟踪来获得理解。机器学习直接依赖于样本来寻找规律,类属归纳,但不像通常归纳法得出可供分析理解的结论,而是将训练的结果表示为机器所用的参数,越过可供人理解的中间环节,直接付诸于应用。在无数参数错综复杂相互影响的乱麻中,以直觉般犀利做出综合判断。能学习的人工智能运作在人脑的监督之外。
对机器学习的质疑是它的可靠性。确实,根据有限的样本,不可能有完美无误的预测,无论样本的数量有多少,理论上它总有可能出错。尽管数学证明,提供足够多随机样本的数据让机器学习,它就有足够大的概率做出误差足够小的判断预测。但是,什么是足够多,怎么知道它们是否足够随机,到底有多大概率、多小误差?这些在具体实践中是无法确知的,只能在经验中进行比较。这与科学理论斩钉截铁的论断一对比就显得低弱。但是,科学的指导在实践上也经常出错,如经济预测的社会理论经常不靠谱,健康饮食的科学建议也年年在变,我们宽容地把这归结为理论的误用。其实它在实践的效用,与机器学习并无本质区别。
认知的智能是在生存竞争中进化而来的,并非追求不可企及的绝对真理,而是为了在现实中更有效用。从追求真理的角度,通过样本学习获取知识的机器学习并不可靠,用欧洲所有的天鹅作为样本,也不可能判别出澳洲的黑天鹅,但在遇到黑天鹅之前,白天鹅的经验归纳大多是对的,在实践中有用。机器的图像识别、语音识别总有差错,围棋落子未必最优,但与人相比已经胜出,它在科技发展和现实生活中带来的进步和便利,与物理和其他科学并无二致。理性是人类在意识层次上理解因果关系的种精神需要,而世上的真实与我们能否理解无关。通过机器学习由大量数据归纳形成、由机器直接应用的复杂规律,必将越出我们逻辑思考的分析能力。它的发展倾向于脱离人类干预,更多地依赖硬件速度的提高、容量增大、有效算法和数据的丰富。现在的机器学习还依赖于人来选取模型、算法和样本数据,然后交付机器自动运作,只是随着技术进步,人的参与会越来越少。这个进步就像我们从过去亲力亲为的生产者,上升为不再参与操作的管理者,最后将变为自动工厂的拥有者。面对人工智能,我们只有两种选择:因不能理解而排斥,或接纳这种无法透视但经验上有效的机器认知模式。