4.5  智能模型与形象思维

    用一个极端简化的模型可以把动作感觉联合表现为一个三元组(S1RS2)S1代表初始状态下的感觉,R代表动作,S2代表动作之后的终态感觉,即动作的效果。我们可以假定S1S2R连成一个总的模式存在自联想存储器之中,总模式中任一部分都可以从联想存储器中取出总的模式,即得到其他部分。根据输入和输出模式的不同,这个联想存储器可以有学习、动作、预测等不同的工作方式。学习工作方式的大致原理是,由一个随机信号源发出一个动作模式RR驱动执行机构(例如肌肉)对外界(例如关节角度)发生作用,使感觉(关节角度)S1变为S2,此时RS1经过一段延时等待S2到达后一起被存人联想存储器,就完成了一个学习过程。这样经过多次学习的结果,联想存储器就具备了随意运动的能力。当上层模块需要完成某种动作时,只要对下层模块发出所要完成的目标感觉S2’,此后在下层模块已学好的联想存储器中,S2 代替S2与当时的感觉S1一起作为输入模式,由联想得到RR输出到执行机构完成动作后,得到实际的感觉S2S2与经过延时的S2 进行比较,如果一致则表示动作完成,如果不一致则需要再学习。

    以上所述的学习机制是学习的最低层的方式,也是最基础的方式,称为随机学习。其特点是所需要的先验知识较少,但学习效率较低,实际上动物的学习往往是以一定的本能为基础的,这样就可以大大缩小随机探索的维数和范围,而不像上述模型那样从“白板”开始。这个联想模型实际上也要求一定的先验知识,即哪些感觉应该与哪些动作产生关联。这样的先验知识是动物在进化过程中形成的一种合理的神经结构。例如可以用对老鼠训练踏板和电击之间的连合,即通过电击使老鼠不去踏某个踏板,也可以用制造呕吐感来训练老鼠不吃某种味道的东西,哪怕是在吃后6小时的催吐也可以通过训练造成联想,或称为条件反射。但是如果想把踏板与呕吐联合起来,或是在某种味道与其后的电击之间形成条件反射则非常困难,因为在老鼠的学习通道中不包含这种“不合情理”的联合。由于是低层次的学习方式,在成年人之中这种低效率的学习方式很不明显,大多数只用于小范围的参数搜索。但在婴儿身上我们经常可以看到一些随机的动作,这些动作是随机学习的表现。成年人只在万不得已的情况下才起用大规模的随机学习机制。    成年人随机学习的典型例子是在一个完全不会游泳的人落入水中时的学习过程。不会游泳的人落水时,由于呼吸困难的紧迫性,出现不容回避的困境,既没有可模仿的对象,也没有思考的余地,只能拼命乱动,以求通过随机学习在淹死前学会游泳。由于随机学习效率比较低,也可能有人学会游泳,但有的人还没学会就淹死了。对于这种落水后的胡乱动作,通常只被看成是“垂死挣扎”,不被认为是一个学习过程。但这确实是一个名副其实的学习过程。20世纪50年代我国一位有名的游泳教练穆成宽就曾采用过这方法教游泳,称为深水教学法。在要学游泳的人腰上拴根绳子,让他们跳入水中,教练拉着绳子的另一头,看看快不行了就拉一下绳子把学员提出水面再放下去,保护其不被淹死,这样可以使学员通过随机学习在很短的时间里学会将头部浮出水面的动作。

    随机学习的一个重要结果,就是使人获得了随意运动的能力。由于我们的神经系统中的神经传导有上行和下行之分,上行的感觉信息是我们有可能意识到的,而下行的控制信息是我们意识所不可及的,我们可以随意地抬起手来,但是我们不知道抬起手时我们向哪些肌肉发出了什么样的神经脉冲,只能通过手的位置感觉得知手确实按我们的意愿抬起来了。在上面的S1RS2模型中,这意味着由上层来的目标S2’,汇同S1一起得到控制信息R,从而执行了应有控制,得到与S2 一致的S2,而R是我们感觉不到的下行控制信息。顾名思义,随意运动的本意是指由意识控制的或者说有意的、追随意识的动作。但是我们在这里所说的随意运动的含义要更广一些,既包括直接由意识控制的动作,又包括由意识间接控制的动作,也包括无意识的动作。这是由于此时由意识直接控制的动作,到彼时也可以间接控制,也可能完全脱离意识控制,这一点到讨论完意识之后可以更清楚。因此我们只考虑随意运动是由上层模块控制的动作,暂不强调与意识的关系。当在某一模块中通过学习形成了随意运动能力之后,上级模块对其进行的控制可以有两种方式,一种是给出S2引出R的方式,我们称之为目标驱动方式,此时我们可以假定在学好的模块中包含多种动作R。我们也可以假定一个模块中只含有一种动作R,此时可以认为含有多个R的模块是由多个单一动作模块集合而成的上级模块,那

么上层模块对于单一动作模块的控制可以仅仅是一个起动信号,即命令这一模块从休息状态转入工作状态,此时不存在目标S2,称为动作驱动方式。

    动作驱动的随意运动可以进一步提高学习的能力,建立更丰富的感觉动作联合,例如有了原始的S1RS2之后,可以用动作驱动而非随机的方式学习到更多的在相同R条件下的新的S1S2的联合。例如在幼儿行为中常见的抓握和拿近的动作,当幼儿通过某一个物体(例如奶瓶)学会了抓握动作之后,就可以用相同的动作去对付各种对象,从而获得新的感觉信息。他可以抓毯子、玩具等各种东西,在这个过程中建立视觉中的某种纹理和毛茸茸的手感之间的联合,建立视觉中的边缘和棱角的手感之间的联合,获得更为广泛的知识,使得视觉信息能产生“质感”。感觉动作联合的另一个重要功能就是预测。在动作驱动的随意运动模块中存储了大量的S1RS2联合之后,在模块被起动时由当时的S1和固定的R可以联想出S 2,这个S2是预测信息,把它与动作之后由感觉输入的实际的S2进行对比,就可以得知预测是否正确,如不正确需重新学习加以修正,如果正确则说明模块有了较好的预测能力。当通过学习使得模块的预测能力充分发达之后,模块可以有一个新的工作状态,即对外界的输出R是可以关断的,而预测得到的S2可以作为S1重新输入模块作进一步的预测。此时我们并不需要对外界作实际的动作,只凭过去经验积累的感觉动作联合就可以对将要发生的感觉作出预测。这是感觉动作连合的纯预测工作状态,关断输出R也就导致了动作的内化,即在认知主体内部完成动作的效果。

维纳在《控制论》一书中谈到过雷达控制高射炮火时预测飞机轨迹的必要性,充分估计了预测在控制中的重要性。我自己对于预测的重要性的体会则来自一个很偶然的机会。在参加工作后不久时,我住在一个临时建筑的简易楼的二层,由于楼的一层在建成后重新加了一层水泥地面,使得楼梯的最下面一个台阶只有其他台阶一半的高度。由于当时灯泡紧缺楼梯又没有照明,于是这半级台阶引起了意外的麻烦,夜晚有客人来访时,对于常来的人一定要提醒一下,下楼时注意那半级台阶,对于初来的人则要打着电筒送到楼下。即使是老住户,不经意时踩到这半级台阶上也难免吃惊。一个建筑物楼梯通常总是设计成各个台阶高度一样的,这样即使摸黑或不看着脚下下楼也不会感到太大的困难。下楼时试一两步就可以知道台阶的高度,以后按相同步态走下去不成问题,到最后一个台阶时再试一下是否到平地就行了。但是当最后一个台阶是半级台阶时,我们预测的平地或还有一级台阶都是错误的,当我们发现不是平地而按一级台阶高度向下踩时,提前到来的地面足以吓我们一跳。这个现象说明,我们不管作什么动作,都在时时刻刻预测着动作的结果,当实际的感觉与预测不符合时,引起我们的充分注意,或进入意外处理及触发学习机制。如果我们没有这种经常性的预测机制,“半级台阶现象”是难以解释的,只是当预测成功时我们通常感觉不到而已。

    感觉动作联合是神经元模块的主要功能,因此和模块的组织一样具有分层和分级的组织结构,其全局学习过程也是逐层建构的。例如学唱一首歌曲,最低层的模块是直接控制声带和口腔动作的动作感觉联合,这里的感觉主要是关于音高和音色的。这些基本的感觉动作联合是在幼儿或少年期已经形成,是所有发音活动的基础,其结果是保证了发音的随意动作的可能,即我们想发什么音就可以发什么音。高一层的模块是一句歌曲的动作串,这一层的一个模块可以根据一句歌的前几个音预测下一个发音。更高一层的模块是关于整个曲子的,可以由一句的旋律预测下一句的旋律。由低层到高层的动作感觉联合,实现了由局部到整体、由表层到深层的预测能力。

    这种逐层建构的预测能力,能够为我们提供用于思考的“智能模型”(Mental model),当我们能够对某一类事物的各种变化作出相对可靠而全面的预测时,我们就可以认为在我们的头脑中已经对该事物形成了“智能模型”,而智能模型的意义,也就是为我们提供了多方面预测的可能性。Kenneth Craik(1943)曾经提出过这样的想法:“如果生物体的头脑中持有外界现实的‘缩小的模型’,可以对模型试行各种操作,就可以使生物体具备多种能力。例如尝试各种各样的可能性,从中选择最佳的方案;在事件实际发生之前预想将来的事态而提前采取对策;把过去的事实中得到的知识用于现在或未来;在面临危机之际,从各方面采取更有效、更安全、更充分的对策,等等。”

    与提出智能模型这一概念的PNJohnson-Laird一起工作的Christopher Longuest-Higgins设计了一个简单的小车来说明智能模型的有效性。小车可以在桌面上来回移动,当它接近桌子边缘时就会响起铃声。但是这个小车上并没有装着任何一种直接检测桌边的传感器,小车完全依靠模型来探知桌子的边界。由小车主动轮带动两个小轮,小轮带动一个与桌子形状相同的小纸片运动,小轮与小纸片的相对关系总保持着和小车在桌面上的位置相互一致,这样当小车到达桌边时,小轮正好触及纸片边缘,从而接通电铃。Johnson-Laird认为,认知科学家中几乎没有人会怀疑内部模型的有效性,问题在于,这样的模型应具有什么样的内部表现,以及怎样在认知过程中使用这些模型。我们认为这个看法很对,但是漏掉了一个重要的方面,即这些模型是怎样被制造出来的。我们关于动作感觉联合及预测的讨论,可以说已经对上述这些问题给出了初步的解答,包括了模型的表现——动作感觉联合,以及模型的生成和修正所涉及的学习方法,也包括模型使用方面的一些内容。由于Johnson-Laird忽视了模型制造的问题,所以他的小车只能在一个桌子上走,到了另一个桌子上原有的模型就失效了,必须由人再作一个纸片。如果按我们的观点重新设计小车的话,应该考虑模型的生成与修改的问题。完全无感觉的认知主体不可能获得任何知识,设计能够自己获得客观世界模型的小车应使其具有最低限度的感觉,例如在前方和左右各有一个触角,可以在到达桌边时感觉到,小车可以从内部模型是白纸的状态下开始行动,当触及桌边时就在同步运动的白纸上打一个黑点,再转一个方向行走,直到得到桌面形状的完整模型,使用这个模型时用光电器件读纸片,遇到黑点就是到达了边缘,如果在纸片上对应小车行进方向上装一个超前的光电器件,那么在小车行走时在到达桌边之前就可以预测出前方的桌边。有了这种预测能力,小车的行动速度可以大大加快,因为在到达桌边之前可以提前减速,不至于由于刹车不及而掉下去,而只依靠触觉的小车就只能缓缓而行,摸索前进。以上的学习方法是随机的,效率很低,要得到由点构成的桌边线需要长时间的学习。效率更高的方法是,遇到桌边时转一个直角,用一侧的触角作为引导沿桌边走一周,可以更快的制成内部模型,这个方法假定桌子中间是没有洞的,但是只要预测的失败可以触发新的学习过程,那么不管桌子中间有几个洞,最终是可以得到正确模型的,而且在把小车放到另一个桌子上时,同样的原理也可以触发新的学习过程。为了使小车不过于保守,小车应设计得可以偶犯错误而越界行走,这样在小车放到更大的桌面上时,不至于永远留在小圈子里打转,可以有机会获得更大的自由,这是ES学习的基本原则之一。

我们用一个实际的例子来说明使用智能模型进行思考与通常所谓的逻辑思维的区别。我们考虑这样一个问题:有三个人ABCAB的左边,BC的左边,那么A是否在C的左边?这个问题如果用逻辑来解决的话,首先要考虑“在左边”的关系在逻辑上是否可以递推,就像A>BB>CA>C那样。如果可以递推,则AC的左边,如果不能递推,则从逻辑上是得不到解答的,这个关系是否能递推是不明确的。利用智能模型的方法,可以在头脑中设想各种实际的空间分布,来考虑这个问题的解答。例如可以认为三个人是围圆桌而坐,如图4.6。从不同的图中很容易判断AC的关系,在图

46(a)AC的左边,在图(b)中,AC的对面,在图(c)

AC的右边。通过这样的形象化的分析,我们甚至可以为“在左边”的可递推性(满足推移律)找到一个充分条件,即在递推过程中,每个人正面方向的夹角之和小于Π,而且每个人的位置偏离正左方向角度不大于正面方向夹角的一半。

    从这个例子可以看到,用逻辑的方法无法解决的问题,用智能模型是可以解决的,而且可以为逻辑提供基础和引导。“跳蚤是动物,所以大跳蚤是大动物。”这个推理我们一看就知道是错误的,虽然我们未必知道这个推理违反了哪条逻辑推理规则,或是使用了哪条不正确的推理规则。我们发现这个结论的错误,是靠了一种形象的冲突,大跳蚤可以想象有米粒或豆粒那么大,但大动物却使我们联想起象、鲸,甚至恐龙。这个判断是靠智能模型完成的,我们通常所说的形象思维,就是靠智能模型进行的思维活动。但是形象思维这个说法比较侧重于视觉形象,而智能模型则更为普遍,作为动作感觉联合,可以包括多种不同感觉的综合效果。从这个意义上讲,形象思维应该推广成模式思维才更为全面,当然,由于视觉是各种感觉之中信息量最大的一种,所以在模式联想思维之中,形象思维占了主要的部分,我们也可以用形象思维作为模式联想思维的代表,这样以后我们谈到形象思维时,只要注意它不仅仅局限于视觉领域即可。

形象思维是对智能模型的操作,是内化了的动作,是利用感觉动作联合进行的一连串的预测。关于形象思维的存在性证明,有一个经常被引用的著名心理学实验。实验是向被试者出示如图4.7那样的成对的立体图,要求被试者判断两个图所表

示的立体物是否是同一物体。实验结果表明,判断所用的时间与两图之间相差的角度呈明显的正比关系。从而说明人在进行这种判断时所采用的方法是在头脑中以一定速度旋转其中一个立体物,然后判断是否能通过旋转使一个立体物与另一个重合,以此证明人的头脑中有对形象进行操作的能力。图4.7(a)(b)是相同的,而(c)是不相同的。这个实验对于形象思维的存在是很有说服力的,但迄今为止对于形象思维的机制方面说明得还很不充分。

    我们可以使用这个例子对形象思维的机制作一些更为具体的讨论。这个实验的巧妙之处在于,所用的立体之间没有明显到可以一眼看出的特征差异,立体之间的差异只是左旋和右旋的区别。而左旋与右旋的差异又是非通过旋转重合难以判断的,如同我们在电磁学中所用的右手定则,往往还真需要伸出手来比划一下才行。需要说明的重要事实是,这种心理旋转所需要的时间为什么与要旋转的角度成正比。这个实验结果意味着,心理旋转是逐步进行的,每一次只旋转一个小角度,而不能一下子转一个大角度。要解释这种现象,需要先弄清立体感的内部表现。前面我们已经把立体感看成是一种感觉动作连合,即我们自身视点移动所引起的视角变化与物体二维形象变化之间的联想关系。也就是说,理解一个立体,意味着能预测这一立体物在自身旋转时造成的不同的平面象(旋转轴与视线不平行)。为了实现这种联想,我们可以想象大脑皮层的视觉处理部分有一些专门处理运动视觉的模块,每个模块对应视网膜上的一个点,通过一定的时间和周围近处模块之间的相关关系得到局部平移信息,这些局部平移信息再与更大范围的模块相联系,进而得到平移速度差,再进一步由高层模块得到整体的旋转信息。由于感觉动作联合具有预测能力,旋转动作驱动也可以引起各局部模块预测出旋转所引起的二维图像变化。由于立体感需要由不大的旋转角度得到,以提高立体视的灵敏度,因此利用这一感觉动作联合所作出的预测也将是小角度转动的预测。因此大角度心理旋转需要由多个小角度旋转来完成,要费较多的时间。

    以上这个实验如果对同一个人反复用几幅图作实验的话,久而久之,被试者会记住图的形状和结论,从而可以不经旋转,直接给出判断结果。用一个更明显的例子来说,准备五六个立体,各自涂成颜色给被试者看,一开始被试者要经过心理旋转才能判断两个物体是否相同,但几次判断之后,在被试者头脑中会形成新的感觉动作联合,认准了红的和绿的一样,绿的和蓝的不同,就可以直接作出判断而无需心理旋转了。这种现象我们称之为“短路效应”。正是由于有了短路效应,才使得人的思考是知识越多,思考越快,而不像传统的人工智能系统那样,知识越多,思考越慢。思考所得到的结论可以被记忆,而下次对同样或同类的问题可以直接得到结论而无需重复思考,这是能学习的机器胜过死板机器的优越之处。

    大多数的动物依靠本能而生存,即使有一定的学习能力,也是靠本能提供一定的学习算法和预备知识。人的学习能力比其他动物强得多,人的生存技能的很大一部分要靠学习才能得到,学习的方法也比其他动物丰富得多,而且前期的学习可以为后期的学习提供预备知识,通过学习也可以改变和获得学习算法。因此,具体地研究人在每一个学习过程中的学习算法既复杂又可能是缺乏普遍意义的。但是我们仍然需要而且可以找到一些具有普遍意义的基础性的学习方式,如果没有最基本的由本能提供的学习能力,更具体的学习算法是无法获得的。为了讨论人的复杂的学习过程,我们把人的学习分成三个层次,即随机学习、模仿学习和思考学习。

    随机学习在前面已经讨论过,它是学习中最低层次的一种方式。随机学习的特点是要求的预备知识很少,几乎可以从无到有,但是学习效率较低,需要限制学习范围以避免指数爆炸。学习的结果是使认知主体建立低层次的直接与外界环境相关的感觉动作联合。感觉动作联合的建立使认知主体获得随意运动的能力和简单的预测能力。随意运动的能力又可以大大提高认知主体对于客观环境的探索效率,使得感觉动作联合更快地丰富起来,逐步聚合成较为完善的智能模型,大大提高预测能力。从这个过程可以看出,感觉动作联合是具有自我增殖能力的,这种增殖能力依靠的是一种泛化机制,或者叫做无限推广倾向,抓奶瓶的动作同样可以试着用来抓毯子。泛化是一种普遍的机制,即一种方法可以对付不同的对象,在更高层次的学习之中泛化机制也是很重要的。随机学习不仅具有自我增殖能力,而且由学习所得到的随意运动能力和预测能力为更高层次的学习准备了必要的条件。虽然随机学习从原理上讲也可以实现逐层建构,但是由于其效率较低,在更高层次上模仿和思考的学习方式显得更为优越。当然,在更高层的学习中仍然也包含随机因素,正如随机学习也受着本能约束一样。

    模仿学习是人类学习过程中最常用的学习方法,我们的教育体系之中大多数的教育活动是通过模仿学习的机制实现的。模仿必须以随意运动能力作为基础,也就是说,看到别人的某种行为时我们要具有能够实现相同行为的能力,否则模仿当然是无法进行的。模仿学习的另一个必要条件是模仿的欲望,通常在灵长目动物的行为中已经可以发现明显的模仿能力,某些鸟类的发音模仿能力也相当强,但人类发育过程中的模仿能力在范围和深度方面都远远超过其他动物。模仿学习的特点是其学习效率高于其他任何一种学习方式,这是由于在模仿过程中随机探索的因素较少,由于存在着模仿的范例,即使出现偏差,其修正方向也是确定的。当然在模仿学习中也不可能完全避免随机探索的因素,因为认知主体对范例的观察不可能是完全的,例如我们可以看到别人完成体操动作的姿势,却观察不到作这种姿势所用的力量。很多只可意会不可言传的东西仍然需要探索,学习骑自行车时的平衡反馈就是一例,反馈参数是既不能靠观察得到,也难以用语言表达的。

    根据短桥原理,对于复杂的技能,模仿学习也需要通过逐层建构的过程,不可能一蹴而就。唱歌需要一句一句学,高度的专门技能有时需要几年、十几年才能掌握,这样一些复杂的技能需要由多次小规模的学习积累而成,局部的模仿学习结果为全局的模仿准备条件,低层次模仿的成功为高层次模仿打下基础。模仿这种学习方式往往给人以创造性不足的印象,但是由于模仿的高效率,可以使人在短时间里获得丰富的动作串,由此又能建立大量的智能模型,使我们不必事事都要经历困难的发明过程,而能够在相对较短的时间里积累庞大的知识结构。这个庞大的知识结构是我们进行创造性思考的不可缺少的先决条件。模仿学习的最重要的意义在于,模仿能力为文化的传播和继承准备了必要的条件,对于没有模仿能力的动物来说,文化现象是不可能产生的。文化可以使技能的发展突破基因进化的世代时间约束,从而得到比本能技能高得多的发展速度,因此生物越是高度进化,硬基因增加,发育期和寿命增长,本能的进化越慢,文化的利益也就越大。在一些高等动物之中,已经可以看到文化的萌芽,但是人类的文化体系却远远超过其他任何动物。人类个体的智力与文化体系组成软硬结构,其中智力是软结构,文化是硬结构,人在文化环境的支持下通过模仿获得高度的智能,而又通过创造性思考对文化环境作出建构,可以说,对文化的模仿和创造是人类文化高度发达的主要原因。在此之前,人类从猿到人的进化过程中,文化与智力之间的相互作用可能是智力高度进化的主要原因。某种水平的文化财富使得模仿能力较强的类人猿个体得到较高的进化适应度,而这些类人猿又能在较高的水平上创造更高度的文化,这种智力与文化之间的互适应协同进化,可能是从类人猿向智人进化的主要动力。

    比起模仿学习,思考学习具有更大的创造性,而思考学习的效率又高于随机学习。思考学习所需要的前提条件是高度的预测能力,而这些能力来自于丰富的感觉动作联合和大量的智能模型。因此思考学习要求随机学习和模仿学习的结果作为其基础。思考可以利用预测能力组织新的动作串,而无需外部的实际动作或范例。例如我们需要一个动作串去完成从S1到目标Sg的变化,此时可以探索S1S2的各种预测,如果对于某个S2存在着S2R2Sg的感觉动作联合,那么把S1R1S2S2R2Sg联成一个动作串S1R1R2Sg,则R1R2就是我们需要的动作串。思考过程是靠操作智能模型进行预测完成的,这种操作是已经内化的动作,不引起实际的外部动作,因此其能量效率和时间效率都比较高。当我们把一个动作串看成一个高层次的动作,即R= R1R2,那么通过思考我们就得到了新的高层次的感觉动作联合S1RSg,这种短路效应使得S1RSg成为今后的思考可利用的感觉动作联合,更可以通过泛化的手段由这个感觉动作联合推广成新的智能模型,使今后的思考效率更高。因此思考的过程也是可以逐层建构的广义进化过程。上述的创造过程从一次的思考来看也是典型的指数爆炸的搜索,但是只要遵循短桥原理抑制搜索步数,就可以通过广义进化的多次积累达到大的创造。

    在人的实际的学习过程之中,随机学习、模仿学习和思考学习这三种学习方式并不是逐一单独进行的,而是你中有我,我中有你的关系。随机因素在初期建立低层次感觉动作联合时比较明显,随着模仿学习成分增加而减少,但在思考学习之中又有所增加。模仿学习即使在思考能力比较强时仍然是重要的学习方式,因为创造性思考只有在和模仿一起与文化环境发生相互作用,在软硬结构之中才能取得最大的效果。每一个具体的学习过程,分析起来都可能包含这三种学习方式,只是在学习的不同阶段各自所占的比例不同而已。在模仿的过程中往往包含思考和随机搜索过程;而思考中的目标设定往往与模仿有关,思考的过程也基本上采用随机搜索的方法;因此对于学习过程要从这三种方式去分析才能得到比较全面的印象。

    逐层建构的原理可以使我们回避指数爆炸所带来的困难,但也由此而产生了这样一个问题,我们的大脑之中模块组织的层次显然是有限的,那么我们对于外部世界所建立的模型的深度是否也是有限的呢?这种层次深度的限制在动物的学习之中是经常可以见到的,对于有学习能力的动物,我们也难以通过训练使其无限地聪明起来,动物的学习算法通常是L1型的,通过学习改变学习算法的可能性不大。而人的学习能力却显示出明显超越其他动物的特征,看起来像是L,的学习算法,这种L的学习又是怎样实现的呢?或者说,我们怎样在有限的大脑中实现无限的认知深度呢?这种现象与人的外部表现能力有关。与其他动物相比,人具有强得多的外部表现能力。虽然很多动物都具有一定的相互通讯能力,但是这些通讯内容往往是只具有固定的意义,在进化中产生的特定通讯通常是直接地受到适应度的约束,其自由度是很小的。例如当某种昆虫发出特定的气味或声音来吸引异性时,发出信息的差错和接收信息的差错都会使昆虫的适应度下降,进化使得这些有适应意义的信息传递方式高度硬化和特化,失去了表现丰富内容的可能性。在人的进化过程之中,在智力与文化的互适应协同进化产生之后,在文化支持智力的模仿能力逐步发达的同时,创造力和表现力这种智力对文化的建构能力也成为与适应度密切相关的因素,获得了相应的进化压力,使得人类在进化过程中得以逐步提高其表现能力和表现欲望。这种外部表现能力与其他动物的通讯能力的主要区别就是有很高的表现自由度,离开这种自由度,文化建构是不可能的,因为文化现象本身的意义就在于它具有基因所不可决定的内容,基因除了提高通讯自由度之外,没有其他支持文化的方法。在远古时代人类居住的洞穴之中就已经出现了壁画,这是早期人类表现欲望和表现能力的证明;语言和文字的出现使表现的效率得到飞跃的提高;卡拉OK的流行也是由于它为满足人的表现欲提供了一种简易的手段。

    如果把思考看成是动作的内化,则表现是感觉的外化,是认知主体之中下行的信息传递。这种下行的外化与上行内化所形成的环,就提供了无限思考深度的基础,使得思考的深度不依存于模块组织的层次深度。表现能力从一开始是在认知主体与文化环境的相互作用中发展起来的,在与其他人对话过程中掌握语言,在与实物的对照之中学会绘画,在与他人对弈的过程中学会下围棋,在与他人争论的过程中学会辩解。但是表现并不仅仅是向着外界的,我们可以听到自己的语音,看到自己的绘画,看到自己下一步棋之后棋盘上局势的变化,评价自己辩解的理由是否充分。随着表现能力的发展,表现的反馈能力也发展起来,在认知主体内部可以形成文化环境的智能模型。我们可以并不发出声音而听到自己在内心里说些什么,可以不用动笔闭着眼睛想象出一幅图画,甚至可以不用棋盘下棋,可以自己和自己争论。无论多么深层的思想,只要可以通过语言或其他形式加以表现,那么就可以通过表现反馈通道出现在浅层感觉领域之中,进一步被加工、被改造。因此,模块组织层次深度的有限性,并不造成思想深度的有限性,这是L型学习之所以成为可能的基本根据。

    在人类的各种外部表现形式之中,语言由于其效率高、自由度大、表现能力强而具有特别重要的地位,图形作为外部表现比语言效率低得多,但由于对于某些对象来说有语言所不可替代的作用,也是一种重要的表现形式。在思考过程中作为浅层感觉的内部表现,语言与形象的效率是相差不大的,在内部视觉中生成一个形象并不比生成一句话慢,因此在思考过程中使用形象还是语言则取决于思考的对象的性质,以及与思考对象有关的智能模型涉及哪些感觉。由于我们思考所使用的智能模型有些涉及视觉形象,有些涉及语言,因此有不少人认为思维有两种形式,即形象思维与逻辑思维,形象思维所用的内部表现是形象,基本操作是形象的联想变换;而逻辑思维所用的内部表现则是符号,基本操作是逻辑推理或按照语法规则进行符号变换。这种分类法所导致的困难在于,形象思维与逻辑思维之间在理论上很难建立起有效的相互关系,而且如果实际观察思考过程,我们利用语言作为介质的思考,虽然具有其合理性,但是这种合理性类似于在进化中产生的生物结构的合理性,它是合理的,但未必合乎形式逻辑。在我们现实生活的对话之中,虽然明显不合逻辑的并不多,但是要想在前后的语句中找出严格合乎逻辑的形式化推论过程,也几乎是不可能的。反过来,用逻辑来处理或解释语言现象,也是不可能成功的,因为形式化的逻辑只能涉及语法,而不可能涉及语义,而语义在语言现象中当然起着举足轻重的作用,即使仅就语法而言,其中合乎逻辑的成分也不是很多的,在自然语言中,可以说没有一条语法是没有例外的。因此把以语言为介质的思考活动称为逻辑思维是一个概念错误,如果认为语言是逻辑推理的产物,就无法解释人为什么会说出不合乎逻辑或者并不严格合乎逻辑的话来。因此在我们对认知问题所分的层次之中,逻辑与数学、物理学一样,是建筑在语言基础之上的文化产物,没有语言就没有逻辑,但逻辑既不是语言的基础,也不是思维的深层规则。所谓“逻辑思维”仅仅是一个错觉。

    排除了“逻辑思维”在思考中的原理性解释之后,我们需要从形象思维的角度去说明语言在思维过程中的重要作用。如果把形象思维看成是模式联想思维的简称,那么借助于语言的思维也是形象思维的一种。在这里我们不把语言看成是符号的集合,而看成是模式,因为语言不管表现为听觉的发音串还是视觉的文字串,都是具有空间和时间分布的信息。因此从基础的原理上看,借助于语言的思考与借助于视觉形象的思考是可以统一在模式联想或感觉动作联合之中的。但是语言又有与其他感觉模式的不同之处,就是它的间接性。除了拟声词与实际的感觉直接相似之外,大多数的语言模式与语义之间是没有必然内在联系的,因而语义就成为语言得以成立的一个重要问题。对于动物来说,键刺激的意义是由这个键刺激所引起的动作以及该动作对于动物生存的意义所决定的。然而语言在很多场合并不引起直接的外部动作,但是语言可以影响人的思考过程,而思考则是内化了的动作。因此语言的意义也就取决于它在认知主体之中能够或实际上与哪些智能模型相关,引起对智能模型的哪些操作,能够联想起哪些感觉动作联合。

    对于生活在同一语言环境、文化环境和现实环境中的人来说,由于语言与智能模型之间的联系具有一定的共通性,使得人们很容易通过语言达到沟通和理解,语义也就具有一定的稳定性。但是同一个词汇并不一定在任何情况下都只与一个智能模型有关,因此就造成了词汇的多义性。在实际的语言运用过程中,由于语境的约束,这种一词多义的现象并不会造成语义沟通的障碍。语境可以看成是一种稳定性比较差的临时建立的智能模型,永久性的智能模型在一开始也是由临时性智能模型在反复运用的过程中强化了多数情况下有效的部分,淘汰掉不稳定成分逐步建成的。由于语境的临时性和不稳定性,具有较大的个人和集团差异,造成语言理解的困难。这种困难有些是起因于不具备理解该语句的智能模型,例如外行听到某一专业的行话时会无法理解,有些则起因于缺乏必要的语境约束,有关的智能模型过多而无充分信息帮助选择,例如以下两个人的对话,A:“那事怎么样了?B:“杨明那边已经通了。”对于参加对话的AB两个人来说,由于语境信息充分,相互可以充分理解,但是对于旁听的第三者,则只可能引起大

量的猜测而无法确定其语义。“那事”可能是A委托B办的一件事,也可能是AB曾经同时参加的一项工作,也可能是BA讲述过的一件没有结局的事情等等。“已经通了”可能是指一个命名为杨明的隧道已经打通,也可能是叫杨明去打通关系已经成功,也可能是杨明正在编的软件已经调试通过,有很多种可能性而无法确定。

    对语言的理解意味着听到语句之后在认知主体内部能够联想起相应的智能模型的操作,而说话又是智能模型逐层控制产生的动作,当这种动作关断了最下层的对肌肉输出时,只剩下了预测性反馈的作用,使我们自己能听到自己没说出口的话,并且对这些话进行理解和评价,据此可以修正和再建智能模型,通过思考提高思考的能力,这就是以语言为介质的思考过程。由于我们只可能意识到上行的感觉信息,意识不到下行的控制信息,所以对于动作只能依靠感觉的差异进行修正。出于同样的理由,对于思考这种内化了的动作,也只能依靠操作智能模型的结果,即生成的语言和形象来修正或建立智能模型。在语言现象之中,比喻是一种很常用的手法。比喻从字面上讲就是通过类比的方法使人理解,但是比喻的机理用逻辑的方法却是难以理解的。从语言的理解与智能模型的关系出发,可以对比喻的作用作出解释。假定A要向B表达一个感觉动作联合S1RS2,由于RA自己也无法意识到的动作,只能向B表达S1S2,而由于B的头脑中不存在相同的动作感觉联合S1R S2,因而对S1S2感到难以理解。但是在B的头脑中并非不存在R,只是R是以S1’RS2的方式存在着,用S1S2形成不了对R的联想。由于A具有比较完全的智能模型,可以向B传递这样的信息:S1S1的关系和S1S2的关系相同,由于比喻信息S1S2的存在,与B的头脑中的感觉动作联合S1’RS2发生联想,得以引出R,并与S1S2联合,产生新的动作感觉联合S1RS2,使得S1S2成为可以理解的信息。这就是比喻有助于理解的作用原理。

    把形象思维看成是对智能模型的操作这一观点,有助于解释关于记忆的一些困难问题。诺尔曼在关于记忆的讨论中提出过这样的问题:“在不知道必要信息是什么的情况下,通过检索发现个信息时,怎么会知道它就是要检索的信息呢?例如,当我们努力回忆起多年以前去世的同事的名字时,突然想起Isac Newton,在没有想出同事的名字时,又怎么知道他不是Isac Newton?这个例子包含了解决问题的关键原理。”这种现象在生活中是很常见的,我们可能费很大劲也想不起某个中学同学的姓名,但是如果别人说出一个姓名,我们却可以判断是不是我们要想起的那一个。从简单的逻辑来看,这种现象不合乎逻辑,如果我们知道某个姓名,当然很容易通过比较得知和这个姓名不同的姓名都不是这个姓名,而当我们不知道正确答案时,我们就无从比较和判断。如果把姓名看成孤立的符号,上述问题确实是无法解决的,但是如果把姓名看成是一个智能模型中的一个信息,情况就不同了。我们可以认为关于某一个人的各种信息构成一个智能模型,如果这个智能模型比较完整,我们可以对这个模型进行操作,从姓名可以联想起其音容笑貌、他的服装、性格、趣事、外号等各种信息,也可以从其他信息联想起他的姓名。当某个人停止与我们接触之后,随着岁月的流逝,关于他的智能模型也被磨损得残缺不全(这个过程与学习的机制有关)。这种不完整的智能模型可能会出现这种情况,即我们可以由姓名联想起他的面容,却不能从面容联想起姓名。当我们极力回想某人的姓名时恰恰就是这种情况,即使他的面容及一些其他信息为我们所知,但从这些信息已不能直接联想起他的姓名了。但是从姓名到其他信息的联想却不容易被磨损,这是因为面容是我们进行形象思维区分个人所用的主要模式信息,而姓名在思维过程中主要用来引发面容等其他信息,从面容联想出姓名的过程使用频度要小得多,因而更快地被忘却。在这样的不完整的智能模型之中,我们很容易判断一个姓名是否是我们想要回忆的那个人,因为如果是那个人,那么这个姓名可以联想起已知的面容,乃至更多的属于该智能模型的信息,而不是这个人的姓名则没有这种效果。这就像对于一个难解的方程,我们不知道它的根是什么,但是如果给我们一个数,可以很容易地把它代人方程来判断它是不是这个方程的根。