蓝田玉PDF小说网 / 科普哲学 / 夸克与美洲豹
 


夸克与美洲豹



允许的,要么是禁止的,而没有什么模棱两可的状态。每两者之间的通信 用连接该两点的线来表示(线没有方向性)。这样得出的图就是数学家们 所称作的“无向图”(undirected graph)。
  有了这种方法来定义细节的层次,就可以研究一种连接方式的复杂性 是什么意思了。首先我们考虑点数很少的情形,比如 8 个(N=8)。这时 我们可以容易地画出一些连接方式,包括一些无足轻重的。图 3—2 表示出
8 个个体中可能存在的一些通信方式。在 A 情形下,任何两点之间都没有 连线。在 B 情形下,某些点之间有连线,但有的点与任何其他点之间都没 有连线。在 C 情形下,每个点都有连线,但不是任意两点之间都有连线。
在 D 情况下,所有的连线是 C 情形下所没有的,而 C 情形下的连线又是 D 情形中所没有的。我们可以称 D 为 C 的互补物,反之亦然。同样,E 与 B 也是互为补充的。F 与 A 也是:A 情形中没有连线,而 F 情形中有着所有可 能的连线。那么,哪种模式更复杂呢?
每个人都会同意没有连线的 A 模式简单,B 模式中有一些连线,因而
比 A 模式复杂或不如 A 模式简单。其他模式又怎么样呢?一个很有趣的情 形是关于 F。对 F 模式的第一印象可能是,它是所有模式中最复杂的,因 为它的连线最多。但这种判断合理吗?所有点之间都有连线的性质与没有 任何连线的性质难道不是一样的简单吗?或许 F 与 A 一样,位于复杂性等 级的最底端。
这样的推理使我们想起当初这样一个设想,即至少有一种定义复杂性
的方法,那就是使用描述长度(the length of its descrip- tion)的概 念。这样一来,F 模式确实与它的互补模式——A 模式,一样简单,因为“所 有点之间都有连线”与“所有点之间均无连线”两种描述有同样的长度。 而且 E 的复杂性与它的互补物之复杂性也并无多大区别,因为加上“互补 物”一词没有使有关的描述显著变长。对于 D 模式与 C 模式,也是如此。 总的来说,互补的模式有着近乎相同的复杂性。
B 模式和 E 模式明显比 A 模式与 F 模式复杂,C 模式与 D 模式也是如此。
B、E 模式与 C、D 模式之间的比较则要复杂一些。以描述长度这一简单的 标准来看,C、D 模式似乎更复杂,但是否的确如此,在一定程度上与用于 描述的语言有关。
在进一步讨论关于复杂性与描述长度有关这一观点之前,有必要指
出,我们在前面用来表示人们之间通信方式的图表也可以用于另外一种情 形,一种如今对科学、技术及商业均有着重大意义的情形。目前,计算机 科学家们在研究与使用一种新型的“并行处理”(parallel processing) 计算机方面取得了很大的进展,这种新型计算机在解决某些特定问题方面 比传统计算机更加有效。不像单个的大型计算机那样,连续不断地解决一 个问题,直到完成为止,并行处理使用一批小型计算单元,这些单元同时 运行,其中某些单元之间以一定的通信模式连接着。这里,你可能又会问 到,这样一种通信联系方式比另一种更复杂,意味着什么呢?事实上,问 我这个问题的是一位正在设计并行处理计算机的物理学家,他重新引起了 我对复杂性定义问题的兴趣。
  前面我们考虑了通过计算物种、相互作用等的数目来定义简单与复杂 的生态群体的可能性。譬如,如果一个群体中各种各样的树都被列出来了, 那么这一部分描述的长度与树种数是大致成正比的。因此,在这种情形下,
  
描述长度也能有效地用作衡量复杂性的尺度。
对背景的依赖性 如果复杂性用描述长度来定义,那么它还显然不能描述事物的固有特
性。因为,描述长度与作这一描述的人或物有关。(这使我想起詹姆士·瑟 伯尔(James Thurber)的小说《田野中的玻璃》( Tne Class in the Field)。 小说里一只金翅雀向其他鸟作了一个关于与玻璃相撞的简要描述:“我在 飞越一块草地的时候,突然空气在我身上结晶了。”)任何关于复杂性的 定义都不可避免地与特定背景有关,它甚至是主观的。当然,系统描述的 精细度本身就已经有几分主观性了——它依赖于观察者或观察设备。那 么,实际上,我们正在讨论一个或更多的依赖于一个系统对另一个系统的 描述的复杂性的定义,这里,施行描述的系统假定为一个复杂适应系统, 它可以是一个人类观察者。为了现在的目的,我们不妨假定描述系统就是 人类观察者。
  为了使描述长度的概念更加精确,我们应该避免通过显示某一事物来 对它进行描述;很显然,显示一个复杂适应系统与显示一个简单系统一样 地容易。因此,我们只关心以通信的方式被传递给远处某个人的描述。同 样,我们也可以很容易地给某个相当复杂的物体取名为“山姆”或“朱蒂”, 从而使得对它的描述大大变短。因此,用于描述的语言必须是事先为大家 所公认的,不能为描述而新造一些术语。
当然,即便如此,这里也仍然存在着多种随意性与主观性。描述长度
将随所使用的语言以及通信者对他们所共享之世界的了解与理解的不同而 不同。例如,在描述一头犀牛时,若双方都知道什么是哺乳动物的话,那 么关于犀牛的信息就可以缩短。如果要描述一个小行星的轨道,那么双方 是否都懂得牛顿引力定律和牛顿第二运动定律,将产生很大的差别——双 方是否知道火星、木星与地球的轨道,对描述长度也很重要。
简洁性和原始复杂性 如果由于一些无用的字、词而使得一个描述很长怎么办呢?我想起了
这样一个故事,一个小学教师给她的学生布置家庭作业,要求他们写一篇
300 字的作文。有个学生由于整个周末都用于玩耍,没有做作业,结果他 在星期一的早上写了这么一段:“昨天晚上,邻居家的厨房里着火了,我 把头伸出窗外,大喊,‘起火了!起火了!起火了!??’”这个小孩将 “起火了”重复了很多遍,直到凑足了 300 字为止。然而,如果没有 300 字这一要求,小孩就会写“叫了 90 多遍‘起火了’”来表达同样的意思。 因此,在讨论复杂性的定义时,我们关心的是用来描述系统的可能的最短 信息的长度。
下面几点可以概括起来作为“原始复杂性”的定义:用双方事先共享
(且彼此均知道共享这一事实)的语言、知识及理解,将一个已知粗粒化 程度的系统描述给远处某人时,所用最短消息的长度。
  某些用来描述系统的常见方法是产生不出最短消息的。例如,如果我 们将系统的各个部分(比如汽车的部件或人体的细胞)分开描述,并讲述
  
这样一些部分怎样组成一个整体,那么,我们忽略了许多压缩消息的机会。 在那些机会中,我们可以利用各部分之间的相似性。例如,人体中的大部 分细胞有着相同的基因,并有很多其他的共同特征,而同一个组织中的细 胞则更加相似。最短的描述应将这些因素考虑进去。
算法信息量 某些信息论专家使用一个与原始复杂性极其相似的量,不过他们的定
义更专门化,而且自然而然地牵涉到计算机。他们拟想出一个具有给定粗
粒度的描述,这个描述用一种给定的语言来表示,然后再用某种标准编码 程序译成一串 0 和 1。每个被选的数 1 或 0 被称为一个“比特”(bit)。
(本来,比特是“二进制数”的缩写,说其为二进制的,是因为只有两种 可选的数字,而对通常的十进制数来说,则有 10 个:0,1,2,3,4,5,
6,7,8,9。)他们关心的是那个比特串或“消息串”(message string)。 他们定义的量称为“算法复杂性”、“算法信息量”(algo-rithmic information content)或“算法随机性”。当今,“算法”(algorithm) 一词指的是一种计算规则,通过意义的延伸,又可以指一个计算程序。下
面我们将会看到,算法信息量指的是一种计算机程序的长度。
  本来,算法一词的意思不是这样的。这个词听起来像是出自希腊语“算 术”(arithmetic)一词,但事实上,那只是个假象。“algorithm”中的 “th”是由“arithmetic”中的“th”类推而被插入的,实际上它本不属 于那里。一个更能反映语源的拼写应该是“algorism”,它是一个人的名 字,正是通过这个人所写的书,“零”才被首次引入到西方文化中。他就
是 9 世纪的阿拉伯数学家穆罕默德·艾宾·穆沙·阿尔花拉子模(Muhammad
ibnMusa al-Khowarizmi)。这个姓表明,他的家族来自咸海南边花拉子模 地区,现为新近独立的乌兹别克斯坦共和国的一部分。他写了一篇数学论 文,题目中包含“阿尔加布”( aljabr)这一阿拉伯的词,意为“移项”, 我们现在的“代数”一词就出自这里。最初,“algorism”(计算)一词 指的是十进制法,人们认为它主要是通过将阿尔花拉子模的“代数学”翻 译成拉丁文而由印度传入欧洲的。
算法信息量(AIC)是本世纪 60 年代由三个创始者各自率先使用的。
三个人中,一个是伟大的俄罗斯数学家安德里·N·柯尔莫哥洛夫(Andrei N.Kolmogorov),一个是当时只有 15 岁的美国人格里高里·蔡廷(Gregory Chaitin),还有一个也是美国人,叫雷·索洛莫洛夫(Ray Solomonoff)。 每个人都是假想一个理想的多功能计算机,它可以存贮无限大的信息量(或 者信息存贮量有限,但可随需要而任意扩充容量)。这个计算机配备有特 殊的硬件和软件。然后他们考虑一个特殊的信息串,并寻求一个计算程序, 使计算机打印出这一信息串,随后停机。一个最短的程序的长度就是该信 息串的 AIC。
  我们已经看到,源于粗粒化和用来描述系统的语言等因素的主观性或 随意性,是原始复杂性之定义所固有的。在 AIC 中,又产生了附加的随意 性来源,即用来把对系统的描述转化为一个比特串的特殊编码程序,以及 与计算机有关的硬件和软件。
数学信息理论家们并不担心这种随意性,因为他们通常只关心一些极

限情形,在那些极限情形下,有限的随意性就变得不那么重要了。他们喜 欢考虑一些相似而长度渐增的比特串,研究在长度趋于无限大的过程中, AIC 如何变化。(这使我想起来,计算机科学家们如何喜欢处理大小递增 并趋向无穷的一系列相似问题的计算复杂性。)
  让我们回到理想化并行处理计算机问题上来,这样一个计算机由一些 计算单元组成。我们用点来表示这些单元,用线表示这些单元之间的通信 连接。这里,柯尔莫哥洛夫、蔡廷和索洛莫洛夫是不会对仅 8 个点中各种 可能的连接方式的 AIC 感兴趣的。他们关注的是当 N 趋向无限大时,N 个 点中的连接情况。在这种情况下,由于使用某个计算机而不是另一个,使 用某种编码程序而非另一种,使用一种语言而不是另一种等等所造成的差 异,而导致 AIC 方面的某些差别(例如,最简单的连接方式与最复杂的连 接方式之间的差异),相形之下都不那么重要了。一个信息理论家关心的 是某个特定的 AIC 是否随 N 趋向于无穷而不断增长,如果是,增长的快慢 如何。他或她不怎么关心某个 AIC 与另一个 AIC 之间由于系统描述中的种 种不定性而引起的无关紧要的差异。
  我们可以从那些理论家那里获得一些有趣的经验,那就是,即使我们 不限于研究那些趋于无限大的系统,我们也应该懂得,随着比特串逐渐变 长,关于简单性与复杂性的讨论变得越来越有意义。在另一种极端情形, 即比特串中只有一个比特,谈论简单性与复杂性显然是毫无意义的。
信息的定义 现在我们必须对算法信息量与信息作出区分。这方面有一些人,比如,
现代信息理论的奠基人克劳德·香农(Claude Shan-non)曾经讨论过。信
息主要涉及到从被选物中作出抉择,如果那些被选物可以简化为一序列两 种选择,其中每种选择的或然性完全一样,那么,我们可用一种最简单的 方式将其表示出来。例如,假若你得知抛硬币的结果是反面而不是正面, 那么你就获得了一个比特的信息。如果你获悉三次连续抛币的结果是正 面、反面和正面,那说明你已经获得三个比特的信息。
“二十个问题”的游戏在或然性相同或或然性近乎相同的一连串两种
选择中,提供了一个表示各种极不相同的信息的极好例子。游戏由两个人 来玩,第一个人构思一个东西,然后第二个人要在被告知它是动物、蔬菜、 还是无机物之后,用 20 或不到 20 个问题来猜出这个东西。问题的答案只 能是“是”或“否”;每次回答都是一次两种选择。对第二个人来说,他 提出的问题要尽可能在两个或然性接近相同的被选物之间作出选择,这将 会对自己最有利。例如,在知道该东西是无机物时,提问者不应该直截了 当地问它是不是霍普(Hope)钻石。他可以问,“它是天然的(而不是人 工制造或改造的)吗?”这里,肯定回答和否定回答的概率是大致相等的。 如果回答是“否”,那么下一个问题可以问:“它是一个特殊的物体而非 一类物体吗?”当回答“是”与“否”的概率相等时,每个问题将引出一 个比特的信息(这是一个问题所能引出的最多的信息)。20 个比特的信息 相当于从 1,048,576 个或然性相等的被选物中作出一个选择,其中 1,
048,576 是 20 个 2 的乘积(2 的 20 次方)。这一乘积是长度为 20 的各种 不同比特串的数目。

  要特别提及的是,在讨论 AIC 与信息时,比特串的用法是不一样的。 在算法信息量情形下,考虑的是单个的比特串(最好是长比特串),它内 部的规律是用一个通用计算机打印出该比特串到停机的最短程序长度(用 比特表示)来测度的。与之形成对比的是,在信息的情形下,你可能考虑 从具有给定长度的所有各种不同的比特串中作出一个选择。若它们的或然 性均相同的话,他们的长度就是信息的比特数。
  你也可以考虑一组比特串,比如或然性相同的一组,每个比特串都有 其特定的 AIC 值。在这种情况下,定义一个由比特串的数目及该组比特串 的平均的 AIC 值所决定的信息数量,往往很有用。
           压缩和随机串 算法信息量有一个很奇特的性质,为了对它进行讨论,我们有必要先
来看看不同消息串的相对“可压缩性”。对于一个有给定长度(不妨假设
很长)的比特串来说,我们可以探究,何时其算法复杂性高,何时其算法 复杂性低。如果一个长的比特串为 110110110110110110110?110110,那 么,我们可以通过一个表达“将 110 打印若干次”的极短的程序来得到它。 这样一个比特串具有一个很低的 AIC,尽管它的长度很长。这意味着它具 有很大的可压缩性。
与此相对照的是,在数学上可以证明,大多数具有某一给定长度的比
特串是不能压缩的。换句话说,能够产生这些串(并进而使计算机停机) 的最短程序为,在 PRINT 后写上整个数串。具有给定长度的这样一个比特 串有着最大的 AIC。这儿没有任何规则、算法及理论能够进一步简化这种 比特串的描述,从而使之能被用一更短的信息来描述。这样的比特串被称 为“随机”串,因为它没有规律可循,因此不能被压缩。随机串具有最大
的 AIC,这一事实可以解释为什么 AIC(算法信息量)又可称为算法随机性。

AIC 的不可计算性


  AIC 的奇特性在于它的不可计算性。尽管大多数比特串是随机的,但 是我们没法准确地知道究竟哪些是随机的。一般来说,我们不能肯定某个 给定比特串的 AIC 一定不低于我们所认定的。这是因为总可能有一个理 论、一种算法能使该比特串被进一步压缩,只是这个理论、算法我们永远 也发现不了。更严格地说,我们无法找到能导致进一步压缩的所有理论。 格里高里·蔡廷曾在几年前证明过这一论点,他的工作很容易使人想起库 特·哥德尔一个著名结论的一部分。
  哥德尔是一个数学逻辑学家,他在 30 年代早期所作出的关于数学公理 系统的局限性的发现,曾经震动了整个数学界。在他之前,数学家们曾希 望可以设计这样一个数学公理系统,理论上它可以被证明是自治的,并能 用来推证所有数学定理的正确性或谬误性。哥德尔证明这些目的一个也不 能实现。
  像这样的否定性结果往往象征着数学或科学上的巨大进步。我们可以 比较一下爱因斯坦关于没有绝对时间或空间,而只有联合时空的发现。事 实上,哥德尔和爱因斯坦是好朋友。50 年代早期,在新泽西的普林斯顿高
  
级研究院,我常常看见他们一起步行去工作,但看起来他们这一对给人一 种古怪的感觉。哥德尔个子很小,在他的衬托下,爱因斯坦看起来相当高。 他们曾经讨论过深奥的数学或物理问题吗?(哥德尔不时地研究一些与广 义相对论有关的问题。)或者他们的谈话仅仅是关于天气和他们自身的健 康问题?
  哥德尔的结论中与我们的讨论有关的部分,是关于不可判定性的问 题,即:对于任何一个数学公理系统,原则上总存在一些命题,这些命题 在已有的公理基础上不可判定。换句话说,理论上有一些定理既不能被证 实,也不能被证伪。
  最突出的不可判定的命题是与公理无关的一种陈述。你可以通过引入 这样一个陈述作为一个新公理,或引入一个与之相反的陈述,来扩充已有 的那组公理。
  但是,另外一些不可判定的命题则具有不同的性质。例如,假定一个 关于正整数的不可判定的命题的形式如下:“每个大于 2 的偶数都有如下 性质??”如果这样一个命题有任何例外,原则上我们可以把它找出来。 我们可用足够长的时间,连续检验每个偶数(4,6,8,10,??),直到 发现一个不具备命题中所说性质的数为止。这样就直接证明了该命题是错 误的,同时也推翻了它的不可判定性,因为不可判定性的严格意义是,命 题不能被证实或证伪。因而,这一命题没有例外情形。一般来说,“真实” 这一词的意义是说,该命题是真实的。
下面我们将更加具体地讨论这一点。考虑这样一个特殊的命题,它的
正确性经过几个世纪的科学家们的努力也没有得到证明,尽管也没有发现 任何例外情况。这个命题就是哥德巴赫猜想(Goldbach’s conjecture), 其内容是,每个大于 2 的偶数等于两个素数之和。素数是大于 1,且不能 被自身和 1 以外的任何数整除的数。根据这一点可知,最小的几个素数是
2,3,5,7,11,13,17,19,23,29,31 和 37。从列出的这些数中可以
看出,4 和 62 之间的任何偶数都可以用至少一对素数之和来表示。计算机 的计算表明,某个相当相当大的数以内的各个偶数都有这样的性质。然而, 这样的计算还不能说那个猜想就被证实了,因为对于更大的数它仍然可能 失败。只有严密的数学证明才能将猜想变成一个已证明的定理。
没有理由认为哥德巴赫猜想是不可判定的,我们只是假定它是不可判
定的。那么由此可知,它应该是真实的,尽管不能证明这一点,因为它可 能没有任何例外的情况。任何大于 2 的偶数而不能表示为 2 个素数之和的 存在,将会否证这个猜想,并因此推翻它的不可判定性。
  如蔡廷所证明的那样,在问题的背景中往往隐藏着这样一些正确但不 可证的理论,或许其中有一个理论能使一个我们认为不可压缩的长信息串 能被压缩,或使一个我们认为是最短的信息串能被进一步压缩。因此,一 般来说,我们不能确定算法信息量的值;只能给出一个它不能超出的上限。 既然只能确定它在低于这一上限值的范围内,因而 AIC 是不可计算的。
  不可计算性这一性质给我们带来种种不便,但使我们不能用算法信息 量来定义复杂性的,还有另一个不同的原因。尽管通过 AIC 可以引入一些 有用的概念,如粗粒化、信息串的可压缩性,以及由观察系统所得出的描 述长度等等,但它有一个实实在在的缺陷:它的另一个名字算法随机性就 暴露了这一点。随机串的算法信息量最大。它(AIC)是衡量随机性的尺度,
  
但随机性无论是在普通会话中,还是在大多数科学场合中都不是“复杂” 的意思。因而 AIC 不是真实的或有效的复杂性。
  但是,在讨论随机性的时候需多加小心,因为这个词的意思在不同的 场合并不总是一样的。我第一次意识到这种暗藏的危险,是在很久以前与 兰德(RAND)公司的接触中。
  
第四章 随机性


  50 年代我刚到加州理工学院工作的时候,我需要找份顾问工作来维持 家庭的生计。加州理工学院的教授们每周可以出去做一次顾问工作,我跟 同事们打听可去的地方。有一两个人建议我到兰德公司去,该公司位于著 名的码头和玛斯卡滩附近的圣莫尼卡(Santa Monica)。
  第二次世界大战之后不久,作为美国空军 RAND 计划〔RAND 为研究与 发展(researchanddevelopment)的简称〕,兰德公司成立了。它的使命 就是诸如使军事策略与分派给军队的任务协调一致,给美国空军提供建 议,并设计合理的方法。不久之后,公司的作用就扩大为包括在一系列问 题上给政府提供建议,这些问题很多都与防御策略有关。兰德计划依然很 重要,但是它只给公司提供部分经费,这样,公司成了一个不盈利的企业, 于是它扩充为民间提供服务。兰德雇用各种领域的专家,包括政治学、经 济学、物理学、数学及军事作战研究方面的专家。
  物理所所雇用的成员大部分都是理论物理学家,我也加入了他们的行 列。我开始作一些非机密研究,并为此挣得一份薪水。我们从加州理工学 院来的 3 个人组成了一个车辆合用队,每逢星期三到兰德去工作。
“随机”的几个含义 对兰德公司所作的最初几次访问中,我记得最清楚的是,他们递给我
一小堆新近提出来的报告,好让我熟悉正在进行的一些工作。其中有一份
报告的题目是“兰德随机数表”(RAND Tableof Random Numbers),尽管 读起来不那么精彩,但它毫无疑问很有用(不过我被告知,一些图书管理 员根据“及 100,000 个正常的偏差”这一小标题,将其归入变态心理学一 类)。
关于这个报告,我觉得有趣的是里面飘出一小张纸,掉落到了地上。
我拾起来一看,发现是张勘误表。兰德公司的数学家们在修正一些随机的 数字!他们发现了随机数中的随机错误吗?在很长一段时间里,我认为这 是件滑稽的事情,但是后来再思索这件事时,它使我注意到这样一个重要 的事实:即便是对数学家和科学家来说,“随机”一词也有着几种不同的 意思。
我们前面一直在使用的“随机性”一词,比如用于一个有一千个比特
的数串,它的意思是该比特串是不可压缩的。换句话说,它非常地不规则, 以至于无法用更短的形式来表示它。但是我们也可以认为,该数串是由“随 机过程”所产生的,也就是说,是由抛掷硬币这样的偶然过程所产生的, 这里正面用 1 表示,反面用 0 表示。这两个意思并不完全一样。一千次抛 币的一个结果可能是一千个正面,用二进制数表示即为一千个 1 组成的比 特串。当然,这样一个一千次全是正面的结果不太可能存在。事实上,这
种情况出现的概率是 1 ,其中 n 是一个有 300 来位数字的巨大的数。因为
n
大多数长的比特串是不可压缩的(随机的)或几乎不可压缩的,所以许多 组一千次抛币将得出随机的比特串,但不是所有的各组实验都产生随机比 特串。一个避免混淆的办法或许是,用“stochastic”(随机),而不是

“random”来表示随机过程,而将“random”主要用于不可压缩的数串。 但是兰德公司随机数表中的随机是什么意思呢?这样一个表如何能配
备一个勘误表呢?最重要的是,这个随机数表有什么用呢? 兰德公司物理部在 1956 年和 1957 年所开展的工作之一是一项非机密
计划,该计划将应用于天体物理,它需要用相当基本的物理学进行计算。 我承担了这一任务,另一个顾问,我的老朋友克斯·布吕克勒(Keith Brueckner)给我提供了一些帮助。部分计算涉及到几个非常困难的近似求 和,兰德公司里一个很有趣的物理学家杰斯·马库姆(Jess Marcum)提出, 通过一个称为蒙特卡罗的方法,利用随机数表来求和。
         随机数和蒙特卡罗方法 这个方法很适合于杰斯,因为他不仅是个物理学家,还是个赌徒。早
些年,他在玩 21 点牌游戏时赢了很多钱。他使用“学者方法”,在大部分
情形下,当机会对他不利的时候,他就下小的赌注;而当机会对他有利的 时候,例如,所有的十分牌(都是 10 和有花的牌)都在牌桌的某一部分, 他就赌大的。这个方法仅当使用一副牌的时候管用。不久后,所有的赌场 都改变了赌博规则(可以说是对“学者们”适应的结果),而开始同时使 用好几副牌。杰斯于是转向其他方面的赌博。
有一次,他曾经向兰德公司请了好几个月的假,去赌赛马。他的方法
是,对预测赛马胜负的人进行分析、推测。他不需要熟谙那些马本身,只 需研究比赛形式,看每个预测者所预测的机会与实际情况符合的程度。然 后他听从成功预测者的建议。但是,他还辅以另外一种方法。每次比赛开 始前,他核对布告板,看定出的赔率(反映到那时为止所收赌注的多少) 与好的预测者所预言的是否相符。如果不相符,这就意味着参赌的人们在 听从其他预测者的建议,或许就是那些名声不好的预测者的建议。杰斯瞅 准最好的预测者所预言的赔率与布告板上所定赔率之间的这种差额,重重 地下赌注。他用这种方式在赛马场稳稳当当地赚钱。但是不久之后,他总 结出,在兰德公司他的薪水至少也有这么多,而且不必冒这么大的风险, 因此他又回来工作了。这就是为什么我碰巧可以得到杰斯的帮助。
蒙特卡罗求和法用于对相当庞大的一组数的求和;它给出了一个从数
字 1 计算第一个量,从数字 2 计算第二个量,从数字 3 计算第三个量等等 的计算规则。该规则使得量的变换从一个数变到另一个数相当顺利;从相 应的数字计算每一个量,既冗长又乏味,因此人们往往不愿多做这样的计 算。(现在,由于有了极其迅速而功能全面的计算机,我们可以直接求这 样的和,但是 35 年前的计算机需要有像蒙特卡罗方法这样的技巧,才能进 行计算。)
假定我们要求 1 亿个量的和。在此之前我们先要从相应的数字,按从
1 到 1 亿的顺序进行,来计算每个待加量。为了应用蒙特卡罗近似法,我 们使用随机数表来得到 1 与 1 亿之间随机选择的若干个数,不妨假设是
5000 个。5000 个数中的每一个,为 1 至 1 亿之间的任何数的概率是相同的。 然后我们计算与这 5000 个数相对应的量,将这些量当作待加的 1 亿个量的 代表性样本,并对它们求和。最后我们将所得结果乘以 1 亿被 5000 除所得 的数(即 20,000)。用这个方法,我们以一个短得多的近似计算代替了

原来冗长的计算。 真随机还是伪随机?
  随机数表中应该是大于 1 而小于某个固定的大值的一组整数,每个数 都是随机挑出来的,而且在挑选过程中,上述范围内的各个数都有同样的 被挑选机会。实际上,随机数表通常不是这么产生的,因而是一个伪随机 数表!那些数是由计算机按照某个特定的数学规则迅速而容易地得出的, 该规则非常地杂乱无章,所以整个过程被认为类似一个随机过程(例如, 使用的规则从工程意义上来说可能是混沌性的)。然后,产生的数表可能 被进行随机性检验,以确定它是否符合一个由真正的随机过程得出的数表 在大多数情况下所应满足的统计标准。在兰德公司的表格里,那些数真是 伪随机的吗?最后一刻的检验真的发现了某个统计标准未被完全满足吗? 这就是为什么会出其不意地发现一个勘误表吗?这些问题的答案竟然都是 否定的。毕竟,随机数表可以通过一个真正的随机过程,比如,一个利用 量子力学现象的过程得到。事实上,兰德公司的数表就是通过使用真空管 中产生的噪声这样一种随机方式来得到的。而且,勘误表是针对 100,000 个正常偏差数,而不是针对随机数表本身!如此具有教育意义的神秘现象 原来一点也不神秘。然而,用随机方法需要作大量的工作,而利用决定论 的规则则要方便得多。这只需让计算机迅速而容易地产生一个序列,并进 而确保序列中多余的规律性在使用这些数的场合中相对来说没什么害处。 可是,经验依然表明,将这样的伪随机序列当作随机序列使用,有时是很 危险的。
最近我阅悉,许多实验室在使用一组极不随机的伪随机数。结果,用
那些数字进行的某些计算出现了严重的错误。这个事件可以用来提醒我 们,从决定论混沌或近混沌过程中产生数列具有相当程度的规律性。
金融市场中的决定论混沌 有时,被认为是随机的序列结果却是伪随机的。例如,多年来许多新
古典主义经济学家一直都在鼓吹,金融市场上受市场基本原理控制的,价
格围绕价值的涨落构成了一种称为“随机游动”的随机过程。同时,那些 深谙价格随时间变化的曲线图的“图表专家”,可以在市场投资方面为你 提供建议,他们声称能从那些曲线中得到关于在不久的将来价格是上升还 是下降的这样一些聊胜于无的预言。我曾经读到一位经济学家所写的一篇 文章,作者在文章中对某些人主张使用这样的证据,而无视经济学家们关 于价格涨落是随机过程的强调表示了强烈的愤慨之情。
  但现在已有令人信服的证据表明,随机过程的观点是错误的。事实上, 这些涨落与决定论混沌中的涨落一样,是伪随机的。理论上,他们包含有 足够的规律性,使你可以从中赚钱。但并不是说那些图表分析家兜售的每 一个金融方案都能让你发财;他们的建议可能多半是毫无价值的。不过, 关于价格涨落不只是一个随机过程的观点本身,并不像那个愤怒的经济学 家所认为的那样,是一种狂热的想法。(事实上,圣菲研究所的两个物理 学家多依纳·法默(Doyne Farmer)和诺尔曼·派卡德(Nor- man Packard) 已经停止了他们的科学研究工作,而去创办了一个投资公司。他们应用从 决定论混沌及近混沌系统理论中得出的方法,来寻找金融市场中的规律,
  
并由此进行投资。一开始,他们花了几个月的时间练习赌钱,然后开始利 用一个大银行提供的资金进行真正的投资。迄今为止,他们干得相当不 错。)
这里,我们已经遇到了关于“随机”一词的三种不同的专门用法:
  1. 随机比特串是指该比特串非常不规则,从而找不到任何规律来压缩 对它的描述。
  2. 随机(random)过程是指偶然的或随机的(stochastic)过程。在 产生具有给定长度的比特串时,它主要得出随机的、完全不可压缩的比特 串;有时得出包含一定的规律性,因而具有一定程度的可压缩性的比特串; 极少数情况下能够得到非常规则的、具有很大可压缩性的比特串,这些比 特串一点也不随机。
  3. 随机数表通常由伪随机过程——一个事实上没有利用偶然性的决 定论计算过程——产生的,但它非常紊乱(比如混沌式的杂乱),所以在 很多场合下同随机过程非常相似,并且满足一些真正的统计过程通常所满 足的统计标准。当应用这样的伪随机过程来产生比特串时,所得到的数串 在相当大的程度上类似于一个真正的随机过程所产生的数串。
         莎士比亚和著名的猴子 下面我们将要讨论,为什么算法随机性或算法信息量与我们对于复杂
性的直觉概念不完全相符。现在我们看一个著名的例子,一个猴子站在打
字机旁,假定它随机地敲击各个键,每次击键时,任何符号或空格键被敲 击的可能性是相等的。我怀疑实际中的猴子是否会那么做,但对我们所要 讨论的问题来说,这并不重要。问题是,在特定的时间内那些猴子打出莎 士比亚著作(或大英博物馆中的所有书籍——博物馆的这一部分现在称为 大英图书馆)的可能性有多大。显然,如果一定数量的猴子中每只打出足 够多的页数,那么整个这些片断包含莎士比亚著作(不妨假设是佛里奥版 本)中的一个连贯的段落的概率是非零的。然而,那个概率极小。即使全 世界所有的猴子花一万年的时间,每天各打字 8 小时,打出的文章包含佛 里奥版本的莎士比亚著作中一个连贯的部分的概率也是可以忽略不计的。 在鲁塞尔·马洛尼(Russell Maloney)几年前发表于《纽约人》杂志 上的题为《不变的逻辑》(Inflexible Logic)一文中,作者虚构了这样 一个故事:6 个黑猩猩开始系统地用打字机打大英博物馆中的书籍,一本 接一本,毫不犹豫,也不出错。但这些黑猩猩的结局却很悲惨:一个科学 家为了维护自己的概率定律而将它们杀掉了。最后一只猩猩在一阵临死挣 扎时,“猛然摔在它的打字机跟前。它痛苦地用自己的左手从打字机上拿 下刚打完的,佛罗里欧(Florio)写的《蒙田》一书中的最后一页。它摸 索着找到一张白纸,将它放入打字机里,然后用一个手指打着,‘《汤姆 叔叔的小屋》(Uncle Tom’s Cabin),哈里特·比切尔·斯陀著。第一
章??’,然后它也死去了。” 考虑一只著名的非“纽约人”猴子,让它打一份与佛里奥版本同样长
的材料,将那只猴子的一个典型的成品与莎士比亚的著作进行比较。哪个 具有更大的算法信息量呢?显然,猴子打出来的作品具有更大的 AIC。以 随机过程(这里,随机是我们所给出的第二个意思)的方式,猴子极可能

打出一个随机或近随机的符号序列(这里随机是第一个意思)。如果猴子 的作品用某种标准方式编译成一个比特串,那么,在具有同样长度的比特 串中,该比特串具有最大或近似最大算法随机性的可能性非常大。莎士比 亚著作的随机性显然要小些。英语语法规则,拼写(纵然莎士比亚漫不经 心地使用一个本来文法就不严的系统),合理性的需要及许多别的因素都 使莎士比亚的文章具有一定的非随机性,从而使它比猴子所打的任何可能 的、同样长的段落具有更低的算法信息量(或算法随机性)。对任何使用 英语的作家来说也是如此;我们还没有考虑莎士比亚的独特性呢!

有效复杂性


  很明显,尽管 AIC 或算法随机性有时被称为算法复杂性,但在大多数 情况下它们与“复杂性”所指的意思没有多大的关系。为了定义有效复杂 性,我们需要与在随机比特串中获得最大值的量截然不同的东西。事实上, 正是系统或比特串的那些非随机性的方面,才促成了它的有效复杂性。有 效复杂性,大致可以用对该系统或数串的规律性的简要描述长度来表示。 原始复杂性与 AIC 不能表示我们通常所理解的“复杂性”,因为它们指的 是对整个系统或数串的简要描述长度,其中包括它所有的随机特征,而不 只是其规律性。
为了更加全面地讨论有效复杂性的概念,首先必须详细研究复杂适应
系统的性质。我们将看到,除了一些别的东西之外,它们的学习或进化还 要求有一定程度上识别随机性与规律性的能力。因而一个系统的有效复杂 性,与正在观察该系统的复杂适应系统所作规律性描述有关。

第五章 儿童学习语言

我女儿学说话的时候,她最初说的几句话之一便是“爸爸坐车—车”
(Daddy go car-car),这是每天早晨我去工作时她都要说的话。这句话 是关于我的,对此我感到受宠若惊,而且使我高兴的是,她真真实实地在 说话,尽管她的英语还需要下一番功夫。只是在最近我才突然觉得,那句 话中已经具有某些英语语法的特征。就拿语序来说吧,在英语中,主词总 是位于动词之前(但在另一些语言,比如威尔士语、夏威夷语和马拉加西 语中,就不是这样)。主词和动词的顺序是对的,词组“车—车”的位置 也对了。在合乎文法的英语句子“〔爸爸〕〔驾车〕〔走了〕”(〔Dad- dy〕〔 isgoingaway〕〔inhiscar〕)中,三个要素与儿童的近似语言中 的完全一样。
  当我女儿逐渐长大时,她的语法自然而然地不断完善起来。像别的小 孩一样,几年之内她就能说一口准确的英语了。只要有一个会说某种特定 语言并定期对小孩说那种语言的照管人,比如父亲或母亲,那么,任何正 常的儿童都会在几年的时间里学会正确地说该种语言(当然,一些美国人 认为这种说法不适用于美国的许多高中学生)。事实上,大多数小孩都能 够像母语那样准确地掌握 2 至 3 种语言,尤其是当 2 个或 3 个照管人中的 每一个,习惯上都只跟小孩正确地使用其中的一种语言的时候。即使小孩 只通过一个人接触某种语言,情况也仍然如此。但是,对于某种给定的语 言,小孩怎么知道哪些造句法合乎文法,哪些不合乎文法呢?
假设总共只有 5 万个可能的句子,母亲和孩子花上 1000 天的时间来系
统地试验这些句子,每天检验 50 个新句子。每当小孩说一个句子,母亲就 耐心地指出“好句”或“病句”。如果我们采用这样一个荒谬的方案,再 加上小孩完美的记忆力,那么 3 年以后这个小孩就能准确地知道那 5 万个 句子中哪些是合乎文法的。
计算机科学家可能会说,这个假想的小孩在心中建构了一个“查阅
表”,上面列有每个候选的句子及它们的归类,即“合乎文法”还是“不 合乎文法”。无疑,一个实际当中的小孩是不会准备这么一个表的。首先,
5 万个句子太少了。
  任何人类语言中,都有无限多个可能的句子,每个句子都可以包含任 意多个子句,每个子句又可以包含多个修饰性字、词。句子长度只受到可 利用的时间及说话者与听话者的耐心和记忆力的限制。而且,通常有数千 个字可供我们使用。一个小孩不可能听到或试图说出每个可能的句子,并 将它收入到查阅表中。可是在实际的学习过程之后,小孩却能够辨别出一 个以前从未听到过的句子是否合乎文法。
  儿童们必定会建构一套用于判断什么合乎文法及什么不合文法的临时 规则,尽管他们并不是完全有意识地这么去做。然后,他们不断听到语法 正确的句子,并偶尔发现一个病句后将它改正过来,他们不断地更改那套 规则。同样,他们也未必是完全有意识地这么去做。例如,一个小孩可以 很容易地掌握动词过去式的规则变化:加“d”或“ed”,然后,小孩偶然 碰到“sing”和“sang”(一个变化不规则的动词的现在时与过去式), 于是他或她对那套规则进行修改,使之能包含这一例外情况。然而那套修 改后的规则可能促使小孩说“bring”和“brang”,最终他或她得将它们
  
修改为“bring”和“brought”。依此类推,逐渐地,这套内部规则不断 得到改进。小孩正在心中建立起一种语法规则。
  一个正在学习语言的小孩确实在使用着语法信息,这些信息是几年中 从合乎文法的句子与病句的例子中得到的。但是小孩不会去建立一个查阅 表,而是以某种方法将这些经验压缩成一套规则,一套即便是对以前从未 遇到过的新句子也适用的内部语法。
  但是只凭从外部世界,比如从父亲或母亲那儿获得的信息就足以使小 孩建构这样一套内部语法吗?诺姆·乔姆斯基(NoamChomsky)及他的门徒 对这一问题给予了否定的回答。他们认为,小孩还必须天生就拥有大量适 用于任何自然人类语言的语法信息。在生物进化过程中获得的,学说语言 时具有某些语法特征的天生倾向,似乎是这种信息唯一可能的来源。这里 所指的某些语法特征是所有自然人类语言共有的。每种语言亦包含一些非 进化所得的附加特征。尽管有些附加特征可能像天生所具有的那些一样具 有普遍性,但大部分都随语言的不同而不同。这些附加特征是儿童必须学 会的。
         语法作为一个部分图式 当然,一个陈述句是否合乎语法,多半与它陈述的内容是否属实无关。
操英语者都知道,“绿色的天空中出现紫色和黄色的条纹。”这样一句话
在语法上是正确的,尽管这种说法至少在地球上来看很不真实。但是,影 响一个人在某个特定场合中选择某个合乎语法句子的,不只是真实性,还 有许多其他的环境因素。
在建构内部语法时,小孩能够有效地区分开语法特征与他们听到的特
殊句子的所有其他因素,这些因素有些是随机性的。只有这样,才能将散 乱的语法特征压缩成一套容易使用的语法规则。
一个这样做的小孩就显示出了复杂适应系统的第一个特征。他或她把
从大量经验中识别出来的规律性的东西,压缩成一个图式,这个图式包含 了支配那些经验的规则,但忽略了使用这些规则的特定环境。
然而,语法并不包含语言所具有的所有规律性。还存在发音规则(构
成语言学家所称作的一种语言的“语音学”),语意学规则(关于什么合 理,什么不合理),等等。因而语法图式不是关于一种语言的全套规则, 语法也不是在语言数据流的随意性被去掉以后剩下的所有东西。然而,儿 童对语法的掌握是建构一种图式——一种部分图式的极好的例子。
  学习语言的过程也表现出在运作中复杂适应系统的其他特征。一个图 式很容易发生变化,不同变异形式的采用与废弃,都要经过实践的检验。 为了对它们进行检验,必须补充一些细节,比如在建立图式时所丢掉的那 些。这是理所当然的,因为,在现实世界中将要遇到的,与最初从中提炼 出图式的,是同一个数据流。最后,现实世界中发生的事情关系到图式中 的哪个变异形式将幸存下来。
  在掌握英语语法的过程中,图式是变化的,例如,用“ed”或“d”来 构造动词过去式的规则,要被 sing-sang 与 bring-brang 之类的例外情形 来修改。为了检验这些变异的规则,小孩必须将图式应用于一个实际的句 子,从而重现建立图式时所忽略的那种特殊环境。例如,小孩可能说,“我
  
们昨天上午唱了(sang)一首赞美诗。”这句话被认为是合理的。可是如 果他或她说,“我带了(brang)一件东西回来给你们看”,那么他的父亲 或母亲会回答,“你能让我看你从贝茜阿姨家捉到的蟑螂,我很高兴,但 你应该说‘我带了(brought)一些东西回家??’”。这一经验可能促使 该小孩试验出一个新的图式,它可以将 sing-sang 与 bring-brought 都包 括在内。(当然,在很多情况下,孩是等别人说话时来检验一个图式。)

复杂适应系统与有效复杂性


  图 3—1 表示了一个复杂适应系统的运作情况。既然复杂适应系统从随 机性中分离出规律性,从而得出一个图式来描述和预言新数据流的性质, 那么,用图式的长度来定义复杂性也就成为可能。当然,那些数据通常和 复杂适应系统正在观察的某个其他系统的运作有关。
  利用一个图式的长度并不意味着回归到原始复杂性的概念,因为图式 不能完备地描述被观察系统的数据流,而只能完备地描述从可利用的数据 中提炼出来的规律。在某些情况下,比如语法情形,图式中只包含某种特 定类型的规律,而其他规律则被弃置于一边,因此,这种图式是一种部分 的图式。
你可以将语法复杂性看作一部语法教科书。大致说来,教科书越厚,
相应的语法就越复杂。这与用图式长度来表示复杂性的思想是一致的。每 一个引起困难的小小例外情形均使得书的厚度,也即语言的语法复杂性增 加。
像通常情形一样,这里存在着诸如粗粒化和共同的初始知识或理解之
类的随意性的来源。在语法教科书的情形中,粗粒化对应于教科书所达到 的精细度。那么,一套语法如果遗漏了许多隐含规则与例外情况,而只包 括不介意出错的旅游者所需的一些语法要点,能算是基本的语法吗?或者 说,它能算是一部重要的学术书吗?如果是,那它是一种传统的常见的语 法呢,还是刚流行的生成语法(generative grammer)呢?显然,书的厚 度与这种区别有关。至于初始知识的层次,我们来考虑一部用英语为说英 语者所写的成熟的外语语法。如果这是荷兰语(与英语非常相似且相近), 而不是在结构上与英语很不相同的那佛乔语(Navajo)的话,我们就不必 引入太多的新语法概念。而对那佛乔语来说,其语法规则应该更长些。类 似地,一本写给说那佛乔语的人看的荷兰语语法书大抵要比写给说英语者 看的荷兰语语法书更厚些。
  即便存在着这些因素,将语言的语法复杂性与描述该语法的教科书的 厚度联系在一起,也仍然是合理的。但是,如果有可能看到一个说母语的 人的脑子(不断前进的科学技术也许会在某天使之成为可能),并看到语 法在那里怎样被译成密码的话,那将更有意思一些。用那种内部语法所表 示的图式的长度,可以作为衡量语法复杂性的尺度,这种衡量尺度具有较 小的随意性。(自然,这种情况下长度的定义比较微妙,要依赖于语法信 息在实际上被译成密码的方式。它们是储存在局部的神经元和神经突触 上,还是以某种方式分布在整个神经网络中呢?)
  我们将一个系统相对于正在对它进行观察的复杂适应系统的有效复杂 性,定义为用来描述其规律性的图式的长度。当图式以某种方式支配被讨
  
论的系统(比如储存于脑中的语法规范着言辞),而不仅仅是被外部观察 者,如一本语法教科书的作者使用时,我们就可以使用“内部有效复杂性”
(internal effective com- plexity)这一术语。
         从随机性中分离规律性 有效复杂性这一概念的作用,尤其当它不是内部有效复杂性时,与进
行观察的复杂适应系统能否很好地识辨与压缩规律并抛弃偶然性的东西有 关。如果不能,那么,特定观察者的缺点对被观察系统的有效复杂性的影 响,比被观察系统本身的性质对它的影响更大。结果,观察者常常是相当 有效的,但是有效性的概念却由此引起了深远的问题。我们已经知道,最 理想的压缩思想可能会陷入不可计算性的困境之中。除压缩之外,实际的 规律识辨又怎么样呢?从数据流中识辨规律性真是一个定义明确的问题 吗?
  如果从某种意义上说数据流无限地长,比如,在语言或教科书情形中, 它如此地广博,以至于构成了一个包括用给定语言所能说出的每个可能的 句子在内的典型样本,那么,识辨规律的任务会更容易一些。这里,即便 是一条罕见的语法规则,也会在相似的条件下反复地显示出来,从而使人 们能将它同纯偶然的不规则变化中得出的错误规则区分开来。(例如,在 一篇短的英语文章中,过去完成时态可能不会出现,从而给人造成英语中 不存在过去完成时态的错觉。而在一篇很长的文章中,这样的情况就不大 可能发生。)
         识辨某些类型的规律性 许多理论物理学家,如加利福尼亚大学伯克利分校和圣菲研究所的吉
姆·克鲁奇菲尔德(Jim Crutchfield),在了解如何从一个无限长比特串
的随机性中识辨出规律性方面,取得了很大的进展。他们定义了许多种规 律性,并证明了在理论上如何应用计算机来识辨上述范围内的规律性。但 是,即使他们的方法也不能提供一个挑出每种规律性的算法,这样的算法 根本就不存在。但他们证明了,计算机在比特串中发现属于某类规律性后, 能够推断出新的、属于一种更基本类型的规律性的存在,并知道如何识别 它们。这被称为“分级学习”(hierarchical learning)。
  通常,一类规律对应于一组关于如何产生一个数据流的数学模型。假 设数据流是一个由随机(至少是部分随机)过程——不妨假设为掷硬币的 过程所产生的一个比特串。这种模型一个很简单的例子,是一个有偏抛币 序列(a sequence of biased cointosses),其中出现正面(对应于比特 串中的 1)的概率是 0 和 1 之间的某个固定值,而出现反面(对应于比特 串中的 0)的概率是 1 减去出现正面的概率。
  如果正面出现的概率是二分之一,那么这样一个序列中的任何表面的 规律只能是偶然的结果。随着数据流变得越来越长,被这种偶然规律欺骗 的可能性就越来越小,而认识到那一序列源自与无偏( unbiased coin tosses)抛币相似过程的可能性越来越大。考虑 2 比特数串这样一个极端 情形。在无偏抛币情形中,2 个比特均为 1(一种完美的规则情形)的概率
  
是四分之一。但这样一个序列同样有可能产生于抛掷两面均为人头像(正 面)的硬币的过程。因而,产生于无偏抛币过程的一个短比特串常常会被 错误地当作一个有严重偏向性的序列。一般来说,一个无限长数据流的好 处在于,它大大地增加了分辨各种模型的可能性,这里每个模型对应于一 类特殊的规律性。
  比有偏抛币序列稍稍复杂一点的另外一种模型,可能有这么个附加规 定,即连续出现两个正面的序列应该抛弃。由此导致的规律性,即比特串 决不会连续出现两个 1,在一个长比特串中可以很容易地辨认出来。一个 更复杂的模型可能包含这样一些有偏抛币序列,其中任何一个连续出现偶 数次正面的序列将被丢掉。
  当一个复杂适应系统接收到一个任意长的数据流时,这里不妨设它具 有比特串的形式,它能够系统地搜寻某给定类型的规律性;但是,没有可 用于寻找所有各类型规律性的方法。任何被识别出来的规律性都可以进而 被整合到一个用于描述数据流(或者产生该数据流的系统)的图式之中。
将数据流划分成若干部分——交互信息 在识别一个输入的数据流之中的规律性时,复杂适应系统通常将该数
据流划分成具有某种可比性的许多部分,并研究它们之间的共同特征。许
多部分所共有的信息称为“交互信息”(mu-tual information),它是规 律性的特征。在用某种给定语言写出的一个文本流(a stream of text) 情形中,句子可以作为待比较的各部分。各句的共同语法信息显示出语法 规则。
然而,交互信息只用于识别规律性,它的量并不是有效复杂性的直接
量度。在辨别出规律性并给出一个有关它们的概要描述时,那个描述的长 度才是衡量有效复杂性的尺度。
        大的有效复杂性与中等 AIC 假定所描述的系统根本没有规律性(比如那只著名的猴子所打出来的
一段文字,通常就是——但并非都是——这种情形),一个正常运作的复
杂适应系统也就不能发现什么图式,因为图式是对规律性的概述,而这里 没有任何规律可言。换句话说,它的图式的长度是零,复杂适应系统将认 为它所研究的系统是一堆乱七八糟的废物,其有效复杂性是零。这是完全 正确的;胡言乱语的语法图式其长度应该是零。虽然在具有给定长度的比 特串中,随机比特串的 AIC 最大,但是其有效复杂性却为零。
  AIC 标度的另一个极端情形是,当它几乎等于零时,比特串完全规则, 比如全由 1 组成。有效复杂性——用于描述这样一个比特串的规律性的图 式的长度——应该非常接近于零,因为“全部为 1”的消息是如此之短。
  因而,要想具有很大的有效复杂性,AIC 既不能太高,也不能太低。 换句话说,系统既不能太有序,也不能太无序。
  图 5—1 大致反映了系统(相对于作为观察者的正常运作的复杂适应系 统)可能的最大有效复杂性随 AIC 变化的情况。从图上可以看出,它只能 在极端有序与极端无序之间的中间区域达到最大值。在讨论简单性、复杂
  
性和复杂适应系统的过程中所出现的许多重要量,都具有这样一个共同性 质,即它们只可能在那个中间区域取得很大的值。
  当一个复杂适应系统观察另一个系统,并且识别出它的一些规律性 时,从被观察系统得到的数据流的 AIC 可以表示为如下两项的和:表观规 则信息量与表观随机信息量。图式的长度——被观察系统的有效复杂性—
—实质上与表观规则信息量相等。对于一个被普遍认为是随机的数据流来 说,其有效复杂性是零,整个 AIC 被认为是偶然性的结果。而一个被认为 是完全规则的数据流(比如一个全部由 1 组成的长比特串)来说,整个 AIC 都是规则信息量(没有随机信息量),但它的值非常地小。有趣的是,在 这样两个极端情形之间,AIC 很大但不是最大(对于具有同一长度的数据 流来说),并且等于两部分之和,即表观规则的部分(有效复杂性)与表 观随机的部分之和。
通过基因或大脑学习 虽然我们对复杂适应系统的研究是从儿童学习的例子开始的,但是,
说明这一概念并非必须借助如此高级的事物。用我们的同类猩猩——打字
机故事中所描述的那种——同样可以。用狗也行。事实上,我们观察其他 哺乳动物学习的一个办法就是通过训练我们的宠物来进行。
教狗学会保持某种姿势牵涉到将一个抽象概念应用于大量各种各样的
情况:在地上保持坐姿;车门打开时仍然呆在车中;呆在附近不动,而不 去追赶一只迷人的松鼠。通过奖励和惩罚的方式,使狗学会应命令而处于 各种状态的模式。其他可供选择的图式,比如将追赶猫当作例外情形的图 式,随着训练的进行而被狗抛弃(至少理论上应是这样)。但即使狗选择 了一种例外的图式,复杂适应系统也仍然在起着作用。这里,作为来自于 训练过程和追猫天性之间竞争压力的结果,一个与训练者本意不同的图式 幸存下来了。
在得到保持某种状态的命令后,受训的狗将适用于该特定情况的细节
补充进来,并将图式应用于现实的行为世界,在那里存在着奖惩,这些奖 惩最终有助于决定该图式是否幸存。尽管追捕松鼠或猫的倾向也影响各个 图式之间的竞争,但它并非单个的狗所学得的。它而是作为生物进化的结 果,并由遗传而获得的。
所有生物都有这样的本能行为。考虑一只为寻找食物而在巢穴周围漫
游的蚂蚁。它遵循着一个经过数百万年的进化而得的内在的程序。卡耐基- 梅隆大学( Carnegie-MellonUniversity)著名的心理学、经济学和计算 机科学专家赫伯·西蒙(Herb Simon),很久之前曾用蚂蚁的行为来说明 被我称之为有效复杂性的意义。蚂蚁所走的路径看起来很复杂,但寻觅过 程的规则却很简单。蚂蚁所走的错综复杂的路径显示出很大的算法复杂性
(AIC),但其中只有极小的一部分产生于规则。那些规则大致对应于寻觅 过程的规律性。然而,那一极小部分的 AIC 却(至少近似地)构成了全部 的有效复杂性。AIC 中剩下的部分,即大部分的表观复杂性,源于蚂蚁正 在探寻食物的地域的偶然的、并多半是随机的特征。(最近,我同赫伯讨 论蚂蚁的故事时,他笑着惊呼:“那只蚂蚁给我带来的好处真是太多了!”) 在级次越来越低的一组生物中,比如一只狗,一尾金鱼,一条虫子和

一只变形虫,个体学习所起的作用越来越小,而通过生物进化贮存下来的 本能则起着越来越大的作用。但是,生物进化本身也可描述为一个复杂适 应系统,即便是最低等生物的进化也是如此。

第六章 细菌产生耐药性


  我在年轻的时候养成了翻阅百科全书的习惯(这个习惯一直延续至 今,它给我的家庭带来了欢乐)。一次,我在一个栏目中偶然看到一篇关 于铜腐蚀(bronze disease)的文章,它促使我开始思考一些后来成为本 书主题的问题。
  铜腐蚀是指能腐蚀铜表面,并产生一些不断扩展的浅绿-蓝色斑点的一 组化学反应。在潮湿条件下,这些反应实际上能通过空气将腐蚀从一个表 面传播到另一个表面,最后毁坏放在一起的所有铜制物。因为铜比较贵重, 比如,每件中国商朝的铜器可能值一百万美元,所以保护铜制物免遭腐蚀 就显得非常重要了。然而,当我作为一个穷家孩子而第一次读到这段记述 时,显然不是从一个收藏家的角度来看待这一问题的。
  我是在想,“铜腐蚀与由活生物导致瘟疫的区别在哪里呢?就在于铜 腐蚀完全服从物理和化学规律吗?”即便是一个小孩,我也像几代以来的 严肃科学家那样,拒绝接受这样一个观点,即生命以超越物理和化学之外 的“活力”为特征。不,细菌同样也服从物理和化学定律。那么,两者的 区别到底是什么呢?我觉得,细菌(像所有其他有生命的物体那样)具有 可遗传并服从自然选择规律的变异性,而对铜腐蚀来说,没有任何证据表 明存在这样的性质。事实上,这种差别是判决性的。
为了进一步研究这种差别,我们来考虑管中流体的湍流现象。早在一
个多世纪以前,人们就已经知道,能量耗散于从大旋涡变成越来越小的旋 涡的过程。在描述那些旋涡时,物理学家常常引用斯威夫特(Jonathan Swift,英国作家)的诗:①
学者观察惟仔细,
蚤身复有小蚤栖; 小蚤之血小蚤啖, 循环无穷不止息。
而且,物理学家、博学家理查森(L.F.Richardson)自己写了一首
特别适用于旋涡的打油诗: 大旋涡中小旋涡, 高速向前奔驰过; 小旋涡里有更小, 直至粘滞再论说。
  在某一意义说,较大的旋涡产生较小的旋涡。如果管子有弯曲和颈缩, 就会使有一些大旋涡产生不了小旋涡,而另一些大旋涡则能够产生许多较 小的旋涡,这些较小的旋涡还会产生更小的旋涡,依次类推。因此,旋涡 似乎显示出一种变异性和选择性。
  然而没有人认为它们与生命物相似。那么湍流旋涡缺少生物所具有的 哪些重要特征呢?湍流与生物进化的真正区别在哪里呢?
差别就在于,两种情形中对待信息的方式不同。在湍流中看不出有任 何信息处理过程发生,也没有任何压缩规律性的迹象。但是,在生物进化 中,由于过去的变异和自然选择而形成的经验,以高度压缩的信息束,即



① 以下诗文引用张彦等译《混沌学——一门新科学》(社会文献出版社,1991 年版)96 页的译文。

生物“基因组”(genome)的形式被传递给未来的后代。每个基因可有各 种不同的形式,这些不同形式的基因位于同一种染色体的同一位置上,被 称为“等位基因”(alleles)。包含一个生物中所有基因的特定等位基因 组称为“基因型”(genotype)。
  生物学家强调基因型与表型(phenotype)之间的差别,前者描述的是 包含于生物个体基因中的遗传信息,后者描述的是生物在有生期间的外表 和行为表现。当然,基因型的变化,比如某个基因从一个等位基因变到另 一个等位基因,可以通过基因对生物体内化学过程的影响,从而进一步影 响到表型。但是在生物的成长过程中,表型还受到大量其他环境因素的影 响,而这些因素中很多又是随机的。想想从单细胞与胎儿过程到幼儿、儿 童时期,再到具有生育能力的成年这一过程中,影响人类成长的所有偶然 的环境因素就不难明白这一点。单个人体的基因型像一个基本的食谱,允 许厨师在实际操作中有很多的变化。一个基因型允许个体在成长过程中成 长为许多可能不同模式的成年人中的一个。在双胞胎的情形中,两人具有 永远相同的基因型,这时两个具有不同模式的成年人将会共同存在。当把 他们分开抚养时,他们在成人表型形成过程中,就能提供“天性”和“教 育”所起作用的重要信息。
在生物进化的过程中,基因型在每一代中都会发生一些随机的变化。
这些变化与某一代成长过程中发生的偶然事件一道,导致表型的变化。表 型变化将有助于决定一个生物个体是否能够生存,是否能成熟,是否具有 繁殖能力,以及是否能够全部或部分地将基因型传给自己的后代。因此, 人口中基因型的分布是偶然性与自然选择的结果。
          细菌耐药性的进化 对现代人类具有重要意义的一种生物进化的情形,是细菌耐抗生素的
能力在不断发展。例如,在长期广泛地使用青霉素来控制某些病菌达几十
年之后,出现了一些对青霉素不太敏感的细菌群体。为了对付由这些变异 了的细菌所引起的疾病,必须有新型的抗生素,而在新药完善的过程中, 很多人都得遭受病魔的折磨乃至死亡的命运。类似地,几十年来,人类研 制的抗生素控制住了结核杆菌,但近年来它们之中已经形成了一些具有耐 药性的种群。结核病又成了人类健康的主要威胁,尤其是在那些曾经将它 控制住了的地方。
  两个细菌在它们靠近、融合,然后又分开的过程中所进行的遗传物质 的交换,对细菌耐药性的获得常常起着重要的作用。这一过程是约什·莱 德伯格(Josh Lederberg)在耶鲁大学读研究生时首次观察到的,它是像 病菌那么简单的生物所能完成的有性接合过程。当时我是耶鲁大学的本科 生,如今我依然记得,细菌领域“性特征”的发现当时曾引起公众多么大 的关注;甚至《时代》周刊上都登出了这一消息。约什潜心于他的工作, 这使他最终赢得了洛克菲勒大学的校长职位。为简单起见,在讨论细菌耐 药性时,我将不考虑性的问题(这一点我得向约什表示歉意)。
  因为同样的理由,我还打算忽略另一个重要机制,它是关于细胞之间 遗传物质的交换,这里,交换过程的载体是使细菌受感染的病毒——噬菌 体。这个过程的实验称为转导(transduction),是遗传工程研究开始的
  
标志。
  关于细菌的比较彻底的研究主要集中于大肠杆菌,这是人类肠道中一 种普通的、无害的、甚至有益的细菌,但是当它感染到人体其他部分时, 也能引发疾病(而且,它的某些突变形式即使是在消化道中也是有害的)。 大肠杆菌是单细胞生物,其遗传物质由几千个基因组成。一个典型的基因 是由大约一千个“核苷酸”分子(统称为 DNA)构成的序列。DNA 是所有生 物中所有基因的组成成分,它们共有四种,分别用每一种类的化学名称的 第一个字母表示为 A、C、G、T。任何基因都是一个更长的核苷酸链中的一 部分,而每个核苷酸链又与另一个核苷酸链一起形成双螺旋结构。双螺旋 结构是克里克(Francis Crick)和沃森(James Watson)在富兰克林
(Rosalind Franklin)和威尔金斯(Maurice Wilkins)工作的基础上,
于 1953 年发现的。在大肠杆菌中,有两个呈螺旋状的核苷酸链,每个大约 包含 500 万个核苷酸。
  一条链上的核苷酸与另一条链上的核苷酸是互补的,即,A 与 T 彼此 相对,而 G 则与 C 彼此相对。因为双螺旋结构的两条链中任何一条都可由 另一条决定,所以我们只需审视其中一条链就能读到全部的信息。
假定核苷酸链中的核苷酸数目是 500 万。我们可以将 A 编码为 00, C
为 01,G 为 10,T 则为 11,这样,500 万个核苷酸就可以表示为一个由 0、
1 组成的共有 1000 万个数字的数串,换句话说,也就是由 1000 万个比特 组成的比特串,该比特串代表了每个大肠杆菌所要传给其后代的信息。大 肠杆菌的后代是通过由一个细胞分裂成两个细胞的方式产生的,原来的双 螺旋链变成了两个新的双螺旋链,分别属于两个新产生的细胞。
细菌的几千个基因中,每一个都可以有多种存在形式。当然,从数学
上来看,其存在形式可以非常多,比如,对于一个具有 1000 个核苷酸的数 串来说,可具有 4 的 1000 次方(41000)种不同的组合形式。如果用十进制
数来表示,这个数大约包含 600 个数字!但是自然界中能够发现的序列只
是那些理论上可能的序列中一个极小的部分(如果它们全部存在,那将需 要比宇宙中现有的多得多的元素)。实际上,在任何时候,每个基因都可 能有这样几百种等位基因,它们在细菌家族中具有颇大的存在概率,并且 具有不同的化学和生物效应。
在各种偶然事件的作用下,比如宇宙射线随机通过或环境中强化学药
品的存在,任何基因都可能发生从一种形式到另一种形式的突变。即便只 有一个突变,也会引起细胞行为的变化,例如,一个大肠杆菌细胞中的某 个基因突变成另外某个新的等位基因,那么理论上,这个突变可能致使那 个细胞具有对某种药物,比如青霉素的耐药性。这种耐药性将随着细胞通 过反复的细胞分裂进行繁殖而传递给后代。
  突变通常是一些偶然的过程。假设一个细菌在宿主组织中繁殖出一个 具有相同基因型的菌群,那么,不久之后,这个菌群将可能发生突变,而 那些发生突变的细菌又会形成一个新的菌群。通过这种方式,该宿主组织 中的细菌家族将包括各种不同的基因型。如果在宿主组织中注射足够剂量 的青霉素,将只有那些对青霉素具有耐药性的菌群才能继续生存。重要的 一点是,当药物开始施加对它们有利的选择压力时,耐药的突变细菌往往 已经由于偶然性的原因而存在了,通常是因为它的某位祖先的突变遗传所 致。即使它们没有呈现出来,但也在别的什么地方存在着,或至少它们经
  
由偶然过程而不断形成,之后又消失了。如莱德伯格很久以前所证明的那 样,突变不是由青霉素所引起的。
  一个基因向对应于耐药性的等位基因的突变,可能对大肠杆菌细胞的 运作有一些不利的影响。否则那个等位基因几乎必然无疑地存在于大量的 大肠杆菌中,而一开始青霉素也不会产生抑菌作用。但是,随着青霉素继 续被广泛地使用,外界条件对抗青霉素菌群的生存变得有利;与此同时, 选择优势不论它们是什么,都不如耐药性这一优势重要。(一种应用不如 青霉素普遍的抗生素可能更能说明问题,因为在注射药物之前,细菌与该 抗生素的接触更少。)
  因此,耐药性的发展是由于基因型的改变,这时大约有 1000 万个比特 的信息串被细胞传递给后代。细菌是通过基因来“学习”对付这种对其生 存造成威胁的药物的。但基因型还包含了大量其他信息,那些信息是细菌 正常运作的基础。基因中包含了在数十亿年生物进化过程中所获得的如何 生存的信息。
  大肠杆菌及其祖先的原有生命形式的经验并不只是简单地被录制下 来,形成一个可供参考的查阅表;而是把经验中的规律性识辨出来,并压 缩成用基因型表示的信息串。一些规律还只是到最近,比如抗生素的普遍 使用时,才被发觉到;大部分规律性则在很古老的时候就被发现了。在一 定程度上,基因型随个体不同而有所不同(或随遗传学上完全相同个体的 菌群的不同而不同),突变在任何时候都可能偶然地发生,并能被传递给 后代。
这种学习方式与用大脑进行的学习之间存在着有趣的差别。我们已经
强调过,当注入药物时,对该药表现出耐药性的细菌突变形式无疑由于偶 然性而已经存在,而且无论如何那些突变形式过去曾不时地存在过。但是, 对策更多的是应挑战而产生,而不是当挑战来临时就已经可以使用了。(某 些不明显的证据表明,生物学上的基因突变有时应需要而产生,但是即使 这一现象的确存在,那么与偶然性突变相比,它也是微不足道的。)从复 杂适应系统的角度来看待进化进化过程可以在什么程度上被描述为一个复 杂适应系统的行为呢?基因型满足图式的条件,它包含了高度压缩的历史 经验,并且容易以突变的形式发生变异。基因型本身通常不直接接受经验 的检验。它在很大程度上控制着生物的化学反应,但每一个体的最后命运 还依赖于完全不受基因控制的周围环境条件。换句话说,表型由基因型和 所有的外部条件共同决定,而其中的外部条件大多都是随机的。这种将图 式展开,并利用输入的新数据,来对现实世界产生影响的过程是复杂适应 系统的特征。
  最终,一个单细胞生物的某个特定基因型幸存与否,取决于具有那种 基因型的细胞是否能活到他们进行分裂,他们的后代是否也能活到进行分 裂,等等,依此类推。这就满足了包括选择压力在内的反馈环路的要求。 细菌群体无疑是复杂适应系统。
  从图式的长度这一方面来说,细菌的有效复杂性显然与基因组的长度 有关。(如果 DNA 双螺旋的一些部分只不过是些填塞物,不提供任何遗传 信息,如像较高等的生物中存在的情形,那么这些部分的长度将不包括在 内。)基因组中相关部分的长度提供了一个衡量有效复杂性粗略的内部尺 度。说它是内部的,是因为它与生物用来描述将遗传物质传给后代的图式
  
有关,而与外部观察者所设计的图式无关。(这一衡量尺度与一个正学习 母语的小孩头脑中的内部语法长度相似,与之对应的外部图式则是一部描 述该语言语法的书的厚度。)它只是一种粗略的量度,因为像其他复杂适 应系统一样,生物进化在压缩规律性时,在不同的情形下有着不同的效率。 有时这种差别可能使得该衡量尺度没有任何价值,比如在某些显然相当简 单、但却具有异常冗长的基因组的生物中就是这样。
  但是,不同生物的基因组之间的比较,暴露出了使用基于图式长度的 有效复杂性,作为衡量一个物种复杂性的唯一尺度的想法是有缺陷的。例 如,在考虑那些虽然细微但却很重要的差别,比如那些使人类有别于与其 极相近的大猩猩的特点时,我们必须把一些更复杂的概念引进来。
  相当少的几个遗传变化,可能促使一只类猿动物发展具有很大有效复 杂性的语言、高深的思想及复杂的文化,那么这少数几个变化比遗传物质 中大部分可比的错列,有更重要的意义。单靠用长度来衡量的新的(人类 的)基因组的有效复杂性,并不能令人满意地描述相应的生物(人)的复 杂性,因为发生了细微变化的基因组产生了很大的新型有效复杂性(文化 复杂性)。
  因此我们发现,有必要用“潜在复杂性”(potential com-plexity) 来补充有效复杂性的不足。当图式中一个适度的变化可使复杂适应系统在 某一特定时期内产生大量新的有效复杂性时,这个修改后的图式可以说大 大地增加了关于那个时期的潜在复杂性的值。后面我们将要继续讨论这个 问题,但现在我们还是回到作为一个复杂适应系统,细菌对药物的适应这 一概念上来,并将那幅图景与一个关于这种耐药性的产生的错误理论进行 比较。直接适应今天看来,耐药性如我们一直所讨论的那样,是通过一个 遗传机制而形成的,这似乎是件显而易见的事。但是情况并不总是这样。
40 年代,当青霉素刚开始被使用,而磺胺类药物仍然是对付细菌感染的一
个有力武器时,就已经存在着耐药性的问题了,关于它的形成,一些科学 家提出了各种相差甚远的模型。其中有一位科学家是著名的英国化学家西 里尔·欣谢尔伍德(CyrilHinshelwood,后来被封为西里尔爵士)。我记 得当学生的时候曾看过他的关于这一问题的著作,但即使是那时,我也很 怀疑他对这一特定问题的观点。
欣谢尔伍德所提出的错误的耐药性理论自然是化学理论。他的书中到
处都是描述化学反应情况的方程式。其中总的观点是,药物的存在致使细 菌细胞的化学平衡发生不利于细胞繁殖的变化。但是,细菌长时间地接触 大剂量的药物,将会以直接的化学方式导致细胞新陈代谢的调整,从而限 制药物的不利影响,允许细胞继续生存与进行分裂。该理论断言,在细胞 分裂中,这种简单形式的耐药性通过普通细胞物质的化学成分而机械地传 递给子细胞。这其中的机制是由一组化学反应组成的直接负反馈。(如果 你的汽车离开了路面,于是你转动方向盘将它矫正过来,这就是负反馈的 另一个例子。)
  在欣谢尔伍德的理论中,没有涉及到细菌的基因。也不存在作为耐药 性发展之基础的复杂适应系统:没有信息压缩,没有图式,没有偶然的变 异,也没有选择。事实上,该书中有一章专门批驳了有关自发变异的选择 观点。
我们可以认为欣谢尔伍德的理论涉及 “直接适应”
夸克与美洲豹的上一页 夸克与美洲豹的下一页
成为本站VIP会员VIP会员登录, 若未注册,请点击免费注册VIP 成为本站会员.
版权声明:本站所有电子书均来自互联网。如果您发现有任何侵犯您权益的情况,请立即和我们联系,我们会及时作相关处理。


其它广告
联系我们     广告合作     网站声明     关于我们     推荐小说     全部分类     最近更新     宝宝博客
蓝田玉PDF小说网致力于建设中国最大的PDF格式电子书的收集和下载服务!