第二节信息论中的方法论问题
信息理论经过近 50 年的发展,已由申农的信息论进展到信息科学,随 着理论研究的进展,必然涉及到一系列有关方法论的问题。为了对某些方法 论问题加以探讨,首先要看到其研究对象的扩展,因为,在一定意义上,科 学方法是由一定的科学研究对象所决定的。研究对象的不同,往往要求采用 的方法也不同,这里所说的研究对象的扩展,是指随着科学技术与社会物质 生产的发展,信息的内容越来越多地被纳入人们的研究范围之内。
当今社会、物质生产、科学技术和社会生活有很大发展,规模日益巨大、
日趋复杂,与之相应的通信与各种信息加工系统也必然如此。例如,申农当 时曾研究过双向通信信道,这是由两个反问的经典模型构成的,毕竟比较简 单。而现在则需要对多径信道、多用户网络、多个通信终端、相互干扰信道 等加以研究,这就复杂得多。这类信息加工系统一般都是大系统和复杂系统, 而且不仅限于工程技术系统,还涉及生物系统、生态系统、社会系统、智能 系统等等。在这些系统中,信息的产生、获取、传递、加工、存贮、使用等 等是十分复杂的,因此仅仅研究给定的信源,以及它所发出信息的统计特性 是远远不够的。这就不能不涉及到信息的产生、信息的使用,从而涉及到信 息的语义和信息的效用(价值)问题。正是由于这种客观需要,使得其研究 对象不得不由统计信息向语义信息和有效信息方面伸展。可见,信息科学的 产生是与大系统理论、系统工程的发展、系统科学的形成分不开的。正是在 这个意义上,信息科学是与系统科学一道发展起来的,两者相辅相成。它们 在实质上都以大系统和复杂系统为研究对象,不过研究的角度不同。这意味
着人类认识史和科学史已进入一个新的历史时期,要在新的水平上重新对整 体性的对象加以研究,这类对象一般不仅规模巨大,联系复杂,而且具有不 确定性的特点,因而研究起来特别困难。与此相联,方法论问题也就特别突 出。
现代科学技术与社会生活的发展决定了信息科学研究对象扩展的必要 性,而新的科学方法的出现则使这一扩展具有可能性。我们知道,研究对象、 科学理论和科学方法之间存在着密切的关系。不同的研究对象会出现不同的 理论,而不同的理论则派生出以之为根据的方法,对于开创性的工作来说, 针对新的研究对象,有时还必须提出开创性的新的方法来进行探索。
从方法论上进行分析,申农信息论的建立主要有两点:第一是运用了科 学抽象与类比的方法,将消息、信息、情报等在各个不同科学领域中的具体 概念、加以类比,舍去个性,抽象出共性,从而得到具有一般的、共同的科 学概念——信息,使得对之加以形式化与数量化的处理成为可能;第二,是 针对信息的随机性特点,采用了统计数学的方法。对概率论与随机过程的研 究,在数学上已取得了一定的成果,并被作为一种数学工具与方法引入物理 学。在 40 年代,针对控制系统与通信系统所具有的不确定性这一突出特点, 无论是维纳还是申农等都不约而同地从物理学和数学中移植了这种统计方 法,这在方法论上是一个重大的突破和创新。以至可以这样说,科学抽象与 类比的方法为申农信息论的建立提供了必要的条件,而把不确定性简称为随 机性,并用统计方法加以处理,则可说是具有充分条件的特点。可见维纳等 人重视方法论的研究并不是偶然的。在科学技术上早就使用了科学抽象的方 法,而类比与统计方法,尤其是把统计方法用于这一领域,则是一种具有开 创性质的工作。如果没有统计方法与类比方法,申农信息论的创立简直是难 以想象的。
就信息论的一些基本问题及其之后的进一步研究进展来看,信息理论不
断向前发展的结果是由于引入了一些新的方法。
一、在原有的数学工具基础上,在已有的有关参量之外引入新的参
量
在贝里斯(M.Belis)和高艾斯(S.Guiasu)提出的“量一质”统一量
度信息中,除申农统计模型中的随机事件集及遍于事件集上定义的概率分布 以外,还引入了表示实效性的“有效分布”这一新的重要参量。同样,在相 对信息中,则把信息与产生信息的信源和使用信息的观察者作为三位一体的 一个整体对象,在数学上是作为一个三元组来处理的,由此才导出与观察者 相关的四个变量以及相对于另一观察者的相对信息。这些工作表明,由于现 有研究对象较原有的复杂,才不得不引入相应的新的参量。一般说来,这种 方法往往用于在科学技术的发展中推广某项新成果,但是它也要受到一定条 件的限制,如果涉及到的不仅是信息的量,而且还要考虑信息的质和其它一 些主观因素时,就必须研究和探索出新的方法,否则就难以获得新的进展。 二、采用非概率的方法,突破了在随机性之上建立的统计数学方法
1965 年,查德开创了模糊集概念与模糊数学的方法,这 样就可以用非概 率的、非统计的方法建立一种在性质上全新的信息模型,着重于从质的方面 对信息进行定性分析,这相对于申农的信息论的定量分析来说,是一项重大 的突破,而这一突破也是与整个系统科学不仅要从量上,也要从质上进行分 析是一致的,反映了人类认识史与科学史进入到一个新的时期。必须指出,
模糊信息与模糊熵的概念不能理解为与统计信息、语义信息和有效信息相并 列的另一种信息。应该看到,一切信息一般说来都具有模糊性的特点,因此, 语义信息和有效信息也同样具有模糊的性质,只是在特定条件下才把它们加 以简化,才作为确定的、统计的对象来处理。在一定意义上,我们可以说, 从信息论到信息科学的研究就是从对统计模型的研究进入对模糊模型和统计 模型的研究。
统计方法和模糊集方法是处理熵函数与信息量的两种不同方法。各自分 别建立在随机性与可能性的基础上。可能性的概念是查德于 1978 年在《模糊 集合——可能性理论基础》一文中对模糊性的一种解释。这种可能性测度是 对普通测度特别是概率测度的一种推广,为我们对信息的定性分析提供了一 种新的数学工具与方法,因而在方法论上有所突破,使得在从信息论到信息 科学的进展中,由统计方法进入到统计方法与非统计方法(包括模糊数学方 法)的阶段。同时还必须看到,不确定性的研究是十分复杂的,随机性与模 糊性都不过是不确定性的某些情况,因此可以预言,为了从广度上与深度上 进一步对不确定性加以研究,还必然会出现一系列新的数学工具与方法,这 是因为在现代科学技术中,不确定性的研究在方法论上具有特别突出的意 义。如果说吉布斯等人首先在物理学中考虑随机性这一类特定的不确定性的 话,那么,维纳与申农则把这一方法推广到控制与信息的领域。但是到了 60、
70 年代,这种方法的局限性日益显露。既使现代出现的模糊数学方法,也有
严格的限制,仅仅能处理某些特定的模糊性,而不是任何模糊性。尤其是随 着现代科技的发展,在控制论、信息论、人工智能等新兴学科中陆续出现了 许多新的方法,如控制的状态空间等等。这样,在方法论中就给我们以重要 的启示,对于信息科学所提出的一系列的课题,有必要寻求新的数学工具与 方法。
三、类比方法与方法的移植问题
信息概念的提出和申农信息论的建立是与类比方法分不开的。一方面, 可以在相似性的基础上进行类比,通过科学抽象与概括得到信息的一般概念 和共同规律;另一方面,特别值得注意的是推导出来的信息量公式与热力学 第二定律的熵公式只差一个负量。从两个在当时看来是完全不同的领域中, 所作出的数学推导在形式上几乎一致,这在当时是很不清楚的。之后信息论 与理论物理学领域沟通起来,进一步明确了不定性与不定度的普遍意义。其 后再经过普里高津、哈肯、爱根等人的工作,提出了耗散结构、协同学理论 等新的成果,不仅对普通系统论作出了一定的量的处理,而且把理论物理学 与理论生物学沟通起来,带来了一系列重大的哲学和方法论问题,这在方法 论上不仅反映了整体化的趋势,而且深刻地揭示了统一性与相似性的内在联 系。类比方法与方法的移植,其客观的根据正是在于这种统一性和相似性。 这一科学事实及其进展一方面把信息论、物理学、生物学、普通系统论等学 科联系起来,另一方面也有助于理解本来在物理学领域中运用的统计方法能 够移植于信息论的研究之中。
可见,类比方法和方法的移植对于信息论与信息科学的研究,乃至对于 现代科学技术的发展都起了十分重要的作用。然而在一些情况下,这种方法 也会导致不合适的或者错误的推断,为了对之加以判别,除了有赖于科学技 术本身的发展和实践的检验以外,还要对类比方法与方法的移植的客观依据 进一步加以探讨,识别类比和方法移植的界限与条件,找出判定的法则及规
律,这正是方法论研究需要解决的问题。
第三节信息方法及其应用
科学的综合发展及实践证明,信息论与信息科学已进展为具有一般方法 论意义的学科。当今社会,信息概念已经渗入各个科学领域,信息方法已广 泛用于各门自然科学和社会科学,具有普遍的意义。
1948 年,控制论的创始人维纳在其著作《控制论》一书中,曾用过“信 息的方法”这一术语,他说,“任何组织所以能够保持自身的内在稳定性, 是由于它具有取得、使用、保持和传递信息的方法。”然而维纳对这一术语 的含义并未作明确的解释,他所说的“信息的方法”可能是指具体的取得、 使用、保持和传递信息的技术方法或具体的通讯手段与工具,其目的是为了 保持系统自身内在的稳定性。
1955 年苏联的索波列夫在《控制论的若干基本特征》一文中,明确提出 信息的观点具有一般方法论的意义。他指出,在控制论中信息这个概念有着 非常广泛的意义,信息是一个新的观点,在自然科学中引入信息的概念和信 息量的统一量度的概念,就可以从一个新的统一观点研究自然界中物体相互 作用的各种极不相同的过程,并且可将各种不同的对象当作信息的处理与传 送的系统,而从一个统一的观点进行研究,因此在方法论上具有巨大的意义。
1979 年我国出版的《自然辩证法讲义》明确地介绍了信息方法,并把它
作为一种具有普遍方法论意义的科学研究方法加以阐述。 一、信息方法及其特点 信息方法就是运用信息的观点,把系统看作借助于信息的获取、传递、
加工、处理而实现其有目的运动的一种研究方法。它把对象看成是一个信息
流动系统。通过对信息流程的分析与处理,达到认识对象的发展运动的特点 和规律,以及利用这些特点和规律达到人类的目的。
信息方法不同于传统的经验方法,它有其自身的特点,这是由信息科学
本身的性质所决定的。信息科学是一门多边缘的横断学科,具有综合性的特 点,它研究的是从各种复杂的不同质的系统中抽取出来的统一的信息关系。 信息方法和特点是用信息概念作为分析和处理问题的基础,它完全撇开 对象的具体运动形态,把系统的有目的运动抽象为一个信息变换过程。这种
信息变换的过程如图 3—1 所示。
正是由于信息流的正常流动,特别是反馈信息的存在,才能使系统按预 定目标实现控制。而且两个系统的相互联系必须通过信息通道进行信息交换 才能实现,如图 3—2 所示。
维纳在控制论研究中处处运用这种方法。他在研究人与外界相互作用关 系时指出:人通过感觉器官感知周围世界,在脑和神经系统中调整获得的信 息,经过适当的储存、校正和选择等过程进入效应器官。这些效应器官反作 用于外部世界,同时,也通过像运动感觉器官末梢这类感受器,再作用于中
枢神经系统。运动感觉器官所收到的信息又同已储存的信息结合在一起,影 响将来的动作。他认为“接收信息和使用信息的过程,就是我们适应外部世 界环境偶然性变化的过程。”人类要有效地生活就要有足够的信息。人类正 是凭信息感觉器感知周围的一切变化,根据这种变化,由大脑作出决定调整 自己的行动,改变着自己与自然界斗争的策略。显然,他始终着眼于信息, 把人作用于外界的行为归结为信息和信息的反馈过程。正如他所言的“任何 组织所以能够保持自身的内稳定性,是由于它具有取得、使用、保持和传递 信息的方法”。
信息方法的另一特点是直接从整体出发,用信息联系、信息转化的观 点,综合研究系统的信息过程。信息方法与传统的经验方法不同,它不是割 断系统的内在联系,用孤立、静止、局步的观点去研究事物,也不是在剖析 的基础上进行机械的综合,而是用联系、转化的观点,综合研究系统运动的 信息过程。用这种信息方法对复杂事物进行研究时,不需要对事物的整体结 构进行解剖分析,而是从其信息的流程加以综合考察,就可获得有关系统的 整体性的性能和知识,而用简单的剖析和综合方法则不可能取得。因此,信 息方法是现代科技领域中研究事物的复杂性、系统性、整体性的一种重要方 法。
二、信息方法的作用
(一)信息方法揭示了机器、生物有机体和社会不同物质运动形态 之间的信息联系
在现实存在的许多复杂系统中,如技术系统中的通讯、控制、火箭、导
弹制导、电子计算机等;人或生物系统中的生命现象、各个感官与外界的接 触、神经中枢与各个感官之间的联系、大脑的记忆与指挥;人类社会系统中 的生产过程和经济管理、交通管理等等,看起来它们之间的物质构成的运动 形态都极不相同,用传统方法很难发现它们之间的内在联系,而利用信息方 法进行考察,则可以把它们看成是信息系统,这些系统都存在着信息的接收、 存储、加工处理和传递的过程。正是由于这一信息流动过程,才使系统能维 持正常的有目的运动,从而揭示出它们之间的信息联系。
因此,运用信息方法可以揭示人脑与机器这两种截然不同的物质运动形
态之间的对应关系和共同本质。人脑是由 100~1000 多亿神经细胞组成的, 神经细胞可以处理兴奋和抑制两种状态,而电子计算机则是由许多人造神经 元组成,相应地有接通或断开两种状态;大脑工作特征是利用神经脉冲,而 机器可以利用电脉冲;机器与人脑都具有从外界获得信息、加工处理、传递 信息的能力,它们存在着共同的信息联系。所以,可以把它们看作是一个信 息变换的系统,这就为利用机器模拟并代替部分人脑的功能提供了科学根 据。
(二)信息方法为开展人体科学研究提供了基础
人体科学是把人这个生命有机体作为研究的对象,研究人体的结构和功 能以及如何保护、发挥、发展人体功能的一门学问。过去西方医学界采用了 一些物理、化学、生物学的观点和方法,探索机体的结构和功能及其规律性, 但往往缺乏系统的观点,只重视分析和实验的方法,而没有找到精确的定量 的描述人体结构和功能规律的科学方法。我国中医从总体上看具有系统辩证 的观点,但往往停留在古老的、定性的、经验的阶段。而运用信息方法可以 对性质截然不同,复杂程度极不一致的对象,给出统一的定量的综合指标,
利用这种定量指标可以综合地反映出以往认为是零乱的难以概括的医学实验 资料,并阐明早先未曾揭示的新的规律。
人们已在实践中运用信息方法对生命活动过程以及实现这一过程的机 体作出定量描述,并据此判断生命有机系统状态的稳定程度,以及这些系统 的变化趋势是巩固、激活,还是瓦解、衰落。为此有人提出用信息熵函数来 表示信息源的不确定程度,它在数量上等于信息量,在内容上却与它相反, 用以确定信息源的不确定性和多样性。在生命机体中,这个熵函数可以反映 其组织结构的复杂程度和有序状态,因为生命机体是一个开放系统,它必须 与外界进行物质、能量、信息的交换才能维持机体的生存。当生命机体内部 新陈代谢作用,使机体内部有序结构遭受破坏,这时信息熵就增加,同时它 又不断从外界接收信息,在机体内部合成高度的有序结构,使信息熵降低。 因此,人们可以通过测定这个熵函数确定生命机体的组织结构的复杂程度和 有序状态,可以判断机体是否处于正常稳定的状态。可见信息熵在医学中具 有重要地位。
用信息方法分析人体生命系统各部分之间,人体与外部环境之间相互影 响、相互作用的信息联系,它们之间存在着信息接收、传递、存取、处理、 输出,正是这股信息流才使得机体得到调节、控制,维持正常的生命活动。 我们可以用一种简单的网络关系表示两个系统之间的联系,如图 3—3 所示。
在正常情况下,系统之间信息传输系统具有足够的可靠性,使得发送端 系统 A 发出的信息能准确无误地一一被接收端系统 B 所接收。当通道中噪声 干扰增大,也就是疾病、衰老以及反常的外界因素增大,使机体正常状态或 细节机制受到破坏,造成系统 A 即信息源发出的信息,或在通道内有噪声干 扰情况下传递的信息发生畸变或丢失,使接受端收不到一一对应的准确信 息。甚至接受端系统本身受到外界干扰的破坏,从而会增加疾病。运用信息 方法,不仅能定性地判断疾病是由于正常信息的缺乏(某种内分泌疾病), 异常信息的干扰(传染病),信息代码的错乱(分子病、遗传病),或是信 息通道的阻塞,使机体失去控制所致。还能进一步给出在这些情况下,信息 关系的定量描述,确定系统的抗干扰能力,从而对疾病的轻重程度,机体的 愈合能力作出数量上的分析。信息方法还对分子生物学的创立起了重大的作 用。40 年代美国德尔布鲁克等人组织了噬菌体研究小组,创立了“信息学 派”。他们再一次证明 DNA 是遗传信息的载体,它携带了生命自我复制的全 部信息。1953 年这个学派的成员沃森提出了 DNA 的双螺旋结构的分子模型, 标志着分子生物学的正式诞生。可见,信息方法是研究生命现象不可缺少的
重要方法。
(三)信息方法揭示了某些事物运动的新规律,对过去难以理解的 现象作出科学的说明
随着信息理论研究的进展及其在各个领域的推广,人们可以用信息的观 点对某些现象作出科学的说明。例如,运用信息方法可以对某些生物群体活 动的现象作出科学的解释,掌握活动规律为人类服务。俗话说:“禽有禽言, 兽有兽语”,动物之间特别是群体活动之间存在着某种联系方式,以便使一
个生物个体影响另一些生物体的活动,这就是生物通讯。人们发现动物之间 具有完整的发送和接收信号的通讯系统,它们可以利用气味、声音、不同运 动姿态、色彩以至超声波、电磁场等多种信号传递信息。
许多生物群体具有严密的组织系统和完善的通讯系统。如蜜蜂,当侦察 的蜜蜂发现蜜源后,回来用不同的舞蹈和发出长短、高低不同的声音报告蜜 源的方向、距离以及花蜜的质量,然后工蜂都来嗅闻侦察蜂身上的花香气味, 根据它所提供的信息去采蜜。这就是一个信息的接受、传递过程,离开了信 息方法,则很难发现这一现象。
人们运用信息方法对动物通讯进行研究,记录了许多飞禽、走兽和昆虫 的声音信号,并试图译释各种信息的意思,可以预料,不久的将来,人们将 能用电子仪器指挥一些动物的活动,从而保护有益于人类的动物,诱歼有害 动物或驱逐出一定的区域。
(四)信息方法为实现科学技术、生产、经营管理、社会管理的现 代化提供了思想武器
人的认识世界和改造世界的实践活动存在着三个共同的流动过程,即劳 动力组成的人流,生产资料、劳动资料等组成的物流,以及组织、计划、指 导、协调、控制管理以达到预定目标的信息流,其中任一流通过程发生堵塞、 中断,都将造成实践活动的破坏和停顿。而信息流的畅通是保证人流、物流 畅通的前提条件,信息流调节着人流和物流的数量、方向、速度、目标,它 驾驭人和物进行有目的的、有规则的活动。许多事实说明,信息方法对于实 现科学技术、生产管理、社会管理的现代化具有重大意义。
例如,人们在进行科学技术研究的实践时,必须首先获得有关该项目的
科学研究资料,然后对这些资料进行分析处理,从中得出必要的认识,产生 相应的判断,作出计划,着手进行深入的研究,以期有新的发现与认识。用 信息方法分析,即存在着一个获取信息→存储→加工处理→输出信息的信息 流,并且可以运用现代信息技术使科研活动的信息过程更加畅通,实现科学 研究的实践活动信息化,加速科研工作的进程,从而取得更大的效果。
目前这种信息方法的运用,已随着计算机的发展渗透到人们实践活动的
许多领域,包括社会生活、经营管理等。因为任何企业或事业单位,只要存 在着生产和科技活动,就存在着管理活动,只要有生产、科研和管理,就客 观上存在着信息的流动。因此,应用信息方法进行科研、生产、经营管理, 已成为各项事业现代化进程中极为重要的手段。
(五)信息方法的使用提供了科学决策的基础
决策过程实际上是一个信息的收集、传递、整理加工、变换的过程。决 策正确与否,往往与能否及时、准确地获取足够的信息有着直接的关系。如 果没有及时、准确、足够的信息,不可能发现问题,确定目标,提出正确的 方案,进行科学的决策。因此,必须运用信息方法才能使决策达到科学化水 平。
在科学决策的实践中,信息方法贯穿着决策过程的始终,不仅决策的全 过程中需要运用它,就是决策的每一阶段、每一环节都必须运用它。如确立 目标、制定方案、分析评价,哪一项都不能离开信息的收集、加工、存贮和 传递。原始信息的收集,是事关决策能否正确的基础工作,它要求人们根据 某种决策的需要,收集国内外的情报信息,然后对信息进行加工处理,去伪 存真,去粗取精,使其成为符合决策需要的信息。并及时、准确地提供给决
策者,使信息得到有效的使用,从而作出科学的决策。可见信息方法是科学 决策中不可缺少的方法,信息方法的使用为科学决策奠定了基础。
三、信息方法在信息学中的应用
信息论与信息方法已渗透到各门学科之中,信息学的研究和信息工作的 开展也离不开信息论与信息方法在其实践中的应用。
(一)可以把信息系统看作是一个典型的信息流通系统
信息系统是一个开放系统,一方面,它将大量的社会信息资源搜集、聚 集到系统中,另一方面,它又将经过加工、处理后的有序信息传递、提供给 广大的社会用户。社会用户将使用信息的效果即反馈信息,传给信息系统, 信息系统经过分析,再将系统中的有关信息加工成更加适合用户使用的信 息,提供给用户。这样,从信息方法来看,一个复杂的信息系统就变成了一 个十分简单的信息流通系统。
(二)在用户研究中引入信息流动的概念
信息用户从信息系统得到所需信息后,用户头脑中原有的知识结构在输 入信息的激发下,形成了新的知识结构或组合关系,促进用户提出新的学术 观点,写出有创见性的学术报告或专著,或者作出了某项决策,总之是产生 了新的信息。这些新产生的信息可能又被作为原始信息输入到信息系统中 去,进行加工、整理,然后再由信息系统把这些新信息传递给新用户,促进 新用户再产生更新的信息。
(三)从信息论的观点看,信息过程就是一个信息加工、转换和传
递过程
当信息人员拿到一篇含有 I1 信息的文献 D1 后,他将文献中的主题词与
叙词表进行比较,其目的是进行加工与转换,然后制成带有代替信息 I2 的替
代文献 D2。从 D1 到 D2 就是一种信息加工、转换过程。在检索过程中,信息
检索人员也可通过 D2 找到 D1,用户则从文献 D1 中获得所需信息 I1。
(四)通过信息方法研究信息人员
信息人员作为中介,是连接用户和信息系统的信息资源的桥梁。信息人 员在得到用户提问后,先将用户的问题信息加工、转换成信息系统可以识别 的形式,输入信息系统,得到有关信息,再把这些信息直接或是再加工后提 供给用户,并准备接受用户反馈信息。这样,就可运用信息方法研究信息人 员,信息人员则被看作是一个信息流通过程。
第四章信息计量学方法
第一节信息计量学概述 一、信息计量学的产生和发展
信息计量学是应用数学方法研究、描述信息过程、现象与规律的一门学 科。“信息计量学”的概念是由德国昂·纳克(O.Nacke)于 1929 年在德国 的《文献工作通报》上首次提出的。 1980 年 FID 成立了 FID/IM(信息计量 学委员会),并于 1980 年 3 月在法兰克福市召开了第一次国际信息计量学 讨论会。信息计量学是数学、统计学与信息学广泛结合而形成的一个新的分 支学科。它的主要内容是应用数学方法分析和处理信息传递的种种矛盾,从 定量的角度分析和研究信息的动态特性,并找出其中的内在规律。
FID/IM 为了实现创立之初拟定计划,具体开展了几项重要活动:① 1982 年在前捷克斯洛伐克召开了“信息计量学”教学计划会议;②1985 年进一步 评估、论证了“信息计量学”计划;③1985 年 7 月开始在印度出版《信息计 量学通讯》(Informetrics Newsletter)。这些活动对于推动信息计量学的 发展,使信息计量学逐渐得到国际信息学界的承认,产生了积极的影响。
1984 年,英国著名信息学家布鲁克斯发表了两篇论述信息计量学的论
文,讨论了信息计量学的一些基本理论问题。1987 年,布鲁克斯在比利时召 开的“文献计量学和信息检索的理论问题国际会议”上建议,将术语 Informetrics 包括在拟于 1989 年在加拿大召开的会议名称之内。这个建议 得到了当时参加会议的信息学者的普遍支持和赞同。接着,1991 年在印度邦 加罗尔举行的第三次会议的名称就是“信息计量学国际会议”。由于这三次 国际会议之后出版的论文集上都有 In-formetrics 标题,因此,国外一些著 名的信息学专家把 1987 年看成是 Informetrics 被国际信息学界正式承认的 一年。
在 1987 ~ 1992 年期间,许多信息学专家又发表了许多关于
Informetrics 的文章。Informetrics 在北美和西欧非常流行,以致 1987 年 以后的一些西方私人信息服务公司多改名为时髦的“信息计量学公司”
(Informetrica Limited)。
在中国,对“信息计量学”术语大多持比较保守的态度,以“信息计量 学”作为论文或辞典条目只有 5~6 次,而作为教材或专著的书名至今尚无。 我国信息学界目前仍停留在文献计量学的研究时期,与国外信息学界正在实 现的由信息学中传统的文献计量学研究向信息计量学研究的根本性转变,形 成强烈的反差。
二、信息计量学与文献计量学、科学计量学的联系
信息计量学的产生和发展过程表明,它是在传统的文献计量学及科学计 量学的基础上演变过来的。因此,信息计量学与文献计量学、科学计量学是
3 门密切相关的学科,它们之间有重合、搭界的相同之处。 首先,在研究对象方面,信息计量学、文献计量学、科学计量学这 3 门
计量学科都要以文献(主要是科学文献,下同)作为计量对象,即文献是这
3 门学科的重合、搭界之处。正如英国信息学家 C.汉森所指出的那样,“科 学、信息对许多人来说是文献的同义语。在信息计量学产生之前,信息学家 一直以文献作为自己的计量对象;而科学计量学从它产生的那一刻起,就从
统计书目学及文献计量学那里吸收了不少以文献为计量对象的方法、定律、 模型等成果。正因为如此,本世纪 20~40 年代对文献进行计量研究的科学家 洛特卡、布拉德福和齐普夫,成了这 3 门学科的先驱人物。
其次,由于这 3 门计量学科都要以文献作为自己的研究对象,从而决定 了它们在研究方法、研究内容方面也有重合、搭界之处。在研究方法上这 3 门计量学科非常类似,有时甚至完全相同,主要表现在以下几个方面:①研 究方法的数学基础都有统计学(包括分统计、抽样统计、多元统计)、集合 论和数理统计、运筹学,包括线性规划、排队论等,代数、微积分学、向量 分析、矩阵论、图论、聚类分析、模拟方法、模糊数学等;②具体的研究方 法都有引文分析(包括引文标引与引文者动机、引文网络图与引文矩阵、引 文耦合和同被引分析、老化分析)、文献统计分析(包括集中与分散分析、 分布规律解释)和数学模型法;③计量模型都有词(字)频率模型(齐夫定 律)、期刊等级模型(布拉德福定律)、倒平方模型(洛特卡定律)、老化 模型、半衰期模型、拟合逼近方法。
在研究内容上,这 3 门计量学科的相同之处表现在以下几个方面:①语 言、词和词组的频率统计,包括自然语言主题与索引、印刷文献与电子文献;
②作者特征——根据论文数量或其它方法(如合著者次数)决定的生产率测 度;③出版源特征,如某一学科的论文在全部学术杂志上的最显著的分布;
④引文分析,包括作者、论文、团体、杂志、国家的分布,效用评价,学科
间的同被引测度;⑤文献失效或老化(由引文或使用进行测度)。 三、信息计量学与文献计量学、科学计量学的区别 虽然信息计量学与文献计量学、科学计量学有上述重合、搭界的相同之
处。但是,我们仍然可以根据这 3 门计量学学科在研究对象、研究目的等方
面的特定属性或侧重点,将其—一区别开来。 首先,信息计量学的研究对象大于文献计量学、科学计量学的研究对
象。从根本上说,信息计量学的对象包括各种类型的信息(如数据、事件、
事实、文本、文献等),其中既有正式交流的数据、文本、文献等,也有非 正式交流的消息、事实、事件等。而文献计量学的对象则基本上是正式交流 的文献,其研究对象范围远远小于信息计量学的研究对象范围。至于科学计 量学的对象则包括正式交流文献中的科学文献(从这个角度看它比文献计量 学的对象小)和非正式交流的科学事实、科学事件(从这个角度看它比文献 计量学的对象大)。这 3 门计量学科在研究对象上的联系与区别,我们可用
图 4-1 或图 4-2 表示。
其次,由于这 3 门计量学科的研究对象并不完全相同,决定了它们在研 究方法、研究内容方面也有不尽相同之处。信息计量学的方法既包括确定性 数学(如统计学),也包括非确定性数学(如概率论),而文献计量学和科 学计量学的研究方法主要是确定性数学;信息计量学的定量处理方法既包括 定量变量,也包括定性变量(我国学者郭俊义将其称为“广义量化”),而 文献计量学和科学计量学的定量处理方法“特色”则是定量变量(“狭义量 化”)。信息计量学的研究内容包括信息的定义与测度(它原来部分地被包 括在“信息论”中,J.T——苏特克莱弗认为它应是信息计量学的重要研究内 容)及信息检索性能测度量的类型与特征等,前者是文献计量学和科学计量 学不能包括的,后者是科学计量学不能包括的。文献计量学的研究内容包括 图书流通及内部使用、藏书布局与藏书建设等,这是信息计量学和科学计量
学所不能包括的;科学计量学的研究内容包括科学活动的评价指标、科技管 理决策与科技政策,这些是信息计量学和文献计量学所不能包括的。
最后,更重要的是这 3 门计量学科的研究目的不同。信息计量学的研究 目的是揭示信息本身在数量方面的规律性,它从属信息学的研究目的需要; 科学计量学的研究目的是揭示科学活动在数量方面的规律性,它从属于科学 学的研究目的需要。关于这 3 门计量学学科的研究目的从属于 3 门科学的研 究目的需要,最先是由前苏联学者提出的,后来布鲁克斯又作了进一步地论 述。
此外应当看到,这 3 门计量学科之间的研究目的的不同,在一定程度上 也决定了它们在研究方法、研究内容上有所不同;而这 3 门计量学科之间研 究对象的不同,在一定程度上决定了它们在研究方法、研究内容上有所不同, 这是来自两个方向的同一作用。
四、信息计量学与文献计量学、科学计量学的学科关系 清楚了信息计量学和文献计量学、科学计量学在上述几个方面——尤其
是在研究对象和研究目的方面的联系与区别,我们可以进一步地对这 3 门计 量学科之间的关系进行划分。正如匈牙利著名科学家 T.布劳温曾指出的那 样,虽然“文献计量学和科学计量学的研究方法非常类似,有时甚至完全相 同,但我们还是可以根据其研究对象和研究目的来区分它们。”
我们知道,学科之间是否存在相互关系,首先是根据它们的研究对象来
确定。根据这 3 门计量学在研究对象上的联系与区别(见图 4—1、图 4—2), 我们可以直接得到它们之间的联系与区别,如图 4—3。
也就是说,从这 3 门计量学科的研究对象来看,它们之间的关系是信息
计量学包括文献计量学和科学计量学,文献计量学和科学计量学是交叉关 系。图 4—3 的阴影部分就是它们在研究对象、研究方法、研究内容方面的重 合、搭界之处。
学科间的关系划分,除了考虑它们各自的研究对象这个根本性因素外,
还必须进一步考虑它们各自的研究目的。科学中常常出现这样的情况,同一 研究对象,由于研究目的不同,就会形成完全有别的学科。例如,物理化学 和化学物理,它们有共同的研究对象,但由于它们的研究目的不同,前者属 于化学分支,后者则属于物理学分支。因此,如果同一研究对象的学科,有 完全不同的研究目的,我们就应该进一步对它们的学科关系进行划分。考虑
这 3 门计量学科的研究目的,它们之间的关系就会发生位移,从而导致信息
计量学不能完全包括文献计量学和科学计量学的新型学科关系。也就是说, 由于信息计量学从属于信息学的研究目的需要,即作为信息学的一个分支, 信息计量学只能部分地包括文献计量学和科学计量学;由于文献计量学、科 学计量学分别从属于图书馆学、科学学的研究目的需要,即作为图书馆学、 科学学的一个分支,文献计量学和科学计量学也只能部分地从属于信息计量 学。
第二节信息计量学方法 一、信息计量学方法的特点 信息计量学作为信息学的一个分支,具有其内部必要的扩张力——科学
逻辑结构的扩张力。同时,由于来自社会、科学技术、生产的需要,其外部 压力与动力是巨大的。信息计量学本身也力求寻找并实现其具体应用,信息 研究定量化的进展,又势必要借助信息计量学的方法,结果两者相得益彰。
信息计量学用作研究方法时,有种种特点及优势。
(一)突出了信息研究的信息特色 信息研究今天已成为我国信息机构的一种重要服务方式。在世界上,只
有我国和意大利是由信息研究所搞信息研究的。如果说 30 年前信息研究是信 息部门开创的,并独家实践了 20 年的话,那么今天许多相关的软科学研究部 门也竞相开展了类似的工作。同时,信息研究所采用的方法,也具有强烈的 广普性。几乎所有的社会科学与大部分自然科学的研究方法,均可为信息研 究所用,这早已在实践中得到证实。随之而来的便是信息研究的“信息学” 色彩的逐渐淡化,这已为许多信息研究工作者所觉察。例如,趋势外推法是 我国信息界和其它科学领域普遍采用的,如果我们不讲究信息研究的信息学 个性,久之信息研究恐就难以维继了。如果信息学界以往没有刻意追求信息 研究的信息学特征的话,那么,今天就十分有必要予以重视了。致力于信息 学研究的特殊方法的开发,是突出其信息学本色的必由之路。如是,可能要 首推信息计量学方法。
人人皆知,文献是信息计量学的根本,以信息计量学为研究方法,务必 以文献或其某些规律为依据。这些既是信息学机构收藏与管理的对象,也是 信息学研究人员熟悉并能灵活运用的知识。信息学计量学方法的采用,真正 体现着信息研究人员在施其所长。其它领域里的研究人员(如社会学)也可 能采取这种方法,但那是他们的移植运用,其成果也应属于信息研究范畴。 信息计量学充实了信息研究的信息学特征,突出了信息研究的信息学本色。 例如, 1980 年初,日本化学工业社组织社会工业与科技界人士,展
望 80 年代化学工业的前景。日本科学技术信息中心信息部的小森隆,就与众
不同地采用信息计量学方法,完成了这一调研任务。
他以 JOIS—S 理工数据库中的 622405 篇文献为来源资料,计数这些文 献中出现的塑料、橡胶、纤维等关键词的频次。其中主要合成纤维关键词的 频次如表 4—1 所示。
表 4—1 有关纤维的词频
关键词
频次
关键词
频次
丙烯纤维 聚酰胺纤维 聚脂纤维 聚烯烃纤维
315
705
184
189
人造纤维 醋酸纤维 三酣酸纤维
333
65
25
据此,小森隆断言 80 年代聚酯纤维仍将有压倒一切的优势,而醋酸纤
维则越来越受冷落。这一信息计量学方法的研究结论,是否与实际情况吻合 呢?表 4—2 是有关世界合成纤维生产量的实际统计表。通过比较可以证实, 出现于文献中的各种纤维的词频,是反映实际情况的,聚酯纤维产量比重之 大与其词频之多是对应的。由此可见,从信息计量学方法取得的研究结果, 完全可以正确地反映客观趋势,堪与其它研究方法相媲美,可誉为信息学研 究人员所特有的一种研究方法。
表 4 — 2 世界合成纤维生产编译数据
年度
聚酰胺
聚脂
丙烯纤维
其它
产量
%
产量
%
产量
%
产量
%
1971
1972
1973
1974
1975
1976
1977
1978
3450
3790
4054
3845
3522
3904
3971
4213
37
37
35
34
33
32
31
31
3450
3996
4749
4863
4803
5490
5893
6251
37
39
41
43
45
45
46
46
1860
1946
2317
2149
2028
2440
2434
2713
20
19
20
19
19
20
19
20
560
512
463
452
320
366
512
408
6
5
4
4
3
3
4
3
(二)能其它方法之所不能
信息研究属于科学实验范畴,但它与一般科学实验是有所不同的。科学 实验是探索未知的活动,如果用 K.波普的哲学术语来说,那是开发“世界
1”的。信息研究是总结已知的知识,是分析与综合“世界 3”的。科学实验 有可能碍于客观条件,如实验装置与设备,而难以进行,那么信息研究则限 制甚少。凡是有知识之处,均可见信息研究之功。如果不能进行信息研究时, 可以断言是由于研究方法的困囿,缺乏有效的方法对已知的知识加以总结与 剖析,信息计量学所展现的方法论性能,就令人大有另辟蹊径之感,它能迂 回地解决问题。
在信息计量学中,有一个越来越为人们所嘱目的分析技术——引文分
析。引文分析可以由表及里地探索事物(只要有文献表现的话)的结构和规 律。正像人们可以利用分泌物来探测有机体内脏器官的健康情况一样。引文 分析就是利用著文所引用的文献,对著文所体现的内容进行分析与综合。有 时著文所反映的内容,对研究任务来说不是荫蔽的,就是难得要领的(仅指 其对特定信息研究而言),当其它研究方法不能奏效时,引文分析有可能建 立奇功。从引文分析来看,引文是著文某些特征的线索。一篇著文的引文可 能无关宏旨,但一个学科一定样本容量的引文,却可以挖掘出许多深层信息, 因此,引文分析作为信息研究的一种方法,有其它方法的绝对不可替代性, 有其它方法所不能之功效。
例如,考察并比较世界各国与地区的基础研究水平,如有可能的话最好
还要排出顺序,显然这是一个比较繁琐的研究课题。若选择其它方法难以深 入,要进行定量研究就更困难了。匈牙利信息科学和科学计量学研究所
(Information Sci-ence and Scientometric Research Unit)的 T.布劳 温(Braun)等人,就用信息计量学中文献计量学之引文分析法,使这个似乎 无从入手的课题,迎刃而解了。
他们选择了《SCI》为资料来源,统计了 1978~1980 年三年间 107 个国 家和地区的有关几个指标。它们是:①所有科技领域里的出版物总量;②出 版物年度增长百分比;③每件出版物实际平均被引率(内含 1979~1980 年引
用 1978 年,1980~1981 年引用 1979 年,1980~1981 年引用 1980 年);④ 每一件出版物的期望被引率,这一指标是根据受引期刊平均被引率而计算 的;⑤相对被引率,布劳温等人规定,由直接被引文量计算出来的结果为实 际被引率,而相对被引率则是
实际被引率与期望被引率之比。他以这 5 个指标,考察了全世界 107 个 国家和地区的基础研究水平——如表 4—3 所示——我们仅摘录了 18 个国家 的有关数据。
应当说这 5 个指标基本上勾勒了各国学术水平状况,其中既有“量”的 指标(如出版物总量),也有“质”的指标(如各种被引率)。当然这 5 个 指标能否完整准确地反映各国和地区的学术水平,那是可以讨论的。但除引 文分析外,其它方法均不见得能取得如此完善的结果。
表 4—3 一些国家的基础研究水平及其对比
续表
国家或 地区
出版物 总量
出版物 年增长率
实际平均 被引率
期望 被引率
相对 被引率
篇
序位
%
序位
次篇
序位
次篇
序位
次篇
序位
西班牙
6510
21
17.54
16
1.53
26
2.18
28
0.70
41
中国
2457
32
62.13
l
0.43
95
0.91
103
0.47
83
罗马尼亚
2015
36
-5.74
89
0.84
63
1.21
89
0.69
44
墨西哥
1736
37
9.27
37
1.93
19
2.56
12
0.76
36
伊朗
720
43
-30.04
104
0.76
75
1.71
54
0.45
85
伊拉克
517
48
3.77
61
0.67
79
1.56
63
0.43
88
尼泊尔
26
90
49.90
5
0.81
68
1.02
101
0.77
21
布罗温等人以《SCI》摘储为标准,可比性是很充分的,但是《SCI)本身既
有学科的偏向(生命科学比重大),也有语种偏向(英文文献比重大)。当 然这是布罗温等人无法克服的。这里我们意在突出引文分析的方法论优势。
(三)计量元素好辨别、易收集
实施信息计量学方法时,所选用的计量元素大都显示了文献的某些特 征,一望而知,一索即得,勿需更多的变换与分解作业。信息研究所采用的 任何一种方法,开头的步骤都是:“拟定目标,收集资料”。这对信息计量 学方法而言,有许多供应数据的资料库,所需数据明晰可鉴,极易获得,例 如《SCI》、《SSCI》等。即便手边没有这类检索工具,而是亲自动手统计的, 所用的计量元素也是好查找的。一般说来,文献的某种特征以及与文献相关 的某些量值,均可作为“计量元素”,归纳起来如表 4—4 所示。
到目前为止,信息计量学方法约有 20 余个计量元素,可测项多达 50~
60 个。致使采用信息计量学为研究方法时,有许多可借鉴的计量入口。表 4
—4 中所列的各项都出自文献或与文献的相关量,都有显著的标志,也是固 定的量值,好查、易收集,这是一个不容忽视的便利条件。
表 4—4 文献计量学方法的计量元素 续表
元素类别
元素名称
计量的主要内容
检索工具
13.类目
数量
14.文献条目
数量、类型等
15.索引词
索引数量、类型等
其它
16.分类号
数量、被标引的频次、标记制度等
17.读者
数量、构成、阅读方式、借阅周期与习惯等
18.复印件
数量、语种、年度、学科等
19.文献载体
类型、流通范围
20.机构
性质、数量、服务方式及对象等
例如,激光技术是一个发展迅速的技术领域,激光应用也日趋普遍。那
么 1988 年前后激光应用的重点是什么呢?完成这类课题的普通调研方法不 可谓没有。但是,科技文献是科技活动的真实记录,信息计量学方法是可以 充当此任的。文献以文摘杂志为背景,以文献条目为计量元素,考虑 1977~
1983 年间文摘摘储不同类目文摘条目数量,以此来判断激光应用的重点,如
表 4—5 所示。
从表 4—5 可知:1977~1980 年间激光应用的重点是光通讯。但是激光 干涉计量、激光测量、激光聚变、化学应用与激光热处理等应用,也日益为 人们所重视。自 1981 年起便取代了光通讯应用的首席地位。
这个实例有力地说明,采用信息计量学作为信息研究方法真可谓简单易
行。本例所需要的不同类目下的文摘条目是很容易获得的,这些条目形态分 明,排列醒目,便于开展统计作业。
(四)研究者毋须有深广的专业背景知识
科技信息研究是专业性很强的分析与综合工作,它要求从事信息研究工 作的人员有深广的专业背景知识。经验证明,进行某一专题技术信息研究时, 如果研究人员缺乏该专业知识,对该专题技术若明若暗,那是很难有效进行 信息研究的。有许多研究方法恰恰是因为研究人员专业知识不足而不能采 用。另外,专职信息人员欲研究的课题是多方面的,所熟悉的专业背景知识 却是有限的。信息研究人员专业背景知识的局限性,可因采用信息计量学方 法而得以缓和补救。这是因为应用信息计量学方法不要求具备深广的专业背 景知识。
信息计量学方法不涉及过多过细的文献内容,表 4—4 所列的计量元素,
即使没有专深的背景知识也是可以认识和掌握的。在一般情况下,只要具备 标引专业文献(指主题标引)的知识,就能较好地运用信息计量学方法。在 进行某些新技术、高技术的信息研究时,由于缺乏足够的专业知识,难以采 用其它研究方法,信息计量学是一种很好的替代措施。正因为如此,信息计 量学方法常常成为信息研究人员乐于采用的方法。
表 4—5 1977~1983 年文摘条目分类(数字系所占%)
年度 顺序
1977
1978
1979
1980
1981
1982
1983
2
通讯:光 纤与波导
8.40
通讯:光 纤与波导
10.16
通讯:光 纤与波导
9.49
通讯:光 纤与波导
9.69
测量技术
6.90
制造业: 焊接热处 理
干涉计量
5.99
3
测量技术
6.41
通讯:集 成光学
4.70
测量技术
4.80
通讯:集 成光学
5.21
通讯:光 纤与波导
6.11
激光聚变
5.64
4
分离同位 素 5.25
激光测量 技术 4.60
制造业焊 接热处理
制造业焊 接热处理
通讯:元 器件设计
5.38
通讯:元 器件设计
5.89
化学应用
5.05
5
通讯:集 成光学
4.15
激光聚变
4.49
化学应用
4.39
测量技术
4.53
激光聚变
5.05
化学应用
4.67
通讯:光 纤与波导
4.94
6
全息:记 录系统
3.92
大气传输
3.70
多普勒测 速仪 3.84
激光聚变
4.43
干涉计量
4.83
干涉计量
4.67
通讯:元 器件设计
4.76
例如,欲考察英国海流学(Ocean Current) 科学研究采用的观察
技术及其变化情况,由于没有更多的海流学科学知识,很难采用其他方法。 若采用信息计量学方法就可少受海流学知识缺乏的牵制,能迅速地开展工 作。
表 4—6 40 种期刊不同观测技术的文章数量
年度 观测技术
1973/1974
1975/1976
1977/1978
1979/1980
1981/1982
1973 ~ 1982 合计
船测 卫星
(漂移浮标)
51
6
1
64
5
1
93
14
6
100
27
10
111
16
4
419
68
22
年度 观测技术
1973/197
4
1975/1976
1977/1978
1979/1980
1981/1982
1973 ~ 1982 合计
( IR 图像)
4
4
7
15
10
40
(测高法)
-
-
-
2
2
4
(摄影法)
1
-
1
-
-
2
船测
7
4
6
4
5
26
陆地、栈桥、冰
-
4
4
1
1
10
观察技术合计
54
71
102
109
114
450
实验性论文
1
6
7
9
3
261
理论文章
54
81
88
136
156
515
总计
109
158
197
254
273
991
首先,请英、法、美、德国等国家一流海流学学者,确定 40 种有关该学科的
重点科技期刊。进而从中选出 991 篇海流学方面的文章,区分它们所采用的 观测技术,按年度汇总如表 4—6 所示。同时还从 1976 年开始,对当年和回
溯 3 年发表于上述 40 种期刊上的文章,进行引文分析,即利用《SCI》统计
不同观测技术文章被引频次及平均每篇文章被引次数(即表 4—7 中括号内的 数字)。
表 4-7 不同观测技术文章被引用数量
年度 观测技术
1976
1978
1980
1982
合计
船测 卫星 船测
陆地、栈桥 冰
观察合计 实验性文章 理论文章 总计
196 (1.70)
13
( 1.18 )
14
( 1.27 )
- (-)
199 (1.59)
5 (0.71)
202 (1.50)
406 (1.52)
348 (2.22)
59
( 3.11 )
23
( 2.30 )
13 (1.63)
381 (2.20)
18 (1.38)
331 (1.96)
730 (2.06)
291 (1.51)
67
( 1.63 )
15
( 1.50 )
15
( 3.00 )
323 (1.53)
21 (1.31)
280 (1.25)
624 (1.38)
229 (1.09)
55
( 1.28 )
12
( 1.33 )
3
( 1.50 )
255 (1.14)
20 (1.67)
315 (1.08)
590 (1.12)
1084 (1.57)
194
( 1.70 )
64
( 1.60 )
31
( 1.63 )
1158 (1.58)
64 (1.36)
1128 (1.38)
2350 (1.47)
从表 4—6 可以发现,卫星观测文章日益增多,从 1973 年~1974 年的 6
篇,增加到 1979~1980 年的 10 篇。然而在 1981~1982 年间发表的论文中,
114 篇观测性文章中有 1ll 篇使用了船测技术。尽管卫星遥感技术在海流观 测中有增加的趋势,但也仅有 17%左右(由文章体现出来的),船测目前仍 是主要的一种常用观测技术。
表 4—7 就更强化了以上的判断。1982 年被引的 255 篇观测文章,有 229 篇船测技术。平均的被引率又进一步证明,1978 年卫星遥感技术有相当大的 影响效果,每篇文章平均被引 3 次以上,但 1982 年又有所下降。可见目前遥 感技术虽然有所应用,但仍需大量船测技术进行补充和辅证。
这样一个常人甚感生疏的课题,由于采用了信息计量学方法,就可以发 现英国海流学观测技术的变化与现状。
二、信息计量学方法的基础
我们在实施信息计量过程中,先后确立了几个信息定量规律。这些规律 构成了信息计量学的基础,信息计量学方法主要是依照这些定律实现量化 的。
(一)信息增长定律
信息增长定律是描述信息数量随时间而有规律地增长。令 F 表示信息的 数量,t 表示时间,则信息增长定律的数学表达形式为:
F=f(t)
式中 f(t)的总趋势满足 t 增大时, F 也相应增大。描述信息增长规 律的主要函数是:线性函数、指数函数、逻辑曲线函数等。其中以 D.J.普赖 斯建立的指数增长定律最为著名:
F(t)=aebt(1)
式中, F(t)为某年(t)的信息累积数量; t 为时间(以年为单位);
b 为信息持续增长率,即每一年的信息增长率。 关于指数增长定律,另一个值得注意的量就是翻倍时间,即在一个固定
的时间内,信息量增加了一倍,即
d=ln2/b(2) 例如:b=0.1 时,信息量翻倍时间为 d=0.693/0.1=
指数增长规律只有在没有限制或干扰的情况下才会出现,如果受到智力
的、物质的和经济的的限制,普赖斯指出信息增长更趋于逻辑曲线。俄罗斯 学者弗勒杜茨和纳利莫夫在大量研究的基础上,提出了著名的逻辑曲线方程 式:
F(t)=
K
1? ae ? bt
式中, F(t)表示 t 年的信息累积量; K 为 F(t)增长的最大值;a
与 b 为参数。 信息是科学技术成果主要表现形式之一,所以信息的增长可以直接或间
接地反映出科学技术以及相关事物的现状与前景。
(二)信息老化规律
对于科技信息来说,不计其物理形态上的破损、载体的变质,就它们所 记载和表现的科学内容而言,也会令人有逐渐过时之感。但要说清楚信息老 化的确切含义还是不容易的。我们大体上可以说,随着时间的流逝,文献所 载的信息逐渐过时,以致于文献本身不再被使用。对于信息老化的量度主要
有 3 个指标。
1.半衰期:所谓半衰期是一个时间概念,意指在该时间内发表了某一学
科或领域正在被利用的全部信息的一半,或者目前所利用的信息的一半是在 该时间内发表的。例如,以“信息技术”信息而言,它们的引文一半是 1988 年以后发表的,那么就可以说它的半衰期为 4 年(以 1992 年计)。C.A.西格 摩(Segmour)又称半衰期,为信息的“中值引文年龄”。
2.普赖斯指数:这是普赖斯提出的一个衡量信息老化程度的指标。规定 年限不超过 5 年的信息引文数量同引文总量之比作为指数。依据这一指数, 可将所有被利用的信息分成两大类:档案性信息、现时应用的信息。年龄超
过 5 年仍被引证的信息则属于现时应用的信息。
3.期刊有益性系数:这是 B. C.布鲁克斯 1970 年提出的一个衡量期刊 信息老化的指标,意指可望在某种程度上被科学家引用的文章数。
有关信息老化的数学模型主要有:
(1)负指数模型:1970 年布鲁克斯提出:在一个确切时间内,被引用 的论文与它的发表年度呈负指数函数关系。即
C(t)=Ke-at(4)
式中, C(t)是引用的信息之中 t 年以前所发表的论文数量; K 为常数,随不同学科而异; a 表示老化率(a ? 1)。
(2)巴尔顿—凯普勒方程:美国某治金图书馆工作人员 R.E.巴尔顿
(Bwtor)和物理学家 R.W.凯普勒(Kebler)联合提出了描述信息老化的方 程式:
Y=1-( a e x
b
? e2x
) (5)
a+b=1
Y 为一定时期内,总的引文比率(Y<1);x 为时间(以 10 年计)。 显然,令式(5)中 Y=1/2,这时的 X 即为半衰期 XH,
1 a b
? 1 ? ( ? 2 )
2 e x e x
(ex)2-2a(ex)-2b=0
e XH1 ? a ?
e XH 2 ? a ?
a 2 ? 2
a 2 ? 2
以及
X H1 ? ln( a ?
X H2 ? ln(a ?
2
a 2 ? 2 b)
a 2 ? 2 b)
我们取出 X H1 ? ln( a ?
a ? 2 b) ,则同不同的 a、b 值,可以得到不同的半衰
期 XH 值,由于 b=1-a,所以式(6)可写成
2
X H1 ? ln( a ?
a ? 2 ? 2a )
(3)莫蒂列夫修正式:俄罗斯信息学家莫蒂列夫用大量数据进行 X2 检 验,并对式( 5)进行了如下修正:
Y ? 1 ? (
a
ex ?0.1
b
? e2 x? 0. 2 )
莫蒂列夫的修正式提高了巴尔顿一凯普勒方程式的精度。
(4)传播老化模型:1979 年 A.阿威里麦斯仿物理学中的传播理论,推 测了科学成就的自然衰减,他提出如下信息老化率:
1
Vt ? [2(?at) 2 ]
这些数学模型都能在一定程度上计算出信息老化趋势,但是这些模型需 要有大量的前提条件,所以它们的应用并非是任意的。
(三)论文作者分布规律
关于科技信息作者分布规律的描述方式是很多的。它们的主要目的是考 察科技人员的著述能力与信息量之间的关系。其中最著名的是洛特卡定律。
1926 年末,美国一家人寿保险公司的统计员 A.J.洛特卡,以《化学文 摘》和《物理学史一览表》为来源资料,考察了 1907~1916 年 10 年间的累 积索引。他得出撰写 X 篇论文的作者相对频率 y(x)的公式:
y(x)= C
x n
当年洛特卡说:“这两个例子表明的指数近似等于 2.0”。于是,式(10)
在 12 年之后,被 G.K.齐普夫称为“倒平方定律”。但是后人的继续研究表 明,指数 2 仅是一个持例。1974 年,J.维拉奇(Vilady)发现,对不同的学 科而言,n 可以从 1.2 浮动到 3.5 以上。
?
式(10)中的 C=1/(? 1 / x n ) ,而?
1
n ? S( n)
x?1 x
亦即 C=1/S(n)。S(n)被认为是黎曼? 函数,当 n>l 时收敛,当 n≤1
时发散。若 n 为偶数时,C=6/ ? 2 =0.6079。然而当 n 为任意数时,C 值不能按 上式计算。有人提出近似计算公式为:
其中
? p?1
?
C=1/? 1 / X n
x?1
? 1 / X n ? [?1 / X n ? 1(n ? 1) * P ( n?1) ? 1 / 2P n ? n / 24 * (P ? 1) n ?1
x?1
x?1
普赖斯对文献作者分布规律有过许多论断(其实只能算假设),其中最 著名的是“平方根定律”——“撰写全部论文半数的高产作家的数量,等于 全体论文作者的平方根”。
I
? n( x) ? N
m? 1
式中, n(x)为写 X 篇著作的科技论文作者人数, I=,即在一次取样 中科技人员撰写最多的论文数量,N 为撰写论文作者的总人数。m 可按下列条 件确定:
m
? X
2
(四)科技信息离散定律
1
( x) ? ? X
n m ?1 n
(x)
科学论文在科技期刊中的分布是不均匀的,少数期刊中“拥挤”着大量 的论文,大量的期刊中“稀释”着少量的论文。1934 年英国信息学家 S.C. 布拉德福(Bradford)明确地指出这种倾向。他写道:“对某一主题而言, 将科学期刊按刊登相关论文减少的顺序排列时,可以划分对该主题最有贡献
的核心区,以及含有与该区域论文数量相同的几个区域。每个区域里的期刊 数量成 1:n:n2 ?”,这就是为后人所称道的布拉德福定律。
半个多世纪以来,布拉德福定律沿着所谓区域法和图像法发展。在区域 法中有代表性的是 F.F.莱姆库勒(Leimkuh-ler)所建立的布拉德福分布
ln(1 ? ?x)
F(x)=
ln(1 ? ?)
β是分布函数的参数,X 表示在一个特定学科中载文量最高期刊的数量 与相关于该学科的总刊量之比。0<X<1;F(X)为这一部分期刊的载文量与 该期刊组合总产量之比(即该部分期刊中全部相关论文与总期刊集合所拥有 的论文之比)。
P(x) ? F(x) ? (1 ? ?
此式为布拉德福分布的概率密度函数。
?
) ln(1 ? ?)
图像法的代表中,质量最好的是 1977 年前苏联信息学家斯马里柯夫建 立的统一方程式:
R(n) ? K ln( q1n ? q
e ?n
2
式中, R(n)为累积载文量, K、q1 、q2、β均为常数。
信息离散定律的模型和经验公式很多,有的能实用,有的仅有描述与解 释作用,能应用的质量与置信水平也不完全一样。
(五)词频分布规律
科技信息是由符号有规律地排列而形成的。符号主要是文字,现代书面 语言——文字主要是表意语言。由于表意语言的运用,人们就可以用自然语 言把思想内容固定在可以携带的载体上,而不再单纯地依赖口叙和记忆力。 语言本身是有其规律的,就其被人类运用而言也是这样。齐普夫在 1935 年 经过大量数据的验证得出:如果在一个足够长的文集中,f 表示一个词汇出 现的频率,r 是按 f 大小而姚列的顺序。那么,它们之积是一个常数:
f· r= C(17)
严格地说,式(17)仅仅对中频、中序的词才是有效的。50 年代初期, 法国数学家 B.芒代尔布罗(Mandelbort)开始用信息论的方法研究词序分布 规律,经过严格地数字推导,从理论上提出了如下公式:
(r+ m)·f= C(18)
式中,r 是词的等级;f 是频次;m、g 和 C 是取决于文 集的亥数。式(18)对于表现低序高频词更为适宜。但是式(18)同样
也没有解决高序低频词的问题。1967 年 A.D.布思(Booth)提出了新的数学 解析式,指出出现不同频次的词数,与文集所用的词长度和常数 C 无关,仅 与频次不同的词汇 In 的频次 n 有关:
ln/ I ?
2
n(n ? 1)
显然,式( 19)对于处理低频高序词是适宜的。但是 In 的 n 临界值 为多大呢?式(19)的适用范围应怎样规定呢? 1973 年 J.C.多诺霍
(Donohue)提出一个判断式:
ln ?
? 1 ?
1? 8I1
2
式中,I1 为仅出现一次的词数,小于词频 In 的词均属于低频词。 三、信息计量学方法的类型 信息计量学方法是由多种方法构成的综合体。按研究手段可分为信息统
计分析法、数学模型分析法、系统分析法、矩阵分析法、网络分析法等,这 里介绍其中最基本的也是最重要的一种方法:信息统计法。
信息统计是指以某一特定单位对信息或其相关媒介进行统一的计量。信 息统计分析方法是利用统计学方法对信息进行统计分析,以数据来描述和揭 示信息的数量特征和变化规律,从而达到一定研究目的的一种分析研究方 法。
1.信息统计的媒介:①各种类型的书目、索引、文摘;②期刊杂志;③ 期刊指南和联合目录;④评述性杂志及其它出版物;⑤与信息利用情况有关 的读者借阅单、阅览登记资料等等。
2.信息统计分析的主要内容:①对各种各样的信息进行统计与分析;② 著者数的统计与分析;③科学术语的统计与分析;④引证关系的统计与分析;
⑤读者的统计与分析;⑥信息利用情况的统计与分析等等。
3.信息统计分析的步骤:①统计调查:搜集研究对象的原始数据,数据 必须准确可靠;②统计整理:对统计数据进行分门别类的加工整理,包括对 统计数据进行必要的计算,根据一定的规则排序,并用统计表或统计图的形 式表示出来;③统计分析:包括对统计数据的结论分析和误差分析,前者是 以统计数据为依据分析判断其相应的规律性的结论,后者是对结果的准确性 和精确度进行分析。
信息统计是信息研究的基础工作,信息统计数据是开展信息定量研究的
必要条件,运用信息统计分析方法可以反映信息的增长变化、分布特征、流 通状况、利用程度,揭示信息的数量变化规律,为信息单位的信息管理提供 依据。
第三节信息计量学方法的应用 一、信息计量学方法的应用
(一)测定核心期刊
期刊是最基本、最常用的一种信息存贮类型。在期刊论文的实际分布 中,存在着一种普遍现象,即对于某一特定学科或专业来说,少数几种期刊 所含的相关信息量很大,多数期刊的信息量却很小。我们将含有某专业、学 科相关信息量很大的少数几种期刊,称为该专业、学科的核心期刊。确定核 心期刊,不仅可以满足信息单位科学管理的需要,缓解信息经费、馆藏等方 面的问题,而且可以提高信息服务的效率和准确性、针对性。因此,测定核 心期刊是信息工作的一项重要任务。信息计量学方法为测定某一专业、学科 的核心期刊,提供了一套科学的方法,如布拉德福定律法及百分比补偿、累 积百分比法、文摘法、流通率法与综合评价法。加拿大学者 A.波普曾用布拉 德福图像分析法测定了信息学的核心期刊。近年来,信息计量学方法已被广 泛应用于化学、医学、农业、生物、海洋等多种学科的核心期刊的确定。
(二)指导信息收藏管理
应用信息计量学方法指导信息收藏与管理,表现在以下几个方面:①制 定信息采集策略,比如优先订购核心期刊,确定某一主题、专业的信息采集
的适当比例等;②选择各类信息的最佳搜集方式,如根据用户要求的特点和 经济、合理等因素,确定对某一类信息是采取订购、交换、复制或其他什么 形式;③确定期刊收藏的最佳方案,即根据布氏定律与信息老化指数规律, 从有关某一学科 100%的期刊中选出 P 泥作为一个适当的比例加以收藏;④ 指导信息文献剔旧工作,即依据文献的载文量、引文量、流通数据、用户反 馈数据、馆藏大小等因素,确定信息文献剔旧的合理方案,维护动态的最佳 馆藏;⑤评价信息收藏工作,即根据信息用户占有率、信息利用率数据评价 一个信息机构的信息收藏是否充分、合理、经济,是否能基本满足用户对信 息的需求。
(三)测定检索工具的完整性
检索工具的质量直接关系到检索效果,利用布氏定律,可以测定文摘、 索引等书目类检索工具的完整性。其具体作法是:①统计要校验的文摘或索 引的实际款目数量和摘引的期刊数量;②根据从实际统计中得到的某学科期
刊 n 和 R(n)的一组数据,利用 R(n)= Klogn,求出期刊总数(N= K); 再根据公式 R(N)= KlogN 求出该学科的论文总数;③通过实际值与理论计 算值的比较,便能测定其完整性。例如,按布氏定律公式计算,1970 年的《热 带文摘》该年只摘及了 374 种期刊和 2284 篇论文。因此,该文摘漏摘期刊
269 种,漏摘期刊率高达 41.8%;漏摘论文 500 篇,其漏摘率为 18%。也就
是说,该文摘具有 58.2%的期刊完整性和 82%的论文完整性。
(四)指导用户利用期刊
利用布氏定律原理,可以指导用户选择阅读重点文献,从而节省用户时 间,提高获取信息的效率。具体地说,就是用布氏定律确定某学科的“核心 期刊”,用这种量的概念指导用户阅读。
(五)研究信息利用规律
信息利用规律的研究有利于开发信息资源,提高信息服务的针对性。利 用信息计量学方法,可以从定量角度研究信息利用规律。中国科技信息学会
1981 年进行的“科技人员利用信息综合调查”就是一个很好的例子。
(六)研究科学发展的特点
现代科学发展的许多突出特点,都可以从科学信息的数量及其变化上看 出。从信息计量的角度,可以看出并证明科学发展的速度在加快,科学发展 具有继承性,具有阶段性、学科交叉渗透性,科学发展的重点不断转移以及 科学劳动的集体性等现代科学发展的特点。
(七)预测学科发展
一般说来,一门学科的成长一般要经历萌芽、发展、成熟、分化的过程。 在这个过程中,表述该学科研究成果的信息在数量和内容构成上也要相应地 发生变化。当一门学科萌芽时,只有少数几篇文献,其内容也大多是一些实 验性事实和学科概念的讨论;当学科发展时,信息数量显著增长,内容日渐 成熟,理论性信息明显增多;当学科发展到成熟阶段时,信息增长速度变慢 并逐渐达到饱和状态,应用信息的比例增大,这标志着该学科已经成熟,很 少有新的发展;如果分化出新的知识领域,该学科的信息量又会速增。这说 明一门学科本身的成长过程与其信息在数量和内容构成上的变化有着密切的 联系。而这种联系正是我们利用信息计量预测学科发展动向及前景的重要依 据。
二、信息计量学方法应用综合举例
成为本站VIP会员VIP会员登录,
若未注册,请点击免费注册VIP 成为本站会员.
版权声明:本站所有电子书均来自互联网。如果您发现有任何侵犯您权益的情况,请立即和我们联系,我们会及时作相关处理。