蓝田玉PDF小说网 / 地理旅游 / 现代地理学中的数学方法
 


现代地理学中的数学方法




? xi )(xij ? x j )

n 1 ? n

? ? n ?

? ? x a xaj
a ?1
n

? ? ? x
? a ?1

a ? ? ? x
i ? ? a ?1

aj ? (i,
?

j ? 1,

2, ?, k)

Liy ? ? (xai ? xi )(ya ? y)
a ?1

n 1 ? n

? ? n ?

? ? xa ya
a ?1

? ?? x
? a ?1

a ? ? ? y
i ? ? a ?1

a ? (i ? 1, 2,
?

?, k)

则正规方程组也可以写成
? L11b 1 ? L12 b 2 ? ?L1k b k ? L1y
?

? L21 b1 ? L 22 b 2 ? ?L 2k b k
?

? L2 y

? ????????????
?
? L k1b 1 ? L k2 b 2 ? ?L kk b k ? L ky
? b 0 ? y ? b 1 x1 ? b 1 x1 ? b 2 x 2 ? ? b k x k

(15″)

  例如,在 1981—1990 年期间,某地区各城市的公共交通营运总额(y) 与城市人口总数(x1)以及工农业总产值(x2)的年平均统计数据如表 2-7 所
示。试建立 y 与 x1 及 x2 之间的线性回归模型。
表 2-7 某地区城市公共交通营运额、人口数及 工农业总产值的年平均数据


城市序号 公共交通营运额(y)
(千人公里) 人口数(x1)
(千人) 工农业总产值(x2)
(千万元) 1 6825.99 1298.00 437.26 2 512.00 119.80 1283.48 3 1902.00 344.28 1128.33 4 146.00 235.56 600.58 5 2824.00 163.79 783.15 6 37.00 76.72 65.26 7 52.00 17.81 441.26 8 56.00 30.66 242.33 9 187.00 15.92 23.98 10 1065.00 345.08 371.98 11 107.00 6.70 324.40 12 173.00 28.00 262.11 13 771.00 75.00 1508.16 14 192.00 12.47 1072.27


据表 2-7 中的数据,我们有

? 1 x11
?
? 1 x21

x12 ?
?
x22 ?

? 1 1298.00 437.26 ?
? ?
? 1 119.80 1283.48 ?

X ? ? 1

x31

x32

? ? ?

1 344.28 1128.33 ?

? ? ? ?

? ? ? ??

?? ? ??

? ? ? ?

?1 x14 ,1

x14 ,2 ?

? 1 12.47 1508.16?

? y 1 ?

? 6825.00?

? y ?

? 512.00 ?

? 2 ? ? ?
Y ? ? y 3 ? ? ?1902.00?
? ? ? ?
? ?? ? ? ?
? ? ? ?


经过计算可得




? b ?

? y 14 ?

? 192.00 ?


? ? 172.2415?

? 0 ? ? ?

b ? ? b1

? ? (X T X) ?1 X TY ? ?

5.1075 ?

? ? ? ?

? b2 ?
故 y 与 x1 及 x2 之间的线性回归方程为
?

? 0.3636 ?

y = -172.241 5 + 5.107 5x1 + 0.363 6x2
(二)多元线性回归模型的显著性检验

(17)

  与一元线性回归模型一样,当多元线性回归模型建立以后,也需要进行 显著性检验。
与前面的一元线性回归分析一样,因变量 y 的观测值 y1,y2,?yn 之间

的波动或差异,是由两个因素引起的,一是由于自变量 x1,x2,?,xk 的取 值不同,另一是受其它随机因素的影响而引起的。为了从 y 的总变差中把它 们区分开来,就需要对回归模型进行方差分析,也就是将 y 的总的离差平方
和 S 总(或 Lyy)分解成两个部分,即回归平方和 U 和剩余平方和 Q:
S 总=Lyy=U+Q
在多元线性回归分析中,回归平方和表示的是所有 k 个自变量对 y 的变差的 总影响,它可以按公式
n ? k

U ? ? (y ? y) 2

? ? b i Liy

计算,而剩余平方和为

a ?1


n

i?1


? 2

Q ? ? ( ya ? y a )
a ?1

? L yy ? U

  以上几个公式与一元线性回归分析中的有关公式完全相似。它们所代表 的意义也相似,即回归平方和越大,则剩余平方和 Q 就越小,回归模型的效 果就越好。不过,在多元线性回归分析中,各平方和的自由度略有不同,回 归平方和 U 的自由度等于自变量的个数 K,而剩余平方和的自由度等于 n-K-
1,所以 F 统计量为

U / K
F ?
Q / (n ? K ? 1)


(18)

当统计量 F 计算出来之后,就可以查 F 分布表对模型进行显著性检验。 在上例中,计算可得


S 总 = L yy

14
= ? (y a ? y)


? 44521048.53

a =1
U=b1L1y+b2L2y=39030046.11
                            Q=S 总-U=5491002.42


U / K
F =
Q / (n - K - 1)

U / 2
= =
Q / 11

39030046.11 / 2
5419002.42 / 11


= 39.094

在置信水平 a=0.01 下查 F 分布表知:F0.01(2,11)=7.21。由于 F=39.094
>F0.01(2,11)=7.21,所以在置信水平 a=0.01 下,回归方程(17)式是显著
的。
三、非线性回归模型的建立方法 在复杂地理系统中,除了线性关系以外,要素之间的非线性关系也是大
量存在的。因此,对非线性回归分析,也有必要作一些介绍。
(一)非线性关系的线性化 前面已经讨论了线性回归模型的建立方法。在复杂地理系统研究中,对
于要素之间的非线性关系,若能找到某种途径将其转化为线性关系,则我们 就可以借助于线性回归模型的建立方法,建立要素之间的非线性回归模型。 事实上,这是可以办得到的,只要根据要素之间的关系设定新的变量,通过 变量替换就可以将原来的非线性关系转化为新变量下的线性关系。譬如:
  (1)对于指数曲线 y=debx,令 y′=lny,x′=x,就可以将其转化为直线 形式:y′=a+bx′,其中,a=lnd;
  
  (2)对于对数曲线 y=a+blnx,令 y′=y,x′=lnx,就可以将其转化为直 线形式:y′=a+bx′;
  (3)对于幂函数曲线 y=dxb,令 y′=lny,x′=x,就可以将其转化为直 线形式:y′=a+bx′,其中,a=lnd;
  
(4)对于双曲线

1
= a +
y

b
,令y′ =
x

1
,x′ =
y

1
,就可以将其转化为
x

直线形式:y′=a+bx′;

(5)对于S型曲线y =



1
a + be



-x ,令y′ =



1
,x′ = e-x
y



,就可以将其转化

为直线形式:y′=a+bx′;
(6)对于幂函数乘积:




β1 β2 βk

y = dx1

·x 2

?,x k

只要令y′ = lny,x ′

= lnx1,x ′

= lnx

,?,x ′

= lnx ,就

1 2 2 k k
可以将其转化为直线形式:
′ ′ ′

y′ = β0 + β1 x1
上式中,β0=lnd;

+ β2 x + ? + βk xk

(7)对于对数函数和:y=β0+β1lnx1+β2lnx2+?+βklnxk

只要令y′ = y,x ′

= lnx

,x ′ = lnx

,?,x ′ = lnx

,就可

1 1 2 2 k k
以将其化为线性形式:
′ ′ ′

y′ = β 0 + β1 x 1

+ β 2 x 2

+ ? + β k x k

  以上这种将非线性函数关系转化为线性关系的过程称为非线性关系的线 性处理。不过,需要强调指出的是,这种转化过程并不能保证函数关系中变 量个数不变。譬如,对于两变量的多项式
y=β0+β1x+β2x2+?+βkxk
若令x ′ = x,x ′ = x 2 ,?,x ′ = x k ,y′ = y,则它就被转化为多变量

1 2
的线性模型:

k


′ ′ ′

y′ = β 0 + β1 x 1

+ β 2 x 2

+ ? + β k x k

(二)非线性回归模型建立的实例 通过上述分析,我们可以得到建立非线性回归模型的一般方法:首先通
过适当的变量替换将非线性关系线性化,然后再用线性回归分析方法建立新
变量下的线性回归模型,通过新变量之间的线性相关关系反映原来变量之间 的非线性相关关系。下面,我们结合实例,说明非线性地理回归模型的建立 过程。
例如,黄土高原某地区 1984—1990 年期间,小麦亩产量(y)与化肥使用
量(x1),以及农家肥(干纯粪)使用量(x2)的数据如表 2-8 所示。试建立 y
与 x1 及 x2 之间的相关关系模型。
表 2-8 某地区小麦亩产量与化肥、农家肥使用量(千克/亩)

年份 1984 1985 1986 1987 1988 1989 1990 序号 1 2 3 4 5 6 7 小麦亩产量( y ) 116.0 123.5 123.0 166.6 118.5 197.0 153.0 化肥使用量( x1 ) 2.21 3.96 3.77 4.28 4.00 7.32 8.66 农家肥使用量( x2 ) 108.9 127.4 110.1 121.5 137.4 139.7 130.0



从表 2-8 可以看出,小麦亩产量(y)随着化肥使用量(x1)及农家肥使用
量(x2)的增加而增加,但肥料投入量的增长速度越来越高于小麦亩产量的增
长速度,其间的关系可用对数变化规律来模拟,即
y=β0+β1lnx1+β2lnx2+ε (19)

在(19 )式中,若令y′ = y,x ′ = lnx

,x ′

= lnx

,则它可以被化为

线性形式

1 1 2 2


′ ′

y′ = β 0 + β 1x 1

+ β 2 x 2

+ ε (19′)

变量替换后,各新变量对应的观测数据如表 2-9 所示。
7 7

根据表2 - 9中的数据,计算可得:x1

7

= 1 ? x ′ = 1.4980;x ′
7 a =1
7

1 ′
7 a 2
a ?1

1
= 4.8241;y′ ? y
a ?1

? 142.500; 以及L′

? ? (x ′ ? x ′ ) 2 ? 1.23464;
a ?1



表 2-9 变量替换后各新变量的对应数据
7
′ ′ ′ ′ ′ ′

L12 = L 21 = ? (xa
a =1

- x 1

)(x a2 - x 2

) = 0.1879 ;

7
L′ = (x′ - x ′
a =1
7


) 2 = 0.05903;

′ ′ ′ ′ ′

L1y = ? (x a 1 ? x 1
a =1
7

)(y a ? y

) = 59.7337 ;

L2y = ? (xa2 - x 2 )(y a

- y′) = 9.2856。

              a =1
所以,正规方程组为
?1.23464b1 + 0.1879b2 = 59.7337
?
?0.1879b1 + 0.05903b2 = 9.2856
? b0 = 142.5 - 1.4980b1 - 4.8241b2
解上述正规方程组(20)式可得
? b0 = 40.64341
?
? b1 = 47.388
? b2 = 6.39899
因此,(19′)式所对应的线性回归方程为
′ ′





(20)

y′ = 40.64341 + 47.388x1

+ 6.398899x 2

(21)

而对应于(19)式的非线性回归方程为:

y=40.64341+47.388lnx1+6.39899lnx2 (22)

第三节 系统聚类分析方法


  聚类分析,亦称群分析或点群分析,它是研究多要素事物分类问题的数 量方法。其基本原理是,根据样本自身的属性,用数学方法按照某些相似性 或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对 样本进行聚类。
  聚类分析方法,是地理学中研究地理事物分类问题和地理分区问题的重 要的数量分析方法。常见的聚类分析方法有系统聚类法、动态聚类法和模糊 聚类法等。本节,我们将结合有关实例,主要介绍和探讨系统聚类分析方法 在地理学研究中的应用问题。
一、聚类要素的数据处理 在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的
准确性和可靠性。在地理分类和分区研究中,被聚类的对象常常是多个要素 构成的。不同要素的数据往往具有不同的单位和量纲,因而其数值的差异可 能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后, 在进行聚类分析之前,还要对聚类要索进行数据处理。
假设有 m 个被聚类的对象,每一个被聚类对象都有 x1,x2,?,xn 个要素构
成。它们所对应的要素数据可用表 2-10 给出。在聚类分析中,常用的聚类要 素的数据处理方法有如下几种。



聚类对象

1
2
?
i
?
m

要 素
x1 x2 ? , xj ?, xn
x11 x12 ?, x1j ?, x1n
x11 x12 ?, x1j ?, x1n
? ? ? ? xi1 xi2 ?, xij ?, xin ? ? ? ?
xm1 xm2 ?, xmj ?, xmn



(1)总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素
的数据除以该要素数据的总和,即


x′ ? x

m
/ ? x

? i ? 1, 2,
?

?, m?
?


(1)

ij ij ij
i?1

? j ? 1,

2, ?, n ?

这种标准化方法所得的新数据x′ 满足


m
? x ij ? 1


( j ? 1, 2, ?, n)

i?1
(2)标准差的标准化,即
xij ? x j
x′




? i ? 1,
?



2, ?, m?
?





(2)

ij ?
j
在(2)式中,

? j ? 1, 2,

?, n ?


x j ?

m
? xij ,


S j ?

m
? (xij ? x j )

m i ?1

m i?1

由这种标准化方法所得的新数据x′ ,各要素的平均值为0,标准

差为 1,即有



′ ? 1 ′ ? 0,



? 1 ( ′ ?




′ ) 2 ? 1

x j ? x ij
i? 1

S j ?
i?1

xij x j

(3)极大值标准化,即
xij
x′



? i ? 1,
?


2, ?, m?
?




(3)

?
ij max{x }

? j ? 1, 2,

?, n ?

经过这种标准化所得的新数据,各要素的极大值为 1,其余各数值小于
1。
(4)极差的标准化,即

xij ? min{xij }
x ?

? i ? 1, 2, ?, m?
? ?


(4)

ij max{x

} ? min{x }

? j ? 1, 2, ?, n ?

i ij ij
  经过这种标准化所得的新数据,各要素的极大值为 1,极小值为 0,其余 的数值均在 0 与 1 之间。
表 2-11 给出了某地区九个农业区的七项经济指标,其极差标准化处理后
的数据如表 2-12 所示。
表 2-11 某地区九个农业区的七项经济指标数据



区代号 指 标 人均耕地
x1(亩/人) 劳均耕地
x2(亩/个) 水田比重
x3 (%) 复种指数
x4 (%) 粮食亩产
x5(公斤/亩) 人均粮食
x6 (公斤/人 G1 4.41 16.40 5.63 113.60 300.70 1036.40 G2 4.72 14.57 0.39 95.10 184.90 683.70 G3 1.84 4.74 5.28 148.50 462.30 611.10 G4 2.69 7.91 0.39 111.00 297.20 632.60 G5 1.22 3.18 72.04 217.80 816.60 791.10 G6 1.23 3.16 43.78 179.60 598.20 636.50 G7 1.12 2.72 65.15 194.70 712.60 634.30 G8 4.40 9.99 5.35 94.90 245.30 771.70 G9 2.50 6.21 2.90 94.80 282.10 574.60


表 2-12 极差标准化处理后的数据

区代号 指 标 x1 x2 x3 x4 x5 x6 x7 G1 0.91 1.00 0.07 0.15 0.18 1.00 0.14 G2 1.00 0.87 0.00 0.00 0.00 0.24 0.00 G3 0.20 0.15 0.07 0.44 0.44 0.08 0.07 G4 0.44 0.38 0.00 0.13 0.18 0.13 0.00 G5 0.03 0.03 1.00 1.00 1.00 0.45 1.00 G6 0.03 0.03 0.61 0.69 0.65 0.13 0.59 G7 0.00 0.00 0.90 0.81 0.84 0.13 1.00 G8 0.91 0.53 0.07 0.00 0.10 0.43 0.09 G9 0.38 0.26 0.04 0.00 0.15 0.00 0.00



二、距离和相似系数的计算
  距离是事物之间差异性的测度,而相似系数则是其相似性的测度,所以 距离和相似系数是聚类分析的依据和基础。当聚类要素的数据处理工作完成 以后,就要计算分类对象之间的距离或相似系数,并依据距离或相似系数的 矩阵结构进行聚类。
(一)距离的计算
  如果我们把每一个分类对象的 n 个聚类要素看成 n 维空间的 n 个坐标 轴,则每一个分类对象的 n 个要素所构成的 n 维数据向量就是 n 维空间中的 一个点。这样,各分类对象之间的差异性就可以由它们所对应的 n 维空间中 点之间的距离度量。常用的距离有
(1)绝对值距离
n

d ij ? ? | x ik
k?1
(2)欧氏距离

n

? x jk | (i,

j ? 1, 2 , ?,

m) (5)

d ij ?

? ( xik

? x jk ) (i,

j ? 1,

2, ?, m)

(6)

k?1
(3)明科夫斯基距离
1
? n ? p
d ij ? ?? |x ik ? x jk | ?
?k ?1 ?





(i,





j ? 1, 2 ,





?, m)





(7 )

  (7)式中,p≥1。当 p=1 时,它就是绝对值距离;当 p=2 时,它就是欧 氏距离。
(4)切比雪夫距离。当明科夫斯基距离 p→∞时,有

d ij ? max|xik ? x jk | (i, j ? 1, 2,

?, m)

(8)

  选择不同的距离,聚类结果会有所差异。在地理分区和分类研究中,往 往采用几种距离进行计算、对比,选择一种较为合理的距离进行聚类。
  据表 2-12 中的数据,用公式(5)式计算可得九个农业区之间的绝对值距 离矩阵如下:
  
? 0
?
?1.52 0
? 3.10 2.70 0
?
? 2.19 1.47 1.23 0
D ? (d ) ? ?5.86 6.02 3.64 4.77 0
? 4.72 4.46 1.86 2.99 1.78 0
?5.79 5.53 2.93 4.06 0.83 1.07 0
?1.32 0.88 2.24 1.29 5.14 3.96 5.03 0
?

?
?
?
?
?
?
? ( )
?
?
?
?
?
?

? 2.62 1.66 1.20 0.51 4.84 3.06 3.32 1.40 0?




(二)相似系数的计算
常见的相似系数是夹角余弦和相关系数,其计算公式如下:
(1)夹角余弦:



rij = cosθij =

n
? (x ik x jk )
k=1



(i,j = 1,2,?,m) (10)

n
? xik

n
? x jk

k?1

k?1

在(10)式中,显然有:-1≤cosθij≤1。
(2)相关系数:
n

? (xik ? xi )(x jk

? x j )

k ?1

rij ?


n
? (xik ? xi )


n
? (x jk ? x j )

(i,

j ? 1, 2, ?, m)

(11)

k ?1

k? 1

在(11)式中,x i 和 x j 分别为聚类对象i和j各要素标准化数据的平均
值。
据表 2-12 中的数据,用夹角余弦公式(10)式计算,可得如下的相似系

数矩阵:



?1
?
? 0.88 1
? 0.49 0.38 1
?
? 0.88 0.94 0.67 1
?




? 0.93 0.95 0.45 0.92 0.21 0.18 0.14 1
?



?
?
?
?
?
?
? (12)
?
?
?
?
?

? 0.77 0.93 0.55 0.95 0.21 0.23 0.19 0.90 1?


三、直接聚类法
直接聚类法,是根据距离或相似系数矩阵的结构一次并类得到结果,是

一种简便的聚类方法。它先把各个分类对象单独视为一类,然后根据距离最 小或相似系数最大的原则,依次选出一对分类对象,并成新类。如果其中一 个分类对象已归于一类,则把另一个也归入该类;如果一对分类对象正好属 于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列 与列序相同的行。那么,经过 m-1 次就可以把全部分类对象归为一类,这样 就可以根据归并的先后顺序作出聚类分析的谱系图。
  下面,我们据距离矩阵(9)式,用直接聚类法对某地区的九个农业区进 行聚类分析。
第一步,在距离矩阵 D 中,除对角线元素以外,d49=d94=0.51 为最小者,
故将第 4 区与第 9 区并为一类,划去第 9 行和第 9 列; 第二步,在余下的元素中,除对角线元素以外,d75=d57=0.83 为最小者,
故第 5 区与第 7 区并为一类,划掉第 7 行和第 7 列; 第三步,在第二步之后余下的元素之中,除对角线元素以外,d82=d28=0.88
为最小者,故将第 2 区与第 8 区并为一类,划去第 8 行和第 8 列; 第四步,在第三步之后余下的元素中,除对角线元素以外,d43=d34=1.23
为最小者,故将第 3 区与第 4 区并为一类,划去第 4 行和第 4 列,此时,第
3、4、9 区已归并为一类。 第五步,在第四步之后余下的元素中,除对角线元素以外,d21=d12=1.52
为最小者,故将第 1 区与第 2 区并为一类,划去第 2 行与第 2 列,此时,第
1、2、8 区已归并为一类; 第六步,在第五步之后余下的元素中,除对角线元素以外,d65=d56=1.78
为最小者,故将第 5 区与第 6 区并为一类,划去第 6 行和第 6 列,此时,第
5、6、7 区已归并为一类; 第七步,在第六步之后余下的元素中,除对角线元素以外,d31=d13=3.10
为最小者,故将第 1 区与第 3 区并为一类,划去第 3 行和第 3 列,此时,第
1,2,3,4,8,9 区已归并为一类。 第八步,在第七步之后余下的元素中,除去对角线元素以外,只有
d51=d15=5.86,故将第 1 区与第 5 区并为一类,划去第 5 行和第 5 列,此时,
第 1,2,3,4,5,6,7,8,9 区均归并为一类。 根据上述步骤,我们可以作出聚类过程的谱系图(图 2-1)。直接聚类法
虽然简便,但在归类过程中是划去行和列的,因而难免有信息损失。因此直
接聚类法并不是最好的系统聚类法。

四、最短距离聚类法
最短距离法,是在原来的 m×m 距离矩阵的非对角元素中找出 dpq=min
{dij},把分类对象 Gp 和 Gq 归并为一新类 Gr,然后按计算公式:
drk=min{dpk,dqk}(k≠p,q) (13)
  计算原来各类与新类之间的距离,这样就得到一个新的(m-1)阶的距离 矩阵;再从新的距离矩阵中选出最小的 dij,把 Gi 和 Gj 归并成新类;再计算 各类与新类的距离,这样一直下去,直至各分类对象被归为一类为止。
  以下,我们据(9)式中的距离矩阵,用最短距离聚类法对某地区的九个 农业区进行聚类分析。
  
  第一步,在 9×9 阶距离矩阵 D 中,非对角元素中最小者是 d94=0.51,故 首先将第 4 区与第 9 区并为一类,记为 G10,即 G10={G4,G9}。分别按照公 式(13)式计算 G1,G2,G3,G5,G6,G7,G8 与 G10 之间的距离得:
d1,10=min{d14,d19}=min{2.19,2.62}=2.19 d2,10=min{d24,d29}=min{1.47,1.66}=1.47 d3,10=min{d34,d39}=min{1.23,1.20}=1.20 d5,10=min{d54,d59}=min{4.77,4.84}=4.77 d6,10=min{d64,d69}=min{2.99,3.06}=2.99 d7,10=min{d74,d79}=min{4.06,3.32}=3.32 d8,10=min{d84,d89}=min{1.29,1.40}=1.29
这样就得到 G1,G2,G3,G5,G6,G7,G8,G10 上的一个新的 8×8 阶距离
矩阵:
G1 G2 G3 G5 G6 G7 G8 G10
G1 0
G2 1.52 0
G3 3.10 2.70 0
G5 5.86 6.02 3.64 0
G6 4.72 4.46 1.86 1.78 0
G7 5.79 5.53 2.93 0.83 1.07 0
G8 1.32 0.88 2.24 5.14 3.96 5.03 0
G10 2.19 1.47 1.20 4.77 2.99 3.32 1.29 0
  第二步,在上一步骤中所得到的新的 8×8 阶距离矩阵中,非对角元素中 最小者为 d57=0.83,故将 G5 与 G7 归并为一类,记为 G11,即 G11={G5,G7}。 再分别按照公式(13)式计算 G1,G2,G3,G6,G8,G10 与 G11 之间的距离,可 得到一个新的 7×7 阶距离矩阵:
G1 G2 G3 G6 G8 G10 G11
G1 0
G2 1.52 0
G3 3.10 2.70 0
G6 4.72 4.46 1.86 0
G8 1.32 0.88 2.24 3.96 0
G10 2.19 1.47 1.20 2.99 1.20 0
G11 5.79 5.53 2.93 1.07 5.03 3.32 0
  第三步,在第二步所得到的新的 7×7 阶距离矩阵中,非对角线元素中最 小者为 d28=0.88,故将 G2 与 G8 归并为一类,记为 G12,即 G12={G2,G8}。 再分别按公式(13)式计算 G1,G3,G6,G10,G11 与 G12 之间的距离,可得到 一个新的 6×6 阶距离矩阵:
G1 G3 G6 G10 G11 G12
G1 0

G3 3.10 0
G6 4.72 1.86 0
G10 2.19 1.20 2.99 0
G11 5.79 2.93 1.07 3.32 0
G12 1.32 2.24 3.96 1.20 5.03 0
  第四步,在第三步中所得到的新的 6×6 阶距离矩阵中,非对角线元素中 最小者为 d6,11=1.07,故将 G6 和 G11 归并为一类,记为 G13,即 G13={G6,G11}
={G6,(G5,G7)}。再按照公式(13)式计算 G1,G3,G10,G12 与 G13 之间的距
离,可得一个新的 5×5 阶距离矩阵:
G1 G3 G10 G12 G13
G1 0
G3
G10 2
G12 1
G13 4
  第五步,在第四步中所得到的新的 5×5 阶距离矩阵中,非对角线元素中 最小者为 d3,10=1.20,故将 G3 和 G10 归并为一类,记为 G14,即 G14={G3,G10}
={G3,(G4,G9)}。再按公式(13)式计算 G1,G12,G13,与 G14 之间的距离,
可得一个新的 4×4 阶的距离矩阵: G1 G12 G13 G14
G1 0
G12
G13
G14
  第六步,在第五步中所得的新的 4×4 阶距离矩阵中,非对角线元素中最 小者为 d12,14=1.20,故将 G12 与 G14 归并为一类,记为 G15,即 G15={G12,G14}=
{(G2,G8),(G3,(G4,G9))}。再用公式(13)式计算 G1,G13 与 G15 之间
的距离,可得一个新的 3×3 阶距离矩阵: G1 G13 G15
G1 0
G13
G15
  第七步,在第六步中所得的新的 3×3 阶距离矩阵中,非对角线元素中最 小者为 d1,15=1.32,故将 G1 与 G15 归并为一类,记为 G16,即 G16={G1,G15}={G1,
(G2,G8),(G3,(G4,G9))}。再用公式(13)式计算 G13 与 G16 之间的距离,
可得一个新的 2×2 阶距离矩阵: G13 G16
G13 0
G16 2.99 0

第八步,将 G13 和 G16 归并为一类。此时,所有分类对象均被归并为一类。 综合上述聚类过程,可以作出最短距离聚类谱系图(如图 2-2 所示)。



五、最远距离聚类法 最远距离聚类法与最短距离聚类法的区别在于计算原来的类与新类距离
时采用的公式:
drk=maX{dpk,dqk} (k≠p,q) (14)
对于上述同样的例子,最远距离聚类法的聚类过程如下:
第一步,在 9×9 阶距离矩阵中,非对角线元素中最小者为 d94=0.51,故
将 G4 与 G9 归并为一类,记为 G10,即 G10={G4,G9}。按照公式(14)式分别计
算 G1,G2,G3,G5,G6,G7,G8 与 G10 之间的距离,可以得到一个新的 8×8
阶距离矩阵:
G1 G2 G3 G5 G6 G7 G8 G10
G1
G2
G3
G5
G6
G7
G8
G10 2
  第二步,在第一步所得到的新的 8×8 阶距离矩阵中,非对角线元素中最 小者为 d57=0.83,故将 G5 与 G7 归并为一类,记为 G11,即 G11={G5,G7}。再 按照公式(14)式分别计算 G1,G2,G3,G6,G8,G10 与 G11 之间的距离,可得 一个新的 7×7 阶距离矩阵如下:
G10 G11









0
4.84 0
  第三步,在第二步中所得到的新的 7×7 阶距离矩阵中,非对角线元素中 最小者为 d28=0.88,故将 G2 与 G8 并为一类,记为 G12={G2,G8}。再按照公 式(14)式分别计算 G1,G3,G6,G10,G11,与 G12 之间的距离,可得一个新的
6×6 阶距离矩阵如下:
G1 G3 G6 G10 G11 G12
G1 0 G3 3.10 0
G6 4.72 1.86 0 G10 2.62 1.23 3.06 0
G11 5.86 3.64 1.78 4.84 0 G12 1.52 2.70 4.46 1.66 6.02 0 第四步,在第三步中得到的新的 6×6 阶距离矩阵中,非对角线元素中最
小者为 d3,10=1.23,故将 G3 和 G10 归并为一类,记为 G13,即 G13={G3,G10}={G3,
(G4,G9)}。再按照公式(14)式分别计算 G1,G6,G11,G12 与 G13 之间的距离,
可得一个新的 5×5 阶距离矩阵如下:
G1 G6 G1 0 G6 4.72 0 G11 5.86 1.78 G12 1.52 4.46 G13 3.10 3.06

第五步,在第四步中所得到的新的 5×5 阶距离矩阵中,非对角线元素中
最小者为 d1,12=1.52,故将 G1 和 G12 归并为一类,记为 G14,即 G14={G1,
G12}={G1,(G2,G8)}。再按照公式(14)式分别计算 G6,G11,G13 和 G14 之间
的距离,可得一个新的 4×4 距离矩阵如下:
G6 G11 G13 G14
G6 0 G11 1.78 0 G13 3.06 4.84 0   第六步,在第五步中所得到的新的 4×4 阶距离矩阵中,非对角线元素中 最小者为 d6,11=1.78,故将 G6 与 G11 并为一类,记为 G15,即 G15={G6,G11}={G6,
(G5,G7)}。再按照公式(14)式分别计算 G13,G14 和 G15 之间的距离,可得
一个新的 3×3 阶距离矩阵如下:
G13 G14 G15 G13 0 G14 3.10 0 G15 4.84 6.02 0   第七步,在第六步中所得到的新的 3×3 阶距离矩阵中,非对角线元素中 最小者为 d13,14=3.10,故将 G13 和 G14 归并为一类,记为 G16,即 G16={G13, G14}={(G3,(G4,G9)),(G1,(G2,G8))}。再按照公式(14)式计算
G15 与 G16 之间的距离,可得一个新的 2×2 阶距离矩阵如下:
G15 G16 G15 0 G16 6.02 0

第八步,将 G15 与 G16 归并为一类。此时,各个分类对象均已归并为一类。

综合上述各聚类步骤,可作出最远距离聚类的谱系图(如图 2-3 所示)。 六、系统聚类法计算类之间距离的统一公式 从公式(13)和(14)式不难看出,最短距离聚类法具有空间压缩性,而
最大距离聚类法具有空间扩张性。它们的这种性质可以形象地用图 2-4 来表
示。在图 2-4 中,最短距离为 dAB=da1b1,最远距离为 dAB=da2b2。这两种聚类
方法关于类之间的距离计算可以用一个统一的式



表 2-13 八种系统聚类方法的距离参数值





子表示:
2 = a d 2


+ a d2


+ γ|d 2


- d 2 |


(15)

d kr


p pk


q qk


pk qk

当γ = - 1 时,(15)式就是最短距离聚类法计算类之间的距离的公式
2
(13)式;当γ = 1 时,(15)式就是最远距离聚类法计算类之间的距离的
2
公式(14)式。 除了最短距离聚类法和最远距离聚类法外,系统聚类的方法还有多种,
公式:

2 2
kr p kp

2
p kq

? γ|

D kp kq

(16)

就是八种不同系统聚类方法计算类之间距离的统一表达式。当α、β、γ三 个参数取不同的值时,就形成了不同的聚类方法(见表 2-13),式中 np 是 p 类中单元的个数,nq 是 q 类中单元的个数,nr=np+nq;β一般取负值。

第四节 主成分分析方法


  地理环境是多要素的复杂系统,在我们进行地理系统分析时,多变量问 题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且 在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,我们就 会很自然地想到,能否在各个变量之间相关关系研究的基础上,用较少的新 变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较 多的变量所反映的信息?事实上,这种想法是可以实现的,本节拟介绍的主 成分分析方法就是综合处理这种问题的一种强有力的方法。
一、主成分分析的基本原理 主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方
法,从数学角度来看,这是一种降维处理技术。假定有 n 个地理样本,每个 样本共有 p 个变量描述,这样就构成了一个 n×p 阶的地理数据矩阵:

? x 11
?
? x 21

x12
x 22

? x 1p ?
?
? x 2 p ?

X ? ?
?

? ? ? ?
?

(1)

? x n1

x n2

x np ?

  如何从这么多变量的数据中抓住地理事物的内在规律性呢?要解决这一 问题,自然要在 p 维空间中加以考察,这是比较麻烦的。为了克服这一困难, 就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指 标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信 息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量)应如何 选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整 组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为 x1,x2,?,xp,它们的综合指标——新变量
指标为 x1,x2,?,zm(m≤p)。则

? x1 ? l11x 1 ? l12 x 2 ? ?,
?
? x 2 ? l 21x 1 ? l 22 x 2 ? ?,
?

? l1p x p
? l2 p x p





(2)

? ????????????
?

? zm

? l m1x 1 ? l m 2 x 2 ? ?,

? l mp x p

在(2)式中,系数 lij 由下列原则来决定:
(1)zi 与 zj(i≠j;i,j=1,2,?,m)相互无关;
(2)z1 是 x1,x2,?,xp 的一切线性组合中方差最大者;z2 是与 z1 不相
关的 x1,x2,?,xp 的所有线性组合中方差最大者;??;zm 是与 z1,z2,??
zm-1 都不相关的 x1,x2,?,xp 的所有线性组合中方差最大者。
这样决定的新变量指标 z1,z2,?,zm 分别称为原变量指标 x1,x2,?,
xp 的第一,第二,?,第 m 主成分。其中,z1 在总方差中占的比例最大,z2,
z3,?,zm 的方差依次递减。在实际问题的分析中,常挑选前几个最大的主
成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关 系。

  从以上分析可以看出,找主成分就是确定原来变量 xj(j=1,2,?,p) 在诸主成分 zi(i=1,2,?,m)上的载荷 lij(i=1,2,?,m;j=1,2,?, p),从数学上容易知道,它们分别是 x1,x2,?,xp 的相关矩阵的 m 个较大 的特征值所对应的特征向量。
二、主成分分析的计算步骤 通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步
骤归纳如下:
(1)计算相关系数矩阵

? r11
?
? r21

r12
r22

? r1p ?
?
? r2 p ?

R ? ? ? ? ??

(3)

? rp1

rp 2

? pp ?

  在公式(3)中,rij(i,j=1,2,?,p)为原来变量 xi 与 xj 的相关系数, 其计算公式为
n
? (x ki ? xi )(xkj ? x j )
k ?1

rij ?


n
? (xki ? xi )


n
? ( xkj ? x j )

(4)

k ?1

k?1

因为 R 是实对称矩阵(即 rij=rji),所以只需计算其上三角元素或下三
角元素即可。
(2)计算特征值与特征向量
首先解特征方程|λI-R|=0 求出特征值λi(i=1,2,?,p),并使其
按大小顺序排列,即λ1≥λ2≥?,≥λp≥0;然后分别求出对应于特征值
λi 的特征向量 ei(i=1,2,?,p)。
(3)计算主成分贡献率及累计贡献率
p m p

主成分zi 贡献率:ri / ? γk (i ? 1, 2,

?, p),累计贡献率:? γk / ?γk 。

k?1

k?1 k ?

一般取累计贡献率达 85-95%的特征值λ1,λ2,?,λm 所对应的第一,第
二,??,第 m(m≤p)个主成分。
(4)计算主成分载荷

p(zk ,xi ) =

γk eki (i,k = 1,2,?,p) (5)

由此可以进一步计算主成分得分:

? z11
?
? z21

z12
z 22

? z1m ?
?
? z2 m ?

Z ? ? ? ? ??

(6)

?
? zn1
三、主成分分析实例


zn2

?
? znm ?

对于某区域地貌-水文系统,其 57 个流域盆地的九项地理要素:x1 为流
域盆地总高度(m)x2 为流域盆地山口的海拔高度(m),x3 为流域盆地周长(m),
x4 为河道总长度(km),x5 为河

表 2-14 某 57 个流域盆地地理要素数据
序号 x1 x2 x3 x4 x5 x6 x7 x8 1 760 5490 1.704 2.481 30 2.785 31.8 20 2 1891 4450 2.765 4.394 30 5.833 37.0 26 3 325 5525 1.500 2.660 36 3.042 21.1 25 4 515 4760 2.750 5.320 117 4.844 30.1 98 5 513 6690 1.142 2.080 32 5.100 25.7 26 6 1570 8640 6.130 10.210 76 4.290 24.9 61 7 2210 8415 8.760 15.000 66 4.500 26.6 56 8 515 7040 1.300 1.260 13 3.500 22.2 10 9 1192 6258 8.447 30.606 286 6.500 29.1 225 10 1540 6280 5.174 11.383 82 4.070 23.3 63 11 950 8520 2.880 6.870 62 3.650 27.2 47 12 850 9460 7.480 7.790 30 4.900 11.6 24 13 1237 5937 2.046 2.993 28 2.720 29.6 19 14 553 7480 4.120 22.800 407 4.310 21.0 305 15 281 7050 3.360 8.240 83 4.190 8.20 67 16 1242 6525 3.520 7.490 51 3.790 29.2 41 17 889 7836 3.295 8.655 65 3.740 32.4 50 18 1342 5340 3.120 7.810 69 8.340 33.0 56 19 4523 4879 10.370 78.510 507 4.490 39.3 398 20 3275 6050 5.050 11.530 50 3.570 30.4 38 21 1510 5490 4.090 12.960 116 4.888 30.0 98 22 1655 5245 2.580 4.420 30 2.833 31.9 21 23 1655 5245 2.560 5.460 45 3.42 33.7 34 24 1475 4450 1.837 2.064 18 4.75 37.0 15 25 2144 4197 4.148 9.942 71 4.227 35.0 57 26 515 6650 1.050 1.260 17 5.100 27.4 14 27 834 6450 5.909 16.099 160 6.440 31.1 134 28 834 6450 5.379 10.758 110 4.630 31.1 90 29 1010 6745 4.242 13.694 109 4.430 24.6 86 30 543 6745 1.856 2.898 18 2.420 24.6 13
31 621 7099 2.273 3.863 27 4.600 24.6 21 0.278 32 1290 6745 4.924 12.993 85 4.250 27.8 69 0.947 33 955 7080 2.083 2.387 20 2.78 27.8 16 0.1930 34 885 7150 1.553 1.554 10 2.75 27.8 7 0.1290 35 847 7188 1.591 1.610 14 3.17 31.3 10 0.0940 36 798 7188 1.098 1.023 11 3.00 31.3 8 0.0645 37 1039 5961 2.727 3.295 28 5.50 29.6 24 0.2520 38 1213 5961 3.030 6.894 49 6.43 29.6 41 0.4580 39 1074 5813 2.500 2.954 30 5.33 29.6 26 0.3200 40 370 8295 1.740 2.000 21 4.33 17.8 17 0.1560 41 430 8240 2.130 2.310 14 3.75 18.9 11 0.1820 42 690 8410 1.630 1.680 12 3.25 18.9 9 0.1080 43 773 8410 2.070 2.410 18 3.83 18.9 17 0.1980 44 100 6790 0.830 1.400 25 4.40 11.4 19 0.0429 45 80 6790 0.550 0.470 10 2.75 11.4 7 0.0130 46 96 6765 0.650 0.730 15 4.00 11.4 12 0.0215 47 2490 6535 11.970 59.450 363 2.87 28.0 293 4.9300 48 1765 6575 7.350 21.760 140 3.46 26.7 114 1.9400 49 1158 6862 2.689 4.717 34 3.23 32.8 26 0.3580 50 1070 7055 2.178 3.448 26 2.70 32.8 18 0.2730 51 1495 7055 2.917 3.939 27 2.67 32.8 18 0.2995 52 1601 6949 2.803 4.205 28 3.08 32.8 21 0.3200 53 1251 5135 7.760 23.150 160 3.86 29.5 131 1.1920 54 1587 5095 6.160 17.020 119 4.71 29.9 98 1.3900 55 1230 5120 4.740 8.460 54 3.79 23.4 43 0.8110 56 1290 4960 2.040 2.800 24 6.25 37.0 21 0.1910 57 2400 4920 2.260 3.290 27 5.16 36.2 23 0.2580



道总数,x6 为平均分叉率,x7 为河谷最大坡度(度),x8 为河源数及 x9 为流
域盆地面积(km2)的原始数据如表 2-14 所示。张超先生(1984)曾用这些地 理要素的原始数据对该区域地貌-水文系统作了主成分分析。下面,我们将其 作为主成分分析方法在地理学研究中的一个应用实例介绍给读者,以供参 考。
表 2-15 相关系数矩阵

x1 x2 x3 x4 x5 x6 x7 x8 x1
x2
x3
x4
x5
x6
x7
x8
x9 1.000
-0.370
0.619
0.657
0.474
0.074
0.607
0.481
0.689
1.000
-0.017
-0.157
-0.150
-0.274
-0.566
-0.158
0.016


1.000
0.841
0.737
0.167
0.162
0.753
0.910




1.000
0.921
0.094
0.217
0.928
0.937





1.000
0.165
0.158
0.999
0.788







1.000
0.170
0.181
0.071









1.000
0.164
0.158










1.000
0.799



(1)首先将表 2-14 中的原始数据作标准化处理,由公式(4)计算得相关
系数矩阵(见表 2-15)。
  (2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献 率(见表 2-16)。由表 2-16 可知,第一,第二,第三主成分的累计贡献率已 高达 86.5%,故只需求出第一,第二,第三主成分 z1,z2,z3 即可。
表 2-16 特征值及主成分贡献率
主成分 特征值 贡献率(%) 累计贡献率(%) 1
2
3
4
5
6
7
8
9 5.043
1.746
0.997
0.610
0.339
0.172
0.079
0.014
0.0004 56.029
19.399
11.076
6.781
3.778
1.907
0.8727
0.1556
0.0042 56.029
75.428
86.504
93.285
97.061
98.967
99.840
99.996
100.00

(3)对于特征值λ1=5.043,λ2=1.746,λ3=0.997 分别求出其特征向量
e1,e2,e3,并计算各变量 x1,x2,??,x9 在各主成分上的载荷得到主成
分载荷矩阵(见表 2-17)。
表 2-17 主成分载荷矩阵


原变量 主 成 分 占方差的百分数(%) z1 z2 z3 x1
x2
x3
x4
x5
x6
x7
x8
x9 0.75
-0.25
0.89
0.97
0.91
0.20
0.35
0.92
0.93 -0.38
0.82
0.19
0.14
0.18
-0.360
-0.80
0.17
0.22 -0.36
-0.08
0.00
-0.03
0.16
0.86
-0.25
0.16
-0.10 83.05
73.20
82.19
96.63
88.26
89.97
83.19
89.90
92.16


从表 2-17 可以看出,第一主成分 z1 与 x1,x3,x4,x5,x8,x9 有较大的
正相关,这是由于这六个地理要素与流域盆地的规模有关,因此第一主成分 可以被认为是流域盆地规模的代表:第二主成分 z2 与 x2 有较大的正相关,与
x7 有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此第二 主成分可以被认为是流域侵蚀状况的代表;第三主成分 z3 与 x6 有较大的正相 关,而地理要素 x6 是流域比较独立的特性——河系形态的表征,因此,第三 主成成可以被认为是代表河系形态的主成分。
  以上分析结果表明,根据主成分载荷,该区域地貌-水文系统的九项地理 要素可以被归为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。 如果选取其中相关系数绝对值最大者作为代表,则流域面积,流域盆地出口 的海拔高度和分叉率可作为这三类地理要素的代表,利用这三个要素代替原 来九个要素进行区域地貌-水文系统分析,可以使问题大大地简化。
  
第五节 马尔可夫预测方法


  对事件的全面预测,不仅要能够指出事件发生的各种可能结果,而且还 必须给出每一种结果出现的概率,说明被预测的事件在预测期内出现每一种 结果的可能性程度。这就是关于事件发生的概率预测。
  马尔可夫(Markov)预测法,就是一种关于事件发生的概率预测方法。它 是根据事件的目前状况来预测其将来各个时刻(或时期)变动状况的一种预测 方法。马尔可夫预测法是地理预测研究中重要的预测方法之一。
一、几个基本概念 为了介绍马尔可夫预测法在区域开发研究中的应用,我们首先来介绍有
关马尔可夫预测法的几个基本概念。
(一)状态、状态转移过程与马尔可夫过程
  1.状态 在马尔可夫预测中,“状态”是一个重要的术语。所谓状态, 就是指某一事件在某个时刻(或时期)出现的某种结果。一般而言,随着所研 究的事件及其预测的目标不同,状态可以有不同的划分方式。譬如,在商品 销售预测中,有“畅销”、“一般”、“滞销”等状态;在农业收成预测中, 有“丰收”、“平收”、“欠收”等状态;在人口构成预测中,有“婴儿”、 “儿童”、“少年”、“青年”、“中年”、“老年”等状态;在经济发展 水平预测中,有“落后”、“较发达”、“发达”等状态;等等。
2.状态转移过程 在事件的发展过程中,从一种状态转变为另一种状
态,就称为状态转移。譬如,天气变化从“晴天”转变为“阴天”、从“阴 天”转变为“晴天”、从“晴天”转变为“晴天”、从“阴天”转变为“阴 天”等都是状态转移。
事件的发展,随着时间的变化而变化所作的状态转移,或者说状态转移
与时间的关系,就称为状态转移过程,简称过程。
  3.马尔可夫过程 若每次状态的转移都只仅与前一时刻的状态有关、而 与过去的状态无关,或者说状态转移过程是无后效性的,则这样的状态转移 过程就称为马尔可夫过程。在区域开发活动中,许多事件发展过程中的状态 转移都是具有无后效性的,对于这些事件的发展过程,都可以用马尔可夫过 程来描述。
(二)状态转移概率与状态转移概率矩阵
  1.状态转移概率 在事件的发展变化过程中,从某一种状态出发,下一 时刻转移到其它状态的可能性,称为状态转移概率。根据条件概率的定义, 由状态 Ei 转为状态 Ej 的状态转移概率 P(Ei→Ej)就是条件概率 P(Ej/Ei),

P(Ei→Ej)=P(Ej/Ei)=Pij (1)
2.状态转移概率矩阵 假定某一种被预测的事件有 E1,E2,?,En,共 n
个可能的状态。记 Pij 为从状态 Ei 转为状态 Ej 的状态转移概率,作矩阵

? P11
?
? P21

P12
P22

? p1n ?
?
? P2 n ?

P ? ?
?

? ? ??
?

(2)

? Pn1

Pn 2

? Pnn ?

则称 P 为状态转移概率矩阵。

  如果被预测的某一事件目前处于状态 Ei,那么在下一个时刻,它可能由 状态 Ei 转向 E1,E2,?Ei?En 中的任一个状态。所以 Pij 满足条件:
  
?0≤Pij≤1
?

(i,j = 1,2,?,n)

? n (3)

?? Pij ? 1
? j?1

(i = 1,2,?,n)

  一般地,我们将满足条件(3)的任何矩阵都称为随机矩阵,或概率矩阵。 不难证明,如果 P 为概率矩阵,则对任何数 m>0,矩阵 Pm 都是概率矩阵。
如果 P 为概率矩阵,而且存在整数 m>0,使得概率矩阵 Pm 中诸元素皆非
零,则称 P 为标准概率矩阵。可以证明,如果 P 为标准概率矩阵,则存在
n
非零向量α = [x1 ,x 2 ,?,x n ],而且x i 满足0≤x i ≤1及? x i = 1,使得
i?1
αP=α (4) 这样的向量α称为平衡向量,或终极向量。
3.状态转移概率矩阵的计算 计算状态转移概率矩阵 P,就是要求每个
状态转移到其它任何一个状态的转移概率 Pij(i,j=1,2,?,n)。为了求
出每一个 Pij,我们采用频率近似概率的思想来加以计算。
考虑某地区农业收成变化的三个状态,即“丰收”、“平收”和“欠收”。
记 E1 为“丰收”状态,E2 为“平收”状态,E3 为“欠收”状态。表 2-18 给
出了该地区 1950—1989 年期间农业收成的
表 2-18 某地区农业收成变化的状态转移情况
年份 1950 1951 1952 1953 1954 1955 1956 1957 1958 序号 1 2 3 4 5 6 7 8 9 状态 E1 E1 E2 E3 E2 E1 E3 E2 E1 年份 1960 1961 1962 1963 1964 1965 1966 1967 1968 序号 11 12 13 14 15 16 17 18 19 状态 E3 E1 E2 E3 E1 E2 E1 E3 E3 年份 1970 1971 1972 1973 1974 1975 1976 1977 1978 序号 21 22 23 24 25 26 27 28 29 状态 E3 E3 E2 E1 E1 E3 E2 E2 E1 年份 1980 1981 1982 1983 1984 1985 1986 1987 1988 序号 31 32 33 34 35 36 37 38 39 状态 E1 E3 E2 E1 E1 E2 E2 E3 E1




状态变化情况。以下,我们来计算该地区农业收成变化的状态转移概率
矩阵。
从表 2-18 中可知,在 15 个从 E1 出发(转移出去)的状态转移中,有 3
个是从 E1 转移到 E1 的(即 1→2,24→25,34→35),有 7 个是从 E1 转移到 E2
的(即 2→3,9→10,12→13,15→16,29→30,35→36,39→40),有 5 个 是从 E1 转移到 E3 的(即 6→7,17→18,20→21,25→26,31→32)。



P11 = P(E 1 →E1 ) = P(E1 |E1 ) =

P12 = P(E 1→E 2 ) = P(E 2 |E 1 ) =
按照上述同样的办法计算可以得到

3
= 0.2000
15
7
= 0.4667
15


7

P = P(E

→E ) = P(E │E ) =

= 0.5385

21 2 1 1 2 13
2

P = P(E

→E ) = P(E

│E ) =

= 0.1538

22 2 2 2 2 13
4

P = P(E

→E ) = P(E │E ) =

= 0.3077

23 2 3 3 2 13
4

P = P(E

→E ) = P(E

│E ) =

= 0.3636

31 3 1 1 3 11
5

P = P(E

→E ) = P(E

│E ) =

= 0.4545

32 3 2 2 3 11
2

P = P(E

→E ) = P(E

│E ) =

= 0.1818

33 3 3 3 3 11
所以,该地区农业收成变化的状态转移概率矩阵为
?0.200 0 0.466 7 0.333 ?
P ? ? ?

?0.538 5 0.1538 0.3077?
??0.363 6 0.4545 0.1818??
二、马尔可夫预测法

(5)

  为了运用马尔可夫预测法对事件发展过程中状态出现的概率进行预测, 还需要再介绍一个名词:状态概率πj(k)。πj(k)表示事件在初始(k=0)
时状态为已知的条件下,经过 k 次状态转移后,第 k 个时刻(时期)处于状态
Ej 的概率。根据概率的性质,显然有:
N

? π j (k) = 1
J ?1

(6)

从初始状态开始,经过 k 次状态转移后到达状态 Ej 这一状态转移过程,
可以看作是首先经过(k-1)次状态转移后到达状态 Ei(i=1,2,?,n),然
后再由 Ei 经过一次状态转移到达状态 Ej。根据马尔可夫过程的无后效性及
Bayes 条件概率公式,有
n
π j (k ) = ? πi(k - 1)Pij ( j = 1,2 ,?,n) (7)
i=1


若记行向量π(k)=[π1(k),π2(k),?,πn(k)],则由(7)式可得逐次
计算状态概率的递推公式:
? π(1) = π(0)P
? π(2) = π(1)P = π(0)P 2
? (8)
?
?
? π(k) = π(k - 1)P = ? = π(0)Pk

  (8)式中,π(0)=[π1 (0),π2 (0),?,πn(0)]为初始状态概率 向量。
(一)第 k 个时刻(时期)的状态概率预测
由上述分析可知,如果某一事件在第 0 个时刻(或时期)的初始状态已知
(即π(0)已知),则利用递推公式(8)式,就可以求得它经过 k 次状态转移 后,在第 k 个时刻(时期)处于各种可能的状态的概率(即π(k)),从而得 到该事件在第 k 个时刻(时期)的状态概率预测。
在前例中,如果将 1989 年的农业收成状态记为π(0)=[0,1,0](因为
1989 年处于“平收”状态),则将状态转移概率矩阵(5)式及π(0)代入递 推公式(8)式,就可以求得 1990—2000 年可能出现的各种状态的概率(见表
2-19)。
表 2-19 某地区 1990—2000 年农业收成状态概率预测值


年份 1990 1991 1992 状态概率 E1 E2 E3 E1 E2 E3 E1 E2 E3 0.5385 0.1528 0.3077 0.3024 0.4148 0.2837 0.3867 0.3334 0.2799 0 年份 1994 1995 1996 状态概率 E1 E2 E3 E1 E2 E3 E1 E2 E3 0.3677 0.3509 0.2799 0.3647 0.3532 0.2799 0.3656 0.3524 0.2799 0 年份 1998 1999 2000 状态概率 E1 E2 E3 E1 E2 E3 E1 E2 E3 0.3653 0.3525 0.2799 0.3653 0.3525 0.2799 0.3653 0.3525 0.2799




(二)终极状态概率预测
  经过无穷多次状态转移后所得到的状态概率称为终极状态概率,或称平 衡状态概率。如果记终极状态概率向量为π=[π1,π2,?,πn],则
πi = lim πi (k) (i = 1,2,?,n) (9)
k? ?
即:
π = [ lim π (k), lim π (k),?, lim π (k)]

k ?? 1

k ?? 2

k? ? n

= lim π(k)
k? ?
按照极限的定义可知:

(10)

lim π(k) = lim π(k + 1) = π (11)

k? ?

k? ?

将(11)式代入马尔可夫预测模型的递推公式(8)式得
lim π(k + 1) = lim π(k)P

k? ?
即:

k ??

π=πP (12) 这样,就得到了终极状态概率应满足的条件:
(1)π=πP

(2)0≤πi≤1(i=1,2,?,n)
n
(3)? πi = 1
i?1
以上条件(2)与(3)是状态概率的要求,其中,条件(2)表示,在无穷多次 状态转移后,事件必处在 n 个状态中的任意一个;条件(1)就是用来计算终 极状态概率的公式。终极状态概率是用来预测马尔可夫过程在遥远的未来会 出现什么趋势的重要信息。
在前例关于某地区农业收成状态概率的预测中,设终极状态的概率为π
=[π1,π2,π3],则
?0.2000 0.4667 0.3333?
? ?
[π1,π2 ,π3 ] = [π1 ,π2 ,π3 ]?0.5385 0.1538 0.3077?
??0.3636 0.4545 0.1818??


? π = 0.2000π + 0.5385π + 0.3636π
?
? π2 = 0.4667π1 + 0.1538π2 + 0.4545π3
?
? π3 = 0.3333π1 + 0.3077π2 + 0.1818π3





(13)

求解方程组(13)式得:π1=0.3653,π2=0.3525,π3=0.2799。这说明,
该地区农业收成的变化,在无穷多次状态转移后,“丰收”和“平收”状态 出现的概率都将大于“欠收”状态出现的概率。
在地理事件的预测中,被预测对象所经历的过程中各个阶段(或时点)
的状态和状态之间的转移概率是最为关键的。马尔可夫预测的基本方法就是 利用状态之间的转移概率矩阵预测事件发生的状态及其发展变化趋势。马尔 可夫预测法的基本要求是状态转移概率矩阵必须具有一定的稳定性。因此, 必须具有足够多的统计数据,才能保证预测的精度与准确性。换句话说,马 尔可夫预测模型必须建立在大量的统计数据的基础之上。这一点也是运用马 尔可夫预测方法预测地理事件的一个最为基本的条件。

第三章 线性规划方法


  线性规划,是数学规划中发展较快、应用较广和比较成熟的一个分支。 早在本世纪 30 年代末,就有人从运输问题开始研究应用线性规划的方法。自
1947 年丹泽(G.B.Dantzing)提出求解线性规划问题的一般方法——单纯形 法之后,线性规划在理论上趋于成熟,在实际应用中日益广泛与深入。特别 是随着电子计算机的发展和计算速度的不断提高,线性规划适用的领域更加 广泛,从工程技术的优化设计到工业、农业、商业、交通运输规划及管理诸 问题的研究中,它已成为必不可少的重要手段之一。本章,我们将结合有关 实例,介绍和探讨线性规划在地理学研究中的应用问题。

第一节 线性规划及其单纯形求解方法

一、线性规划数学模型
(一)线性规划之实例 线性规划研究的问题主要有两类:一是某项任务确定后,如何统筹安排,
以最少的人力、物力和财力去完成该项任务;二是面对一定数量的人力、物 力和财力资源,如何安排使用,使得完成的任务最多。实际上,这是一个问 题的两个方面,它们都属于最优规划的范畴。以下,我们列举线性规划问题 之若干实例,供读者研究。
1.运输问题 假设某种物资(譬如煤炭、钢铁、石油等)有 m 个产地,n
个销地。第 i 产地的产量为 ai(i=1,2,??,m),第 j 销地的需求
m n
量为b j (j = 1,2,?,n),它们满足产销平衡条件?a i ? ? b j 。如果产地

i?1

j?1

I 到销地 j 的单位物资的运费为 cij 试问如何安排该种物资调运计划,才能使 总运费达到最小?
设 xij 表示由产地 i 供给销地 j 的物资数量,则上述问题可以表述为
求一组实值变量 xij(i=1,2,?,m;j=1,2,?,n),使其满足:
? m

?? xij ? b j
? i?1

( j ? 1, 2,

?, n)

? n

?? xij ? a i (i ? 1, 2,
? j?1

?, m)




而且使:

? x ≥0
? ij
?

(i ? 1, 2,




m

?, m;




n

j ? 1, 2,

?, n)

z ? ? ? cij xij → min

i?1

j? 1



2.资源利用问题 假设某地区拥有 m 种资源,其中,第 i 种资源在规划
期内的限额为 bi(i=1,2,?,m)。这 m 种资源可用来生产 n 种产品,其中,
生产单位数量的第 j 种产品需要消耗的第 i 种资源的数量为 aij(i=1,2,?,

m;j=1,2,?,n),第 j 种产品的单价为 cj(j=1,2,?,n)。试问如何 安排这几种产品的生产计划,才能使规划期内资源利用的总产值达到最大? 设第 j 种产品的生产数量为 xj(j=1,2,?,n),则上述资源利用问题
就是: 在约束条件
? n
?? aij x j ≤b i (i ? 1, 2, ?, m)
? j? 1
?

? x j ≥0

( j ? 1, 2 ,

?, n )



下,求一组实数变量 xj(j=1,2,?,n),使
n
   Z ? ? c j x j → max
j? 1
  3.合理下料问题 用某种原材料切割零件 A1,A2,?,Am 的毛坯,现已 设计出在一块原材料上有 B1,B2,?,Bn 种不同的下料方式,如用 Bj 下料方 式可得 Ai 种零件 aij 个,设 Ai 种零件的需要量为 bi 个。试问应该怎样组织下 料活动,才能使得既满足需要,又使用去的原材料最少?
设采用 Bj 方式下料的原材料数为 xj,则上述问题可表示为:
在约束条件
? n

?? aij x j ≥b i (i ? 1, 2,
 ? j? 1
?

?, m)

? x j ≥0

( j ? 1, 2 ,

?, n )

下,求一组整数变量 xj(j=1,2,?,n),使得
n
  Z ? ? x j→ min
j?1
(二)线性规划数学模型 线性规划应用之实例还有很多,譬如生产布局问题,连续投资问题,等
等,不一一列举。从以上的例子可以看出,尽管它们表示的形式不尽相同,
但它们都具有以下共同的特征:(1)每一个问题都用一组未知变量(x1 ,
x2,?,xn)表示某一规划方案,这组未知变量的一组定值代表一个具体的方
案,而且通常要求这些未知变量的取值是非负的。
  (2)每一个问题都有两个主要组成部分:一是目标函数,按照研究问题 的不同,常常要求目标函数取最大或最小值;二是约束条件,它定义了一种 求解范围,使问题的解必须在这一范围之内。
(3)每一个问题的目标函数和约束条件都是线性的。 根据上述问题的三个基本特征,我们可以抽象出线性规划问题的数学模
型。它一般地可表示为: 在线性约束条件
n

? aij x j ≤( ≥,
j?1
以及非负约束条件

? )bi

(i ? 1,

2, ?,

m) (1)

x j ≥0( j ? 1, 2,

?, n) (2)

下,求一组未知变量 xj(j=1,2,?,n)的值,使
n
Z ? ? c j x j → min(max) (3)
j?1
  若采用矩阵记号,上述线性规划模型的一般形式可进一步描述为:在约 束条件
   AX≤(≥,=)b (1′) 以及 x≥0 (2′)
下,求未知向量 x=[x1,x2,?,xn]T,使得
Z=CX→min(max) (3′)
其中
b=[b1,b2,?,bm]T
c=[c1,c2,?,cn]
现代地理学中的数学方法的上一页 现代地理学中的数学方法的下一页
成为本站VIP会员VIP会员登录, 若未注册,请点击免费注册VIP 成为本站会员.
版权声明:本站所有电子书均来自互联网。如果您发现有任何侵犯您权益的情况,请立即和我们联系,我们会及时作相关处理。


其它广告
联系我们     广告合作     网站声明     关于我们     推荐小说     全部分类     最近更新     宝宝博客
蓝田玉PDF小说网致力于建设中国最大的PDF格式电子书的收集和下载服务!