网站首页  词典首页

请输入您要查询的字词:

 

字词 聚类分析
类别 中英文字词句释义及详细解析
释义
聚类分析

聚类分析ju lei fenxi

对多指标的变量进行分类或对变量的多个指标进行分类的统计分析方法。聚类时要使同一类的变量尽量相似, 不同类的变量尽量相异。聚类之前应该先规定好变量之间的相似性、类之间的相异性的度量方法。常用的相似性度量是各种距离,或各种相关系数。聚类与一般分类的不同点是,在聚类前并不明确分类的具体标准和分作几类。分类标准是在分析过程中建立的, 分成几类则是最后的定量与定性相结合的分析的结果。

☚ 判别分析   正交设计 ☛

聚类分析

数理统计的一个内容。在自然科学和社会科学的研究中,往往需要根据某些对象的各种指标,将这些对象划分成若干类,这就是一个聚类问题。用数理统计的方法来聚类称为聚类分析。在生物、医学、地质、计算机辅助诊断中应用较广。

聚类分析

把处理对象按其特性加以区分归并分类研究的方法。

聚类分析

聚类分析

聚类分析又称集群分析,是按“物以类聚”原则研究事物分类的一种多元统计分析方法。设对n个观察单位各观察了m个变量值,得原始数据如表1。

表1 原始数据格式

观察单位变 量
X1X2Xm
a1
a2
X11
X21
X12
X22

X1m
X2m
anXn1Xn2Xnm

当各观察单位或各变量所属类别未知时,可从测得的各变量值,经适当运算后将n个观察单位或m个变量分成若干类,比较相似的归并在同一类,使同类的内部差别较小,而类与类之间的差别较大,这就是聚类分析。
类型 (1) Q型分析。按表1数据对观察单位进行聚类称Q型分析。(2) R型分析。按表1数据对变量进行聚类称R型分析。
聚类指标 衡量变量间或观察单位间相似程度的指标有下列两大类:
(1)相似系数。常用于对变量聚类。
计量资料中Xi与Xj的相似系数可用相关系数表示。

式中lii、ljj分别为Xi、Xj的离均差平方和,lij为Xi与Xj的离均差积和。
等级资料可用列联系数表示。见条目“计数资料的相关分析”。若为R×C表资料(Xi取R个水平,Xj取C个水平),观察总频数为n,可先求得x2值,再由式(2)求列联系数Pij

若为2×2表资料(Xi与Xj各只有两个水平),则可用式(3)计算点相关系数(亦称列联系数)rij


相似系数的绝对值介于0到1之间。越接近1,则Xi与Xj之间越相似,宜聚在同一类; 越接近0,则Xi与Xj之间越不相似,不宜聚在同一类。
(2)距离。常用于对观察单位聚类,适用于计量资料。常用的有绝对值距离及平方根距离。ai与aj之间的绝对值距离为


平方根距离为

距离越小,表明ai与aj间越相似,宜聚在同一类。
聚类方法 常用的有:
❶系统聚类法。先把N个聚类对象(观察单位或变量)看成N类,然后逐步合并成适当的类。
❷逐个聚类法。先把被聚对象进行初始分类,然后逐个加以修正,得最终聚类。
❸有序聚类法。按被聚单位的原有次序,将它们截成几段,即分成几类,但各段之间是互相衔接的。作法是先把n个被聚单位看作一类,然后再逐个分割成适当的类。此法只适用于对观察单位聚类。
聚类分析与判别分析的联系 二者同属分类问题,但判别分析要求事先知道各类总体情况才能判断新个体的归属。当各类总体不清楚时,可先用聚类分析法进行聚类,然后建立判别函数,再对新个体判别其归属。
聚类分析与回归分析的联系 在回归分析中,当自变量之间的相关性太大时,回归效果就不好;另外,如何挑选有代表性而且作用较大的指标,也并不容易,聚类分析有助于解决这些问题。一般可先将自变量聚类,然后从每一类中,挑选最有代表性的指标作为自变量。在建立回归方程时也常对观察单位先聚类,然后每一类各自建立回归方程,它比一个总的回归方程的稳定性要好。
例1 某单位研究牙槽弓的分型,测得了609例全口缺牙病人的牙槽弓特征资料,见表2。每例病人测量了能反映牙槽弓形状的22个特征值(变量),记为X1,X2,…X22。显然不可能也不必要用22个变量来分型。如果全用上,即使每个变量只分2级,也将有222 = 4194304种型号,完全不切合实际。试用聚类分析方法找出能反映上下牙槽弓形状的一些典型变量,作为分型的依据,据以定出不同类型的牙槽弓。
(1)将原始资料整理成表2形式。

表2 609付牙槽弓的22个特征值(单位:mm)


牙槽弓编号变 量
X1X2X3 X21X22
1
2
3
32.50
41.00
45.50
34.00
40.50
43.00
34.50
41.00
43.00


38.00
39.00
38.00
31.00
37.50
34.00
60925.0033.0039.0028.5034.00

(2)用式(1)求出任两个变量Xi与Xj的相关系数rij (见表3)作为聚类指标。

表3 22个变量两两间的相关系数(节录)

变量变 量
X1X2X3X6X15X21
X20.82        
X30.680.87       
X40.520.720.89      
     
X160.410.410.410.310.91  
 
X21
X22
0.90
0.36
0.72
0.36
0.56
0.34

0.41
0.89

0.43
0.44

0.37

(3)对变量进行聚类。首先将22个变量看成22类。这时任两类间的相关系数就是任两变量间的相关系数,如表3所示。其次,从表3中挑出一个最大的相关系数0.91,将相应的第15、16两类合并成一类,记作第23类,这样就把原来的22类合并成为21类。再计算其余各类与新类(第23类)的相关系数。制出21类两两间的相关系数表(类似表3,从略),从表中又挑出最大的相关系数0.90,并将相应的第1、21两类再合并成一类,记作第24类,这样就把资料合并成20类。再计算新类(第24类)与其余各类的相关系数,列出20类两两间的相关系数表(类似表3,从略),从表中挑出最大的相关系数0.89,并将相应的第3、4两类再合并成一类。如此一直下去,直至合并成只有一类为止。整个聚类过程及结果可用图表示。


聚类图


(4)对聚类图进行分析,并结合临床知识,将22个变量聚成下列三类较合适。

I 类X12 X13 X15 X16 X17 X18 X19 X20;
II类X1 X2 X3 X4 X5 X11 X21;
III类X6 X7 X8 X9 X10 X14 X22。

从临床角度来看,第Ⅰ类变量主要反映上下牙槽弓的深度与长度(由聚类图可见,它又可分成两亚类,其中X12,X13,X17,X18反映上牙槽弓,其余反映下牙槽弓);第Ⅱ类变量主要反映上牙槽弓的宽度;第Ⅲ类变量反映下牙槽弓的宽度。
(5)在聚得的每类变量中,各挑出一个有代表性的变量作为典型变量。为此计算每一个变量与其同类的其他变量的决定系数r2 (即相关系数的平方)的均数2。

式中k为该类的变量个数。挑选2值最大的Xi作为该类的典型变量。本例的典型变量为第Ⅰ类中的X13、第Ⅱ类中的X2、第Ⅲ类中的X8,故以这三个变量作为分型特征。再经过一些必要的数学处理,就可将牙槽弓分成若干型。
例2 为了研究儿童生长发育的分期,调查了某县1253名1月~7岁男孩的身高(cm)、体重(kg)、胸围(cm)及坐高(cm)四项特征(变量),试根据这些特征的不同变化速度将1月~7岁分为几个生长发育阶段。
本例与例1不同,须考虑分类对象的秩序,它是一种有序资料的聚类,分析时先将出生后1足月到7足岁这段时期预分为19个阶段。然后,以出生时的各特征值为基础分别求出第一段中各变量的月平均增长率,其后各段则以前段的各特征值为基础分别计算出每段中各变量的月平均增长率。结果见表4。

表4 1253名1月~7岁男童的生长发育情况


如果按单变量分期,不难凭直观进行聚类,结果在表4中已列出。但不同变量的聚类结果不同,情况错综复杂。大致可聚成四类,第1段“1月”,其中各项特征的增长率都相当高,应自成一类。第10段以后各特征的增长率都比较缓慢也可以聚成一类。但第2~9段,各特征表现形式不一,如何划分很难作出明确判断,这就需要用有序观察单位聚类法将各特征综合加以考虑来进行聚类。现用式(5)的平方根距离作为聚类指标,按最优分割法可聚为八类,再参照专业知识,将八类并成四个阶段,即:
第一阶段 1月~ 增长率最高,
第二阶段 2月~ 增长率次之,
第三阶段 1岁~ 增长率显著减缓,
第四阶段 2.5~7岁 增长率更加减缓。
☚ 判别分析   因子分析 ☛

聚类分析cluster analysis

根据理论或事物的实际情况对其进行分类以简化事物之间相互关系的统计方法。其原则是把性质相近的事物归为一类,使同类的事物有高度的同质性,不同类的事物之间有高度的异质性。可用来对案例进行分类,也可用来对变量进行分类,前者称为Q型聚类,后者称为R型聚类。常用的聚类方法为层次聚类法( hierarchical cluster procedures)和迭代聚类法(iterative partitioning proce-dures)。

聚类分析

聚类分析cluster analysis

将样品或变量进行分类的多元分析方法。主要通过数据建模简化数据系统和过程。基本思想是: 研究对象(样品或指标)之间存在程度不同相似性(或亲疏关系),根据研究对象的多个观测指标,具体找出一些能够度量其相互间相似程度的统计量——主要以对象间距离来衡量,以这些统计量为划分类型的依据,把相似程度较大的样品(或指标)聚合为一类,把另外一些彼此间相似程度较大的样品(或指标)又聚合为另一类,直到把所有对象聚合为一大类为止。分为Q型聚类和R型聚类。常用方法有系统聚类、动态聚类、分解聚类和有序样品聚类等。常用统计软件有SPSS、SAS等。

☚ 多层线性模型   Q型聚类 ☛
聚类分析

聚类分析

多元分析的一种。将样品或变量进行分类的统计方法。基本原理为: 直接比较各事物的性质,相近的归为一类,性质差别较大的分成不同的类别,即同类事物性质相差较小,异类性质相差较大。常用的聚类分析有两类: (1) Q型聚类,即对样品或具体事物进行聚类,通过样品间的距离大小进行聚类;(2) R型聚类,即对变量进行聚类,通过变量间的相关或相似程度进行聚类。常用的聚类方法有系统聚类、动态聚类、分解聚类和有序样品聚类等。

☚ 因素分析   推论统计 ☛
00000880
随便看

 

文网收录3541549条中英文词条,其功能与新华字典、现代汉语词典、牛津高阶英汉词典等各类中英文词典类似,基本涵盖了全部常用中英文字词句的读音、释义及用法,是语言学习和写作的有利工具。

 

Copyright © 2004-2024 Ctoth.com All Rights Reserved
京ICP备2021023879号 更新时间:2025/8/12 5:42:44