闲鹤野云
第4楼2009/04/10
分类方程
判别分析应用的另一个主要目的是对观察对象进行预测性分类。一旦模型确定即求出判别方程,我们如何预测某一观察对象属于哪一组呢?
先验与后验预测。在详细描述不同的预测程序之前,我们必须明确先验与后验预测显然存在差异。如果我们利用某一数据集来估计最能够判别各组间的判别方程,然后,利用同一数据来估计我们预测的准确性如何,那么我们就夸大了概率。一般说来,当预测的对象不是用来建立判别方程的那些观察对象时,结果总是不太满意。也就是说,后验预测总是比先验预测结果好(预测将来发生的事情,先验是根本不知道会发生什么回事;对于已发生的事情,寻找预测的方法还是比较容易的)。因此考虑到对新观察对象正确判定率,我们不能对用于建立判别方程的数据集过于自信;而应当收集新资料验证判别方程的使用价值(即先验预测)。
分类方程。分类方程与判别方程不要混淆。分类方程是用来判定每一观察对象最有可能属于哪组的机率。分类方程数与组数一样多。每一方程都可以用下面的公式计算每一对象在每组中的分类分:
Si = ci + wi1 × x1 + wi2 × x2 + ... + wim × xm
公式中下标i 表示组别;下标1, 2, ..., m 表示 m个变量;ci 是第i 组的常数,wij是第j个变量计算第i 组分类分时的权重因子;xj 是观察对象第j个变量的观察值。Si是最后的分类分。
我们可以利用分类方程直接计算新观察对象的分类分。
观察对象的分类。一旦计算出了观察对象分类分,就很容易判断该对象的类别了;通常我们将观察对象归到最高分类分的那一组中去(除非先验分类概率相当大,见下文)。如果利用毕业前1年调查的几个变量来研究高中生毕业后的职业/教育选择(如上大学或找工作),我们可以利用分类方程预测每个学生毕业后的倾向。但我们同时也希望了解学生做这种选择的概率。这些概率称为后验概率,可以通过计算得到。但为了理解这些概率是如何求出的,我们先看一看所谓的Mahalanobis 距离。
Mahalanobis 距离。通常Mahalanobis 距离是两个或多个相关变量所定义空间中两点间的距离。如果两变量不相关,我们可以将其绘成标准的二维散点图,两点间的Mahalanobis 距离此时就等于Euclidean 距离;就好象是用直尺在测量两点间距离。如果有三个不相关的变量,我们同样可以简单地用直尺(三维图中)测量点间距离。如果超过3个变量我们就不能在图中表示距离了。同样,如果变量相关,可认为图中每条轴之间是非垂直的,也就是轴的位置相互之间不存在一定的角度。这种情况下,简单的Euclidean 距离就不适用,然而Mahalanobis 距离却可以解释这种关联。
Mahalanobis 距离与分类。样本中的每一组中,我们都可以在模型中的变量所定义的多元空间中确定一点,这一点代表了所有变量的均数。这些点称为组中心。我们可以计算每一对象到各个组中心的Mahalanobis 距离。我们可以将观察对象归入距离最小的组中,即Mahalanobis距离最小的组中。
后验分类概率。使用Mahalanobis 距离进行分类,我们可以推导出概率值。观察对象属于某组的概率与其到组中心的Mahalanobis距离成比(并不是一个确切的比例,因为我们假设每一中心周围数据呈多元正态分布的)。因为我们是从观察对象在模型中各变量值的基础上计算观察对象的位点,所以这些概率称为后验概率。总之,后验概率是在了解其他变量值的基础上将观察对象归入特定组的概率。STATISTICA可以自动地计算所有观察对象的后验概率。
先验分类概率。进行分类还要考虑另一个因素。有时我们事先知道某组中观察对象较多;对象归入该组的先验概率比较高。例如我们事先知道60%的毕业生通常上大学(20%上专科学校,20%找工作),我们就得相应地调整预测概率:加上先验概率而保持其他不变,因为学生选择上大学比另外两种选择的机率大。你可以定义不同的先验概率相应地调整对象的分类概率(后验概率)。
实际中,研究者需要了解样本中各组观察对象数是总体分布的真实反映,还是仅仅为样本程序的结果。我们可以设置与样本各组对象数成比例的先验概率,先验概率设置对预测的准确性影响较大。
预测总结。判断当前分类方程对对象分类的好坏,通常的结果是分类矩阵。分类矩阵显示了正确分类的对象个数以及错判的对象个数。
注意事项。 强调一下,对已发生的事进行后验预测不难。使用构建分类方程的观察对象想要达到准确分类的目的是比较少的。为了了解当前分类方程的分类状况,必须对其他(先验)的对象进行分类,即没有用来估计分类方程的新对象。可以将这些观察对象纳入到或排除出计算,得到“旧”对象和“新”对象的分类矩阵。只有新对象的分类情况才可以评价分类方程预测有效性;旧对象的分类情况仅仅提供了鉴别极端值以及鉴别分类方程无法解释的区域的一种有效的诊断工具。
总结。总的说来,判别分析是十分有用的工具,(1)用于帮助研究者寻找区别各组差异的变量,(2)将对象较准确地判入各组。