论证候研究中变量聚类结果的诠释

来源:岁月联盟 作者: 时间:2015-06-05

  1.4  类1的含义

  在分析数据时,麻氏等[1]用的是SAS软件。由于他们未提及软件设置,所使用的变量相似系数应该是SAS默认的Jaccard相似度,而所使用的变量类相似系数应该是SAS默认的平均相似系数。所以,类1是一个由口苦情况等12个症状变量组成的集合,其含义是这12变量两两之间的Jaccard相似度平均不低于某个阈值,即口苦等12个症状两两同步出现的频率平均不低于某个阈值。

  2  证候的含义
   
  证候是一个具争议性的概念。但是,在诠释变量聚类结果时人们所使用的证候其意义基本是统一的、清楚的。例如,在把类1诠释为肝胆湿热证时,“肝胆湿热证”对应由口苦等12个症状(事件)组成的症状群,其意义如下:①如果这些症状全部(或其大多数)在某患者身上同时出现,那么该患者有肝胆湿热证;②如果这些症状中许多不在一患者身上出现,那么该患者无肝胆湿热证。

  3  变量聚类结果的诠释
   
  现在我们以类1为例来讨论变量聚类的诠释问题。在文献[1]中,类1被诠释为肝胆湿热证。这是由于类1被认为是由“有口苦”等12个症状事件组成的集合,进而其意义被理解为口苦等12个症状同时出现。在把类1诠释为肝胆湿热之后,进一步得出结论:肝胆湿热证是肝胆病中的中医证候之一。这就是说,肝胆湿热证存在于研究涉及的739个样本中,即有一部分样本同时包含口苦等12个症状或其大多数。为方便讨论,我们将这一段文字涉及的几件事按逻辑顺序整理如下:①把类1认为是由“有口苦”等12个症状事件组成的集合;②把类1的意义理解为口苦等12个症状同时出现,从而把它诠释为肝胆湿热证。③在②的基础上,得出肝胆病中有肝胆湿热证的结论,即有一部分样本同时包含“口苦”等12个症状或其大多数。
   
  根据第2节的结论,类1是症状变量的集合而不是症状事件的集合。所以,上述第1步是不正确的。再根据第2节的结论,类1的意义不是口苦等12个症状同时出现。实际上,句子“口苦等12个症状同时出现”本身是一个病句。显然,口苦等12症状不可能在每一个样本中都同时出现。那么它们究竟在哪些样本中出现呢?句子没有指明,因此意义不清。所以,第2步也是错误的。最后,第3步从“口苦等12个症状同时出现”这个含义不清的命题推出“有一部分样本同时包含口苦等12个症状或其大多数”。这是不合逻辑的。
   
  上述三步都有问题。那么有没有可能不通过它们,而直接从类1的含义出发得出“有一部分样本同时包含口苦等12个症状或其大多数”这个结论呢?回答是否定。类1的含义只是说口苦等12个症状两两以一定频率在样本中同时出现。这并不意味12个症状同时出现在某些样本中。在逻辑上,从两两双边关系是无法推出多边关系的。打一个比方:青年A与一对好朋友B和C谈三角恋爱,A和B常常一起出现,A和C常常一起出现,B和C常常一起出现,但这些并不意味着他们三人会同时出现。

    上面的讨论以文献[1]为例。但是,所指出的问题是其它用变量聚类研究证候分布工作共有的。问题的根源在于研究目的与研究方法不匹配。这些工作是要通过分析一组关于西医某病种的样本,揭示该病种中中医证候的分布规律,这其实是揭示该组样本中中医证候的分布情况。简而言之,这就是要揭示样本某方面的特征和性质。变量聚类方法只考虑变量间的关系,完全不分析样本的特征和性质。既然如此,它又怎么能揭示样本中中医证候的分布规律呢?

  4  结束语
   
  变量聚类所得到的不是症状事件的类,而是症状变量的类,其含义不是一些症状同时出现于一些患者,从而不能诠释为证候。变量聚类不分析样本的特征和性质,从而不可能揭示证候在样本中的分布规律。

【参考文献】
    [1] 麻晓慧,王弘午,何裕民,胆病症状学聚类研究[J].中国中医基础医学杂志,2000,6(12):59-61.

  [2] 张尧庭,方开泰.多元统计引论[M].北京:科学出版社,1999.32-35.

图片内容