医药统计中的方差齐性变换

来源:岁月联盟 作者:王小平 时间:2010-07-14

【摘要】    从方差非齐性数据处理中的变换的必要性入手,根据数据均值与方差之间的关系研究了总体分布已知时的方差齐性变换的一般方法,并利用Mathematica软件分析相应变换中参数与方差之间的图形,最后介绍了总体分布未知时的Box?Cox变换的一般原理。

【关键词】  方差齐性 数据变换

  Transformation for Homogeneity of Variance in Medicine Statistics

  Abstract  This article first discusses the  significance of homogeneity of variance, then  studies the general method of transformation  for homogeneity of variance on the relation between the   data mean and the variance when population distribution is known ,and it uses the Mathematica software to analyse the variety rules  between the parameter and the variance  in the corresponding transformation.  Finally ,it introduces the general principle of Box?Cox transformation when population distribution is uknown.

    Key words   homogeneity of variance; data transformation  

  1  方差齐性的意义

    方差分析是以效应的可加性、分布的正态性和方差的同质性为前提的,而实验数据可能近似满足或根本不满足这些前提。一般说来,方差分析对正态性具有稳健性,即偏态分布对方差分析的结果影响不会太大,特别是样本量较大时,由中心极限定理可知方差分析对正态性要求大大降低。而方差齐性对方差分析的影响相对比较敏感,并且这种影响不随着样本量增大而减少。但是当各组样本量接近相同或相同时,方差齐性对方差分析呈现某种稳健性:当各组样本量相同时,方差齐性对方差分析结果的影响大大降低,这时随着样本量增大,影响会进一步降低。相反,如果各组样本量相差太大时,方差齐性对方差分析结果的影响很大,这时随着样本量增大,影响会进一步加大。

    医药统计中常遇到异方差的数据,如服从对数正态分布、泊松分布或二项分布的总体,因此可通过数据处理,对试验数据进行适当的变换,使变换的数据可近似地看成来自正态、方差齐性的总体,然后再进行方差分析 。

  2  总体分布已知时的数据变换

    如果引起异方差性的数据的总体分布已知,这时可根据各处理内部的变异性与其均值的关系选择适当的变换,这种变换企图使均值与方差间相互独立,从而方差成为齐性,数据也接近正态分布。

    设随机变量x的均值E(x)=u,方差D(x)=g(u)是u的函数,假设经过变换y=f(x)后变量y的方差(常数),利用Taylor公式展开有:
    f(x)=f(u)+f?(u)(x-u)+o(x-u)(1) 则 D(y)=D[f(x)]≈D[f(u)]+[f?(u)]2·D(x-u)=[f?(u)]2·D(x)=[f?(u)]2·g(u)

  另由假设有D(y)=θ2,从而有[f?(u)]2·g(x)=θ2,一般地设[f?(u)]2·g(x)=θ2,于是由微分方程可以求出函数:

    f(x)=〖JF(〗θg(x)dx〖JF)〗=θ〖JF(〗1g(x)dx〖JF)〗(2)
也就是说随机变量x经过形如式(2)的变换y=f(x)后,其方差D(y)近似为常数θ2。

  2.1  总体服从泊松分布P(λ)

    单位面积中的菌落数、细胞计数方格的细胞数、单位时间中的放射次数等都属于泊松分布。

    设x~P(λ),则E(x)=λ=D(x),即g(x)=x,于是,f(x)=θ〖JF(〗1g(x)dx〖JF)〗=θ〖JF(〗1xdx〖JF)〗=2θx+c,此时取f(x)=x,即2θ=1,从而D(y)近似为常数14。

  根据方差D(ξ)=E(ξ2)-(Eξ)2,有D(y)=E(y2)-(Ey)2=E(x)-(Ey)2=E(x)-(Ey)2=λ-(∑∞k=0k·e-λ·λkk!)2Freeman和Tukey提出更复杂的变换f(x)*=x+x+12,利用Mathematica 画出它们的D?λ图形(见图1)。通过比较图1中的两条曲线可知,当λ>10时,变换x才与 λ无关;而变换y=x+x+12只需λ>3,其方差就接近常数14。

  2.2  母体服从二项分布

    设x~B(n,p),其中x表示kn,则E(x)=p,D(x)=pqn ,显然g(x)=x(1-x)n,于是f(x)=θ〖JF(〗1g(x)dx〖JF)〗=θ〖JF(〗1x(1-x)/ndx〖JF)〗=2θnarcsinx+c取f(x)=arcsinx,此时2θn=1,从而θ=12n,D(y)近似为常数14n。

    根据方差D(ξ)=E(ξ2)-(Eξ)2,有 D(y)=E(y2)-(Ey)2=∑nk=0(arcsinkx)2cknpkqn-k-(∑nk=0arcsinkx cknpkqn-k)2
    Bartlett对变换作了修正,f(x)*=arcsin14n x=0arcsinx      0

    反正弦变换适用于如发病率、感染率、病死率、受胎率等二项分布的资料,当p值接近0或100%时采用修正的变换。

  2.3  对数变换

    对数变换是医药统计中的一种常用变换,适用于数据的均值与标准差成比例的情形,此时,σ(x)=kE(x),即D(x)=k2E(x)2,从而g(x)=k2x2,从而g(x)=k2x2,因此 f(x)=θ〖JF(〗1g(x)dx〖JF)〗=θ〖JF(〗1k2x2dx〖JF)〗=θklnx+c表明经过对数变换f(x)=lnx后,方差近似为k2。

    如传染病潜伏期、产生一定反应的药物剂量或刺激物、按动物体重的剂量分布都属于对数正态分布,当潜伏期或剂量经对数变换后,则分布往往变为正态的,方差也变为齐性。

  3  总体分布未知时的数据变换

    对于总体未知时的数据,Box和Cox(1964)指出如何将y=xτ中变换参数τ和其他模型参数(总均值和处理效应)一起用极大似然法进行估计。这一方法是由对各个不同τ值对y(τ)=xτ-1ττ-1  τ≠0lnx    τ=0 进行标准的方差分析组成,其中=n∏x是观察值的几何平均值,τ的最大似然估计量就是使误差平方和最小,即SSE(τ)取最小值的τ的值。我们通常是画出SSE(τ)对τ的图形,然后由此图形读出使SSE(τ)最小的τ值。

    例  现有3组小鼠在注射某种同位素24h脾脏蛋白质中放射性测定值如下表。问芥子气、电离辐射能否抑制该同位素进入脾脏蛋白质?

    现在在某一区间取τ值,根据原始数据求出对应的y=xτ表,并对变换后的进行方差分析求出SSE(τ),列表如下。

    所以从图中观察得到当τ=0.5时,SSE(τ)最小,从而取变换y=x,对变换后的数据的方差分析结果如下:    
       
  根据方差分析结果可知,芥子气、电离辐射可以抑制该同位素进入脾脏蛋白质。

    综上所述,对于方差非齐性的数据进行统计分析时,尽可能选择样本容量相同或相近的大样本,然后根据总体的数据分布是否已知选择合适的变换,最后对变换后的数据进行方差分析,这样可提高方差分析的精确度。

【】
    1 明道绪,著.生物统计附试验设计. 第3版.农业出版社,2002,153.

  2 王万中. 试验的设计与分析. 第1版.华东师范大学出版社,1997,60~61.

  3 赵松山,白雪梅. 浅谈方差稳定性的变量变换.江西财经大学学报,2001,4:18~19.