负二项分布的性质特征及在流行病学研究中的应用

来源:岁月联盟 作者:韩新焕 时间:2010-07-13

【摘要】  给出了负二项分布的分解定理,进一步研究了负二项分布的有关性质及参数 的无偏一致估计,以及在流行病学该分布的生物学意义。

【关键词】  负二项分布; 无偏一致估计; 应用

负二项分布是概率论中常用的重要的离散型随机分布,它在医学中主要用于聚集性疾病及生物、微生物、寄生虫分布模型等的研究。具体地说,当个体间发病概率不相等可以拟合负二项分布,如单位人数内某传染病的发病人数,某地方病、遗传病的发病人数等,这些均可通过负二项分布进行处理。本文从概率论的角度阐述负二项分布的性质及参数 的最小方差无偏估计,并且以该分布在流行病学中应用为例证讨论了其生物学意义。

    1  负二项分布的概率模型

    负二项分布又称帕斯卡分布(Pascal),它有两种基本模型[1]:

    模型Ⅰ:假定每次试验可能的结果只有两个:可归结为成功或失败,每次试验之间是独立,每次成功的概率均为 π,直到恰好出现r(指定的一个数)次成功所需试验次数X,则X的概率分布为:

    p(X=K)=πCr-1k-1πk-1(1-π)k-r=Cr-1k-1π-(1-π)k-r

    k=r,r+1…(1)

    模型Ⅱ:假定每次试验可能的结果只有两个:可归结为成功或失败,每次试验之间是独立,每次成功的概率均为π ,试验进行到r次成功为止,记X为试验共进行的次数,则X的概率分布为[3]:

    p(X=k)=Cr-1k+r-1πk(1-π)k    k=0,1,2,…(2)

    此分布的概率是πr(1-(1-π))-r  的幂级数展开式的项,负二项分布由此而得名

    记作 X~f(k,r,π) , 或 X~NB(r,π)

    一个重要的特例是   r=1。   这时(2)成为

    p(X=k)=π(1-π)k    k=0,1,2,…(3)

    称为几何分布。

    2  性质特征

    为研究负二项分布的性质,我们先给出一个重要的结论:

    引理: 设X~NB(r,π),则其特征函数为ψx(t)=πr(1-(1-π)eit)-r

    证明: ψx(t)=E(eitx)=∑∞i=0Cr-1i+r-1πr(1-π)i eitr

    =∑∞i=0Cr-1i+r-1πr((1-π) e)rti

    =πr∑∞i=0Cr-1i+r-1((1-π) ert)i

    =πr(1-(1-π)eit)-r

    定理1  设: X1,X2,…,Xr(3)的iid样本,如果

    X=∑ri=1Xi, 则X=∑ri=1Xi~NB(r,π)

    证明:因为X1,X2,…,Xr独立同分布,又有引理知 X=∑ri=1Xi的特征函数为:

    φ(t)=πr(1-(1-π) eit)-r

    =πr∑∞k=0(-r)(-r01)…(-r-k+1)k! ((1-π) eit)k(-1)keitr

    =πr∑∞k=0(r+k-1)!(r-1)!k! (1-π)k eit(k+1)

    =∑∞k=0πr(1-π)k eit(k+r) Cr-1r+k-1

    这正是 p(X=k)=Cr-1r+k-1(1-π)k 的概率分布

    则 X=∑ri=1Xi~NB(r,π)

    定理2     设:X=X1,X2,…,Xn)是(1)的iid样本,则T(X)=∑ni=0Xi~NB(nr,π),则有

    p(T=k)=Cnr-1k-1πnr(1-π)k-nr    k=nr,nr+1,…(4)

    证明:   设ξ 的特征函数为f(t) ,那么

    f(t)=∑∞x=reitxCr-1N-1πN(1-π)N-r =πeit1-(1-π)eitr

    因为x是ξ 的iid样本,所以Xi 的特征函数fi(t)=f(t),i=1,2,…,n

    有特征函数的性质得T的特征函数为:

    ∏ni=1fi(t)πeit1-(1-π)eitr

    由于特征函数与概率分布唯一对应,所以T~f(k,nr,π) ,其概率分布便是(4)。

    定理3  设:X=(X1,X2,…,Xn)是(1)的iid样本,则

    T(X)=nr-1∑ni=1Xi-1, 则它是π 的最小方差无偏估计。

    证明: 由定理2可知

    E(T(X))=∑∞k=nrnr-1k-1Cnr-1k-1πnr(1-π)k-nr

    =π∑∞k-1=nr-1 C(nr-1)-1(K-1)-1 πnr-1×(1-π)(k-1)-(nr-1)

    =π

    所以T(X)是π 的无偏估计。

    又由于E(T(X))=π ,有切贝晓夫不等式,对?ε>0, 有

    p(|T(X)-π|≥ω)≤V(T(X))ε2      而

    V(T(X)=∑∞k=nrnr-1k-12Cnr-1k-1πnr(1-π)k-nr

    =π2 ∑∞k=nrnr-1k-1×k-2nr-2-1×C(nr-2)-1(k-2)-1πnr-2(1-π)k-nr

    =π2 ∑∞k=nr1(k-1) (k-nr)(nr-2)×C(nr-2)-1(k-2)-1πnr-2(1-π)k-nr < π2nr-2  ∑∞k=nr C(nr-2)-1(k-2)-1πnr-2(1-π)(k-2)-(nr-2)

    =π2nr-2

    所以,对?ε>0, 都有linn→∞p(|T(X)-π|≥ω)=0 ,可见T(X)是π 的一致估计。

    又因为E(T(X))=π ,根据 Lehmann?scheff定理,π 的最小方差无偏估计必存在,而T(X)=nr-1 ∑ni=1Xi-1,只依赖T(X)= ∑ni=1Xi , 即 T(X)=nr-1 ∑ni=1Xi-1 是π 的一致最小方差无偏估计。

    3  负二项分布的最可能数和概率的最大值

    如果X~k=p(X=k)=Cr-1k-1πrqk-r  k=r+1,r+2,…,其中q=1-π,则  当r-q1-q不为整数时,k0=r-q1-q时为负二项分布的唯一最可能的数,即 k=k0时,p(X=k0)达到最大值。

    证明:∵  pkpk-1=Cr-1k-1πrqk-rCr-1k-2πrqk-1-r=q(k-1)k-r

    =>1时,kpk-1,随k增大,概率增大

    <1时,k>r-q1-q, pk

    =1时,k=r-q1-q, pk=pk-1

    ∴  当r-q1-q不为整数时,则存在唯一k0=r-q1-q  满足  r-q1-q-1< k0

    使  pk0-1< pk0>pk0+1,从而k0=r-q1-q是唯一最可能的数,即 k=k0时,p(X=k0)达到最大值。

    4  流行病中实例分析

    假设血吸虫成虫随机地分布于人群中,即所有的个体均有同等的机会获得新感染,将致成虫在人群中呈Poisson分布。然而,由于暴露的危险性不等、易感性不一致及可能存在的获得性免疫等将导致感染的机会不等,而出现成虫集中在某一部分的人群中。一些可以直接通过驱虫获得人群虫负荷分布的资料及某些尸检资料均提示蠕虫的成虫(如蛔虫、钩虫、曼氏血吸虫、鞭虫)在人群中的分布具有聚集块。聚集块内病例个体的平均数又服从 Γ?分布。即:病例的数目H服从均数为λ 的poisson分布,由于λ 是变化的,假定其概率分布可用Γ?分布表示。于是对于给定的λ ,条件概率为:

    p(H=h|λ)=λhe-λh!,   h=0,1,2,…,λ>0

    此时λ 的概率密度函数为:

    f(λ)=βαΓ(α) λα-1e-λβ,λ>0,其中α>0,β>0 都是参数。当α和β 变化时,可产生一族分布曲线。可以证明,Γ?Poisson 分布就是负二项分布。

    因为  ,ex= ∑∞k=0 xkk!

    H是离散型随机变量, λ是连续型随机变量,H的边际概率函数是:

    p(H=h)=〖JF(Z〗∞0e-λλhh! βαΓ(α)λα-1eλβd λ〖JF)〗

    =βαh!Γ(α) 〖JF(Z〗∞0λα+h-1eλ(1+β)d λ〖JF)〗

    =βαh!(k-1)! (α+h-1)!(β+1)h+α

    =Chh+α-1 (ββ+1)α (1-ββ+1)h

    =Chh+k-1 πk (1-π)h, (j=0,1,2…)

    其中,0<π<ββ+1<1, k=α,   此即为负二项分布。

    5  讨论

    负二项分布是当poisson中参数λ服从Γ 分布时所得的复合分布,分布中的参数λ 是不定的变化的,且其变化是有的。呈现的特点是病例聚集群内病例个体的密度服从Γ 分布,病例个体间的流行病学联系与Γ 分布有关,由于Γ 分布的概率密度函数及图形为:

    f(x)=βαΓ(α) xα-1e-βx,  x>0

    0,        x≤0

    因此,负二项分布来源于poisson分布,它改进了poisson的等概条件,如在流行病研究人群中的患病数时,则单位人数中的个体数是无穷大,且患病率不应太大[4],若以负二项分布进行拟合。再应用以上证明的负二项分布的性质、对其参数π 使用最小方差无偏估计,将对负二项分布的应用起着重要作用。

【】
  1 陈希孺. 概率论与数理统计.合肥:出版社,2000. 50~205.

2 李宝月. 负二项分布抽样中患病率无偏估计.卫生统计,2007,459~463.

3 陈希孺. 高等数理统计.合肥:中国科学科技大学出版社,1999,1~190.

4 陈峰. 论负二项分布的意应用条件.中国卫生统计学,1995,4:21~22.