药物治疗抑郁症随机双盲试验基线均衡的实证研究

来源:岁月联盟 作者: 时间:2010-07-12

             作者:闫岩 华琳 张带荣 傅鹰  

【摘要】    目的:了解药物抑郁症随机对照双盲临床试验中两组群基线指标的均衡情况。方法:通过《数字图书馆》中的CNKI期刊全文库检索,描述两组群基线指标差别分布的情况,行符号检验和Meta分析等确定差异的统计学意义。结果:在入选的82项试验中,两组群的病例数、年龄、性别比和病程病期的差别分布比较均衡,而NAMD值的分布似不均衡。符号检验和Ridit检验定性分析显示,试验组HAMD基值大于对照组的研究数目多于对照组大于试验组的研究数目,两组群的差别分布的差异具有统计学意义。Meta分析定量分析显示,试验组群HAMD基值比对照组群大0.10,95%可信区间0.047~0.153。结论:试验组群与对照组群的HAMD基值存在不均衡现象;随机双盲临床试验也可能存在基线不匀的情况。

【关键词】  偏倚 基线 基线资料 抑郁症 随机对照试验 双盲试验 实证研究 Meta分析 循证医学

  在随机对照双盲临床试验中,基线不匀可能是造成试验结果偏倚的原因之一。 对一项随机双盲临床试验中的试验组与对照组的基线指标值(干预临界前的病情严重度、人口统计学等可能影响预后的指标的值)进行比较和统计学分析极少显示两组间存在显著性差异。 然而,对一类随机双盲试验的试验组群与对照组群的基线指标值进行描述、比较和统计学分析,或许可以发现一些问题。 通过对国内已发表的药物治疗抑郁症的随机对照双盲临床试验中试验组群与对照组群的基线情况,包括病例数、年龄、性别比和汉密尔顿抑郁量表(HAMD)基值等基线情况的比较和分析,可从一个方面评价双盲试验群的质量,并探索可能引起结果偏倚的某些因素。

  1  资料与方法

  1.1  文献入选和排除标准

    入选标准:中文的药物治疗抑郁症或抑郁障碍的随机对照双盲临床试验;两种方案比较的试验;以HAMD量表测评为主要观察指标的试验;1994~2005年的文献。

    排除标准:未明示随机分配病例的文献;未明示为双盲操作的试验;除1:1配比外,未明示配置比例的文献;3组或3组以上的研究,但其他组为开放性研究时除外;自身对照研究;没有分别介绍两组的HAMD基线均值的文献;分别介绍病例剔除前后两组的HAMD基线均值(4组均值)的文献;以安全性评价为主要指标的文献;亚组分析或再随访类文献;已纳入的多中心试验的分点试验;国外的文献;明显的摘要类文献;试验组的干预为非药物措施的文献。

  1.2  收集文献的方法

    数据库:《中国医院数字图书馆》(192.168.200.235)中CNKI期刊全文库。检索式: 抑郁(关键词)AND双盲(关键词)OR 双盲(摘要)。2006年3月实施检索。

  1.3  分析的内容和方法

    选择两组的病例数目、年龄均值、男女性别比、病程病期和HAMD值(不对HAMA值)作为分析的基线指标。

    记录试验组各个基线指标大于、等于和小于对照组的试验数目,描述两组基线均值或比值差别分布的情况,并进行直观分析。对直观印象可疑的基线指标,采用符号检验(sign test)分析两组差别的统计学意义。对符号检验显示具有统计学意义的指标,进行差别分布的Ridit分析。 对试验组与对照组的HAMD基线均值,采用定量资料的Cochran法进行Meta分析(经异质性检验齐性一致,故采用固定效应模型)。

  2  结果

  2.1  检索和收集结果

    检索到128篇文献(6篇无法读取全文),其中达标文献82篇, 但有2篇没有介绍HAMD基值的标准差。剔除了分点试验5篇,4组均值的1篇。

  2.2  两组基线均值或比值差别分布的分析

  2.2.1  直观印象 

  在82篇或项随机对照双盲临床试验中,分别介绍了试验组与对照组的年龄、男性或女性人数、病程或病期的有70,65和48篇(表1)。对于病例数、年龄、性别比和病程病期基线指标,试验组有关值大于对照组的研究数目(n+ )与试验组小于对照组的研究数目(n-)(差别分布)比较均衡,但两组的HAMD值的差别分布似不均衡,见表1。表1  两组群基值差别分布的情况(略) 注:性别比:男女病例数之比;n+:试验组均值或比值大于对照组的试验数;n=:两组相等的试验数; n-:对照组大于试验组的试验数。老卒癌它:老年、卒中、癌症和其它疾病患者伴发的抑郁。

    在明示了试验特点的文献中,多中心、国产药(试验组)类研究的差别分布似不均衡,而老年、卒中、癌症和其它疾病伴发抑郁类研究的分布出现反向,但数据均较少。另外,16,30和108号试验两组数据的差别偏大,见表2。表2  药物治疗抑郁症双盲试验两组的例数和HAMD基值(略)

  2.2.2  符号检验
 
  将表1中HAMD基值(n+和n-)的数据代入配对资料符号检验的简便公式:

    χ2=[|n+-n-|-1]2 / (n+ + n-)
=(52-28-1)2  /(52+28)= 6.6125

    大于χ2(1,0.02)=5.412(P<0.05),即试验组HAMD基值大于对照组的研究数目(n+)多于对照组大于试验组的研究数目(n-),差异具有统计学意义。按照上述方式得到两组年龄的χ2值为1.4925,小于χ2(1,0.05)=3.841,没有统计学意义。

  2.2.3  Ridit检验 

  以性别比与病程病期合计的差别分布值(54,4,55)相应的标准R值有:0.2389、0.4956和0.7566。计算两组群HAMD基值差别分布的R值,RHAMD为0.4219,进行显著性检验有:

    u=|0.5-RHAMD| / [(n1+n2) / (12n1n2)]1/2=|0.5-0.4219| /[(113+82) / (12×113×82)]1/2   =3.47581

    大于2.56, 两组群差别分布的差异具有统计学意义(P<0.01)。

  2.3  HAMD基值Meta分析

    以w,d,s 分别表示权重、效应大小(均值差)和标准差(两组合并的标准差si),且将表2数据代入公式wi=n1i*n2i)/(n1i+n2i),si=[((n1i-1)s1i2 +(n2i-1)s2i2)/(n1i+n2i-2)]1/2,di=(x1i-x2i)/si计算各项研究相应值后,进行Meta分析的合并有:

    ∑wi=1403.33,∑widi=140.85,∑wid2i=186.02

    除2项没有标准差数据(0)的研究以外,共有80项研究,HAMD基线的加权均数差和方差分别为:

    =140.85140.33=0.10
    S2d=186.02-(0.1)2×1403.331403.33=0.123

    由于有80项研究,所以

    S2e=4×801403.33(1+0.128)=0.228

    一致性检验(齐性检验)的结果为:

    χ2=80×0.1230.228=43.158<χ2(79)=101.88,P>0.05
    故采用固定效应模型,

    S =1/1403.33=0.027,

    的95%可信区间为:

    0.1±1.96×0.027=0.047~0.153

    由于95%的可信区间不包含0,所以拒绝检验假设,即认为试验组的HAMD基线值与对照组的基线值不同,或试验组群HAMD基值比对照组群大0.10,95%可信区间0.047~0.153。

  3  讨论

    对入选的82篇或项随机对照双盲临床试验定性和定量的分析显示,试验组群的HAMD基值与对照组群的存在差异,试验组群比对照组群大约0.10,但对于其他基线指标,两组群似比较均衡。键入“偏倚”检索《数字图书馆》中CNKI期刊全文库的临床医学部分,获得76篇(2006?01检索),未见相同内容的文献,但有2篇的部分内容文献相同[3,4]。采用“bias AND randomized controlled trials AND (baseline OR clinical characteristics)”检索Medline,获得398篇文献(2006?01检索),没有相同内容的文献,但有3篇的部分内容相同[5~7]。

    不同于上述结果(未显示两组病例数的差别分布存在差别),金晓东等[3]和赵国玺等[4]对国内的随机对照双盲临床试验中两组例数和剔除例数的实证分析显示:试验组的病例数多于对照组,而对照组剔除的例数多于试验组;剔除例数不匀是例数差别的重要原因。这种不一致可能是上述82项的样本仍然较少所致。 然而,Tierney等对国外的药物肿瘤方面的14个Meta分析中133项随机对照试验的剔除偏倚(exclusion bias)的实证研究显示,试验组群剔除的病例偏多(未进行统计学处理)[5]。根据中的方框图[5],我们对数据进行定性转换有:在14对组群(试验与对照)中,12个试验组群剔除的例数多于其对照组群,1个的两组群似相等,1个试验组群剔除的例数少于其对照组群(符号检验显示具有统计学意义)。

    Berger等[6]通过自己积累的资料发现,14项随机试验可能(suspicious)存在选择偏倚或基线不匀,并认为这只是冰山一角。在Martinsson等[7]进行的一项Meta分析中,两项随机对照试验的基线不匀,试验组病情严重者较多。这些结果通过个案或系列个案的方式,印证了上述结果。

    上述的检索方法,必定遗漏一些有关的随机双盲试验,故而这项研究是一种“抽样”研究。虽然有些研究的两组例数或HAMD基值的差别偏大(表2中16,30和108号试验),但因作者明示为随机分组,故没有剔除这些研究。然而,这些数据如同个案一样,具有一定的印证作用。

    一般来说,两组基线不均衡的主要原因包括,随机分组不规范和剔除病例不规范。这种不规范的操作现象,反映出自觉或不自觉的引起主观偏倚的倾向,而主观偏倚,包括组别偏倚和剔除偏倚的方向大多是偏袒试验组——一定程度夸大了试验组的疗效[8,9]。所以,我们定性地推测,在药物治疗抑郁症的随机对照双盲临床研究中,由于部分试验的基线不匀,“总体”治疗效果可能被夸大。

    然而,这只是一个双盲试验基线偏倚的实证研究案例,有必要开展更多的研究——其他药物的研究或其他数据处理方法的研究。另外,我们很难解释HAMD基线指标不均衡的明确原因、对总体疗效结果的确切影响和“作用机制”。这或许是值得注意和研究的问题。应积极推广CONSORT标准(《随机试验报道的统一标准》,Consolidated Standards of Reproting Trials)[10],清晰地完整地介绍随机试验的情况,以便全面显现宝贵的试验成果,更好地分析试验的质量,解读试验的结果。

【文献】
    1 急性心肌梗死门冬氨酸钾镁治疗协作组. 急性心肌梗死早期门冬氨酸钾镁治疗多中心随机对照试验. 中华心血管病杂志, 2002, 30(2):82~85.

  2 MAGIC Trial Investigators. Early administration of intravenous magnesium to high?patients with acute myocardial infarction in the Magesium inCoronaries(MAGIC) Trial: a randomized controlled trial. Lancet,2002,360:1189~1196.

  3 金晓东, 李进, 傅鹰. 随机对照双盲临床试验中两组例数差别的实证分析. 药物流行病学杂志, 2004,11:271~273.

  4 赵国玺, 傅鹰. 随机对照双盲临床试验中病例剔除情况的分析. 药学实践杂志, 2005,23:93~95.

  5 Tierney JF, Stewart LA. Investigating patient exclusion bias in meta?analysis. Int J Epidemiol, 2005,34:87~88.

  6 Berger VW, Weinstein S. Ensuring the comparability of comparison groups: is randomization enough? Control Clin Trials, 2004,25:515~524.

  7 Martinsson L, Wahlgren NG, Hardemark HG. Amphetamines for improving recovery after stroke. Cochrane Database Syst Rev, 2003,(3):CD002090(摘要).

  8 傅鹰. 组别偏倚实证研究案例西沙比利治疗功能性消化不良结果的差别. 药物流行病学杂志, 2005,14:102~104.

  9 傅鹰,齐俊英. 试验租对照组的氨氯地平降压效果组别偏倚的实证研究. 中国临床药与治疗学, 2006,11:237~240.

  10 Altman DG, Schulz KF, Egger M, et al. The revised CONSORT statement for reporting randomized trials: Explanation and elaboration. Ann Intern Med, 2001,134(8):663~694.