人类淋巴母细胞基因表达的遗传分析

来源:岁月联盟 作者: 时间:2010-07-12

              作者:李冬果 华琳 刘红 郑卫英 张金旺

【摘要】    从CEPH家族14个家系中选择4个家系50个个体的淋巴母细胞基因表达谱数据及SNP基因型数据进行分析,结果显示同家系的差异表达基因少,而不同家系的差异表达基因多。同家系中同胞对与非同胞对的方差比范围约为0.001~0.967,从20个SNPs中筛选出5个某一基因型明显高于其他基因型的SNP。

【关键词】  基因表达; 遗传; 家系; SNP

  在个体差异问题上,研究者面临的问题是遗传与环境在个体差异形成过程中的作用。很多研究者都提出了不同的理论解释造成个体差异的遗传和环境基因。20世纪90年代初,美国宾夕法尼亚大学的McClearn[1]借鉴统计遗传学中有关遗传变异与环境变异因素对生物性状的影响模型理论提出了描述遗传与环境对个体差异影响作用的差异模型,用以揭示遗传和环境对个体差异形成所产生的影响。
   
  事实上,许多基因的表达水平均显示出物种的变异,从酵母到人类。人类基因组导致了个体间的遗传变异,同时也使得基因表达水平分析有了可行性。微阵列实验可以同时测量成千上万个基因转录后生成的mRNA水平,mRNA水平高低表明其对应基因的表达水平。鉴别差异表达基因在生物学上具有重要意义,同时又是基因表达模式的分类及局部生物过程基因的推断等复杂分析的前提和基础。高密度的DNA微阵列(microarray),由于荷载了成千上万个DNA片段,可一次同时检测数以千计的基因表达水平[2]。基于此原因,我们对全基因组的基因表达水平进行分析。采用淋巴母细胞的cDNA微阵列数据来发现差异表达基因,差异表达基因分别用SPSS11.5软件和SAM软件(http://otl.stanford.edu)进行分析。

  1  方差比及差异表达基因

  1.1  4个不同家系的方差比
   
  我们选择Centre d’Etude du Polymorphisme Humain(CEPH)家族淋巴母细胞基因表达谱数据[3,4],从14个家系中选择4个家系:1333家系(12个个体),1340家系(11个个体),1341家系(14个个体),1345(13个个体)家系中的30个基因(http://www.gaworkshop.org),方差比(F值)范围0.138~4.731,中位数为1.849。其中组内均方的范围0.02~0.7。方差比最高的为EIF3S7和RPL18,均为4.731,最高方差比是最低方差比的34.3倍。

  1.2  同家系的方差比
   
  我们选择Centre d’Etude du Polymorphisme Humain(CEPH)家族淋巴母细胞基因表达谱数据,从14个家系中选择4个家系1333(12个个体),1340(11个个体),1341(14个个体),1345(13个个体)家系中的30个基因,其中1333家系中同胞对与非同胞对的方差比为0.002~0.717,1340家系中同胞对与非同胞对的方差比为0.001~0.846,1341家系同胞对与非同胞对的方差比为0.004~0.934,1345家系同胞对与非同胞对的方差比为0.001~0.967。此项结果说明同胞对的变异要小于非同胞对的变异。

  1.3  同家系的差异表达基因
   
  我们仍选择CEPH家族淋巴母细胞基因表达谱数据,在14个家系中,仅选择1333家系的30个基因,通过随机重排检验600次,取△(△表示所选取的差值,可用其假发现率)A[5]不同水平,得到差异表达基因如下:
   
  △=0.01~0.19,有15个差异表达基因
   
  △=0.20,无差异表达基因

  1.4  不同家系的差异表达基因
   
  我们从14个家系中选择两个家系1333家系和1340家系的同胞兄弟的30个基因,所得结果如下:
   
  △=0.01~0.3,有27个差异表达基因。
   
  这个结果说明不同家系的差异表达基因比同家系的差异表达基因多。

  2  基于SNP的相关分析
   
  SNP是一种可遗传的变异,是指基因组内特定核苷酸位置上存在两种不同的碱基,SNP通常是一种二等位基因,在人类基因组中广泛存在[6]。它被普遍认为是继第一代限制性片段长度多态性标记、第二代微卫星标记之后的第三代基因遗传标记,可用于连锁分析来进行遗传病的单倍型诊断和未知致病基因的定位。SNP被认为是一种能够稳定遗传的早期突变,研究者可以通过对SNP的相关分析和高密度的SNP图谱来定位一系列复杂疾病的相关基因。


   
  本研究基于SNP的相关分析是研究家系资料中特定等位基因的频率。我们从14个家系中选择1333家系(14个个体),1340家系(13个个体),1341家系(14个个体),1345家系(13个个体)的20个SNPs进行分析,得到的结果见表1。

  图1  同家系的SAM plot图(略)

  图2  同家系的SAM plot图(略)

  图3  5个基因型明显不同的SNP(略)

  从表1中可以看到rs2132594的2/2基因型明显高于其他基因型;rs1037800的3/3基因型明显高于其他基因型;rs2057008的2/2基因型明显高于其他基因型;rs1075793的1/1基因型明显高于其他基因型;rs2004576的1/1基因型明显高于其他基因型。初步显示了SNP在遗传学中应用的潜力,见图3。

  表1  SNP基因型频率(1,2,3,4分别表示4个核苷酸)(略)

  3  讨论
   
  在人类基因定位中,传统的家系分析方法起着重要作用,但也存在明显的不足。通过家系分析很难作基因定位,而SNP作为第三代基因遗传标记构成了不同个体与群体的遗传学基础。基因研究中1个SNP的等位基因出现频率达5%以上有意义,人类DNA编码区仅占5%,虽然这些并非位于被转录或控制基因转录及翻译成分内用于基因研究的标志与基因表达没有直接关系,但它们可能与被称为“连锁不平衡”的重要基因一起被遗传[7]。我们的研究结合了Microarray表达数据及SNP基因型数据,通过选择家系及少量的基因分析,可以看出不同家系的差异表达基因要多于同家系的差异表达基因,而同家系中同胞对的变异要小于非同胞对的变异。通过SNP的基因型频率分析,有5个SNP的某一基因型明显高于其他基因型。根据群体遗传学理论,在生物长期进化过程中,许多因子,如选择、迁移、基因突变和遗传漂变等,均会导致不同位点间的等位基因连锁不平衡产生。所以进一步还应作相应的连锁分析。

【】
    1 宋尚桂,孙金玲.差异模型及其在个体差异研究中的应用.特殊,2005,1:84~88.

  2 陆巍,等.基于非参数方法的肿瘤基因表达数据挖掘.上海大学学报(版),2003,12:543~548.

  3 Michael Morley,etc.Genetic analysis of genome?wide variation in human gene expression,Nature,vol430,743~747.

  4 Vivian G.cheung,etc.Natural variation in human gene expression assessed in lymphoblastoid cells,Nature genetics,vol33,422~425.

  5 伍欣星,等编.生物信息学基础与临床医学应用指南.北京:科学出版社,2005,3.

  6 逢锦忠,等.人类基因单核苷酸多态性及其医学应用.肿瘤,2005,7:401~403.

  7 邓春青,等.乙型肝炎3个候选基因单核苷酸多态性的初步调查.临床肝胆病杂志,2006,2:23~24.