概率神经网络用于芳酰基类化合物抗癌活性的模式识别

来源:岁月联盟 作者:申明金 时间:2010-07-12

【摘要】  利用基于统计思想和Bayes分类规则的概率神经的基本网络模型预测芳酰类化合物的抗癌活性。选择24个样本为训练集,6个样本为预测集,结果表明,概率神经网络具有良好的泛化能力,其识别能力优于Fisher判别法和模糊k-均值聚类法。

【关键词】  芳基酰类化合物; 概率神经网络; 抗癌活性; 模式识别

芳基酰类化合物能抑制核苷酸还原酶活性,从而抑制癌细胞生长。Elford等[1]测定了该类化合物抑制核苷酸还原酶的半抑制量PC及对于患L1210肿瘤小鼠经芳基酰类化合物后的平均寿命与未经治疗小鼠的平均寿命的百分比T/C,T/C属体内活性参数,T/C越大,则抗癌活性越强。但前人研究发现芳基酰类化合物药物的结构指数与T/C没有较好的定量构效关系。由于药物对于体内抗癌活性的作用涉及药物到达受体及药物与受体作用等复杂过程,影响因素较多,研究起来较困难,而模式识别方法不需要精确的数学模型,需要的先验知识较少[2],这为研究药物抗癌活性提供了一个有力的工具。本研究将概率神经网络(probabilistic neural network,PNN)用于芳酰类化合物抗癌活性的模式识别,结果满意。

    1  概率神经网络原理与结构[3~5]

    概率神经网络PNN是径向基网络的一个分支,是前馈网络的一种。它是一种有监督的网络分类器,基于概率统计思想,由Bayes分类规则构成,采用parzen窗函数密度估计方法估算条件概率,进行分类模式识别。

    PNN的结构如图1所示。除输入层外,它由两层神经元构成。第一层采用径向基神经元,其个数与输入样本矢量的个数相同,第二层为竞争层,其神经元个数等于训练样本数据的种类个数,每个神经元分别对应于训练数据的一个类别。图中的模块C表示竞争传递函数,其功能是找出输入矢量n2中各元素的最大值,并且使与最大值对应类别的神经元输出为1,其它类别的神经元输出为0,这种网络得到的分类结果能够达到最大的正确概率。图1中P为输入矢量,R为输入矢量的维数,Q等于输入/目标矢量对的个数,即径向基层神经元个数,K为输入数据种类的个数,即输出层神经元的个数。图中的||dist||模块表示求取输入矢量和权值矢量的距离,此模型中采用高斯函数radbas作为径向基层神经元的传递函数。

    图1  概率神经网络结构图

    2  芳基酰类化合物抗癌活性的概率神经网络的建立

    2.1  数据来源及预处理

    根据量子化学得到30个芳基酰类化合物的量子化学参数和结构参数,再由相关分析计算结果选择以下影响化合物抗癌活性的独立变量:与金属离子发生络合的各原子上的静电荷之和CQS,分子的最高占据分子轨道能EHOMO,最低空分子轨道能ELUMO,π电子的次HOMO轨道能SHEP,疏水参数Л,芳基酰类化合物抑制核苷酸还原酶的半抑制量PC。以活性参数T/C为指标将待研究的化合物分为两类,即有抗癌活性的为第1类,无抗癌活性的为第2类,原始数据见表1。

    2.2  的建立与训练

    网络由3层神经元组成。输入层6个节点,对应于芳基酰类化合物的6个参数,隐含层神经元个数等于训练样本个数,输出层2个节点。将表1的原始数据作归一化处理,调用MATLAB语言工具箱中的函数net=newpnn(P,T,SPREAD)进行概率神经网络设计[6],结果如表1。表1的计算结果表明:概率神经网对训练样本有很好的预测结果。 表1  芳酰基化合物的活性参数与结构参数注:* I=1 compound with antitumor activity; I=2 compound with antitumor activity # BHA: benzohydroxamic acid

    2.3  概率神经网络与普通判别分析的比较

    尝试从30个样本中取出6个(表1中的5、10、15、20、25、30号样本)作为预测集,其余24个样本作为训练集进行概率神经网络预测,此时的网络结构为6-24-2,计算结果见表2。为了验证概率神经网络的识别能力,将24个训练样本分别用概率神经网络、Fisher判别和模糊k-均值聚类分析进行学习,然后对6个预测样本进行预测,预测结果见表3。计算结果表明网络对24个训练样本和6个预测样本的识别正确率为100%。Fisher判别虽能正确识别6个预测样本,但对24个训练样本的识别正确率只为91.7%。模糊k-均值聚类分析对24个训练样本和6个预测样本的识别正确率都只有67%。表2  24个训练样本的计算结果 表3  不同方法的预测结果    

    3  结论

    概率神经网络综合了径向基函数神经网络和竞争神经网络的精华,对输入样本的非均匀性有较强的适应能力。网络结构简单,收敛速度快,网络总收敛于Bayes优化解,稳定性高,训练不需要太多的样本,适合于药物定量构效关系与活性识别研究。

【】
  1 Elford HL,Wampler GL.Regulation of ribonucleotide reductase in mammalian cell by chemotherapeutic agents.Adv Enzyme Regul,1980,19:151~154.

2 陈念贻,钦佩,陈瑞亮,等.模式识别方法在化学化工中的应用.北京:出版社,2000,22~25.

3 吴启勋,李磊,安燕.盐湖水化学类型的人工神经网络判别方法.分析科学学报,2005,21(3):271~273.

4 童义平,林燕文.概率神经网络和FTIR光谱用于食道癌的辅助分析.化学研究与应用,2006,18(5):498~501.

5 相玉红,姚小军,张瑞生,等.用概率神经网络对多环芳烃的致癌性分类.兰州大学学报(科学版),2002,38(3):55~59.

6 许东,吴铮.基于MATLAB6.X系统分析与设计-神经网络.西安:西安科技大学出版社,2002,56~59