基于色度学准则分析的免疫组化彩色图像C?均值聚类分割技术研究
【摘要】 免疫组化彩色图像分割在免疫组化染色定量分析中有重要的应用价值。C?均值聚类算法(CMA)是根据一定的相似性准则将图像分成C类。由于运算十分耗时,直接限制了C?均值聚类算法在彩色图像分割领域的应用。本文针对免疫组化彩色图像特点,提出了分割免疫组化彩色图像的色度学准则,即:用每个像素的R分量减去B分量,根据其差值是否大于0将相应的像素分为两大类:(R-B)≥0类和(R-B)<0类,自动分离出图像的阳性细胞区域和阴性细胞区域。在此基础上我们改进了C?均值聚类分割的方法:① 针对上述两大类图像的色彩分布的特点确定初始聚类中心;② 分别对上述两大类像素在一个色度学空间聚类;③ 根据每次迭代过程中聚类中心的变化趋势来预测下一次迭代后可能的聚类中心,从而减少迭代的次数。改进之后的C?均值聚类分割方法减少了聚类的样本数量,降低了算法的复杂度,且由于迭代次数的减少,运行速度得到了提高。实验结果表明,本文建立的技术方法能有效地分割免疫组化彩色图像。
【关键词】 CMA; 彩色图像分割; 色度学准则; 聚类中心
Abstract: Immunohistochemical image segmentations play an important role in the immunohistochemical staining quantitative analysis. C?Means clustering algorithm (CMA) is a method to partition of an image into homogeneous regions. According to characteristics of color immunohistochemical images, a chroma criterion and improvement of CMA for the segmentation of immunohistochemical image was proposed to solve the problems of heavy calculating burden if applying CMA directly to real color immunohistochemical image segmentation in three color spaces. The chroma criterion is that to calculate the subtraction of R value and B value for each pixel first, and then divide the pixels into two large classes. Thus, positive cell area and negative cell area are separated automatically. On the basis of the results, the CMA algorithm is improved in two aspects: ① The original class center is obtained by color arrangement feature; ② the CMA is executed apart on two classes pixels in one color space; ③ The next iterative center can be conjectured on change trend after each iteration, which reduces the times of iteration. The improvements lessen sample amounts, reduce algorithm complexity, decrease iteration times and speed up calculation. The results reveal that the technique is effective.
Key words: CMA; color image segmentation; chroma criterion; aggregative center
引言
免疫组化是临床病理诊断和研究的重要辅助手段。从CCD摄像机输出的免疫组化图像是真彩色图像,其中阳性细胞和阴性细胞的计数以及它们之间的比例是判断免疫组化显色反应强度的重要指标,对肿瘤的早期诊断和预后判定有非常重要的价值,然而对这些结果的判断是由病家直接观察显微镜下的病理切片得出,易受个人主观因素的影响而产生偏差。采用图像分析仪定量检测可以避免观察者主观因素的干扰,但其过程比较复杂,分析时间较长,无法应用于常规临床工作。通过机图像技术自动分析免疫组化彩色图像,辅助医生准确观察和定量检测免疫组化显色反应强度,在医学疾病诊断上有重要应用价值[1]。
为了准确分析免疫组化彩色图像中不同的区域,图像分割是关键的一步,其结果影响后续定量检测的精度。彩色图像分割是按照彩色图像的色彩规则将一幅彩色图像分成具有特殊含义的不同区域,这些区域互不交叉,每个区域都满足特定区域的一致性[2]。彩色图像中的每个像素由红(R)、绿(G)、蓝(B)三基色按一定的比例合成,对于不同的分割目的,可以选用不同的彩色特征组合。彩色图像分割的步骤一般分为预处理、颜色空间的选择、分割算法实施及后处理[3]。现在已经提出的彩色图像分割方法主要包括直方图阈值法、聚类法、基于区域的方法、边缘检测方法、模糊方法以及神经的方法等[4]。但由于彩色图像分割研究对象的多样性和复杂性,另外还受到硬件设备的限制,上述算法都有一定的局限性和不足。因此,我们要具体问题具体分析,根据图像特点,考虑分割精度和运算量,选择合适的分割算法[3]。
免疫组化彩色图像的特点是:阳性细胞大致呈棕褐色或棕黄色,阴性细胞呈蓝色,背景接近白色,并且不同的图像区域在红(R)、绿(G)、蓝(B)三基色空间会有交叉区,分割较为困难。因此如果仅仅考虑分别在RGB三基色空间进行图像分割,有可能带来错误的分割结果,需要将RGB作为一个整体来考虑。利用数据聚类方法对彩色图像进行分割具有直观、易于实现的特点,并且能够把3个彩色分量作为一个整体考虑。聚类分割中最基本的方法是C?均值聚类,其缺点是每次迭代过程的运算量大,十分耗时。本文正是从免疫组化彩色图像的特点出发,提出一个色度学准则,在将图像分成两类的基础上,运用改进后的C?均值聚类算法,依次分割,提取出阳性细胞和阴性细胞,实验证明该法不但运算速度快,而且分割效果良好。以下介绍我们的这一研究。
1 C?均值聚类算法及存在问题分析
经典的C?均值聚类算法(CMA)是将一幅图像分成C 类区域的常用方法。该算法的基础是误差平方和准则[5]。若Ni是第i个聚类中Ci的样本数目,mi是这些样本的均值,则:mi=1Ni?x∈Cix,(1)将Ci中的各样本x与均值mi间的误差平方和对所有的类相加后得:σ2=?Ci=1?x∈Ci‖x-mi‖2.(2)式中σ2是误差平方和聚类准则,使σ2最小的聚类是误差平方和准则下的最优结果。具体的C?均值聚类算法步骤如下:
(1) 任选C 个初始类均值,m1,m2,…,mC。
(2) 在第k 次迭代时,将数据点x 归为类Cj,j=mini{ (x-mi) };即将数据点x 赋给均值离它最近的类。
(3) 更新类均值mi=1Ni?x∈Cix。
(4) 若对所有的i,mk+1i=mki,则算法收敛,结束;否则转入步骤2继续迭代。
C?均值算法的优点是:它能够动态聚类,是一种无监督学习算法。但是图像分割是一个大样本数据分类问题,利用C?均值进行图像分割时,每次迭代优化都要重新计算聚类中心和类间距,进而对数据点归类,运算十分耗时,这直接限制了C?均值聚类算法在图像分割领域的应用。不仅如此,彩色图像包含了RGB三基色数据,直接运用CMA更是难以进行。因此有必要对彩色图像进行阶段性处理,在减少样本数据量的基础上,运用CMA分割彩色图像。
2 免疫组化彩色图像的色度学准则分析
免疫组化彩色图像中的阳性细胞大致呈棕褐色或棕黄色,阴性细胞无棕褐或棕黄的显色反应且在苏木素复染切片图像上核呈蓝色[6],背景接近白色。因而阳性细胞的R>B,阴性细胞的B>R。实际的颜色检测也验证了这一结论。根据这一结论,本文提出以下色度学准则对免疫组化彩色图像进行分类处理:
(1) 正向扫描整幅图像,将每个像素的R分量减去B分量,根据其差值是否大于0将像素分为两大类:(R-B)≥0类和(R-B)<0类。
(2) 在(R-B)≥0类中,凡是(R-B)≥0的像素令其保留原先的颜色值,而(R-B)<0的像素则令其为黑色,这样得出的图像除去了阴性细胞。
(3) 在(R-B)<0类中,凡是(R-B)<0的像素令其保留原先的颜色值,而(R-B)≥0的像素则令其为黑色,这样得出的图像除去了阳性细胞。
依据上述色度学准则对免疫组化彩色图像处理后,可自动将阳性细胞和阴性细胞分割开来,并从原始的免疫组化彩色图像中分离出两幅新的图像:图像A和图像B。图像A包括了棕褐色或棕黄色的阳性细胞区、黑色区和颜色接近白色的背景区。图像A中的黑色区是挖去阴性细胞后产生。图像B包括了蓝色的阴性细胞区、黑色区、颜色接近白色的背景区。图像B中的黑色区是挖去阳性细胞后产生。图像A和图像B各自突出显示了感兴趣的目标区:棕褐色或棕黄色的阳性细胞和蓝色的阴性细胞。并且,图像A和图像B的不同区域在红(R)、绿(G)、蓝(B)三基色空间没有交叉区。
3 基于色度学准则分析的免疫组化彩色图像分割方法 本文针对免疫组化彩色图像的特点,提出基于色度学准则的免疫组化彩色图像分割方法:先建立一个免疫组化彩色图像的色度学准则,该准则将免疫组化彩色图像自动分割成两幅图像:图像A、图像B。在此基础上我们对C?均值算法做了改进,先对图像A在R分量上聚类,然后以图像A最终的聚类中心作为图像B的初始聚类中心,对图像B在B分量上聚类。接着从图像A的聚类结果中提取出阳性细胞,从图像B的聚类结果中提取出阴性细胞。最后利用数学形态学的开启运算和闭合运算分别对两幅图像修正,从而统计出阳性细胞和阴性细胞的个数。本文的算法思想如图1所示。图1 算法思想
具体实现的步骤如下:
1. 色度学准则分割原始彩色图像
运用上述色度学准则将原始彩色图像分割成两幅图像:图像A和图像B。图像A主要包含三个色彩区:棕褐色或棕黄色、黑色、白色。图像B包含三个色彩区:蓝色、黑色、白色。
2. 确定图像A的初始聚类中心
通常C?均值聚类的初始中心可随机选取,如果能结合图像的特点来确定初始中心则能优化该算法。
图像A的初始聚类中心按如下方式确定:聚类数C为3,初始聚类中心:m1=min(X),m2=(m1+ m3)/2,m3=max(X),X是图像A的每个像素的R分量值,即根据给定的聚类数3等间隔地生成3类,使得类间距最大。
3. C?均值聚类分割图像A
根据图像A的初始聚类中心,图像A每个像素与聚类中心(m1、m2、m3)的距离,将像素归集到离它最近的类别中。重新计算每个类别所有像素值的平均值,作为下一次迭代的聚类中心。反复此过程,直至前后两次迭代的聚类中心值相等,算法结束。
由于每次迭代优化都要重新计算聚类中心和类间距,进而对像素归类,这十分耗时。通过分析每次迭代过程中聚类中心的变化趋势,如图2所示,我们发现聚类中心呈现逐渐递增或逐渐递减的趋势,且前三次迭代的变化较大,而从第四次迭代开始,变化趋于平稳。针对这一变化特点,可以从第四次迭代开始,根据第三次和第四次迭代得到的聚类中心的差值,来预测第五次迭代的聚类中心值为第四次迭代的聚类中心值加上差值,从而第五次迭代开始无需重新计算类间距和像素归类。第六次迭代继续以第五次迭代的聚类中心值为初始值,计算类间距,对像素归类,重新计算聚类中心。在后面几次迭代过程中,等间隔地预测聚类中心值。结果证明这种处理办法减少了迭代的次数,极大提高了运算的速度。图2 聚类中心趋势图
4. 提取出阳性细胞
根据图像A的聚类结果,将不同类别的像素分别提取出来,形成新的图像。我们发现类别为2的像素是棕褐色或棕黄色的阳性细胞。
5. 确定图像B的初始聚类中心
图像B的初始聚类中心按如下方法确定:将图像A按步骤2聚成三类后,获取每类的聚类中心值,作为图像B的初始聚类中心。这种方法的原理是,图像A和图像B是按照上述免疫组化彩色图像分割的色度学准则分别从原始图像中分割出来的,因此它们具有相似的背景,因而两幅图像中的部分像素将聚集到相似的类中心周围。
6. C?均值聚类分割图像B和提取阴性细胞
重复步骤2,聚类分割图像B。重复步骤3,将类别为2的像素提取出来生成阴性细胞图像。
7. 图像修饰和细胞计数
聚类分割出来的阳性细胞和阴性细胞图像存在边缘毛刺、孤立斑点、裂缝的情况。先运用数学形态学上的开启运算平滑图像的轮廓,消弱狭窄的部分,然后运用闭合运算填补图像的裂缝。在此基础上就可以计算出阳性细胞和阴性细胞的个数。
4 实验结果
我们在Matlab6.1环境下将本文提出的技术方法应用于实际的ER、PR免疫组化彩色图像的分割,得出了较满意的结果。图3是ER染色图像分割结果,图4是PR染色图像分割结果。两幅图中左边是原始图,中间是阳性细胞图,右边是阴性细胞图。图3中阳性细胞计数为150个,阴性细胞计数为126个。图4中阳性细胞计数为63个,阴性细胞计数为101个。对照原始图像,可以看出分割效果甚为理想。
5 结论
本文首先建立了一套用于免疫组化真彩色图像分割的色度学准则,用每个像素的R分量减去B分量,根据其差值是否大于0将像素分为两大类:(R-B)≥0类和(R-B)<0类,自动分离出图像的阳性细胞区域和阴性细胞区域,从而生成两幅图像——图像A和图像B。在此基础上我们建立了一种基于改进C均值聚类算法的免疫组化彩色图像分割算法,其核心是分别在图像A的R分量上运行CMA,在图像B的B分量上运行CMA。这样处理之后,将原图像从三维色度学空间(R、G、B空间)减少到一维色空间,大大减少了C?均值聚类分割的数据量,提高了运算的速度和准确度。另外,在样本数量相同的基础上,初始聚类中心影响着聚类的迭代次数和聚类的准确性。本文根据图像A和图像B背景相似的特征,先对图像A聚类分割,提取出阳性细胞后,将得到的聚类中心作为图像B的初始聚类中心,再对图像B聚类。并且根据每次迭代过程中,聚类中心的变化趋势来预测下一次迭代后可能的聚类中心,经过上述处理,能减少1/3以上的迭代次数,加快聚类的速度。
本文提供的算法对ER、PR染色的免疫组化彩色图像实现了满意的分割。将阳性细胞和阴性细胞分别提取出来,能对阳性细胞和阴性细胞的数量进行定量,可以应用于我们已经建立的免疫组化染色阳性单位定量方法对免疫组化染色显色反应强度的定量[7-9],为免疫组化彩色图像的定量分析提供了一种有价值的辅助手段。
【】
[1]谢凤英, 姜志国. 一种免疫细胞图像非监督分割方法 [J]. 体视学与图像分析. 2002, 12, 7(4).
[2]余成波. 数字图像处理及Matlab实现 [M]. 重庆大学出版社. 2003.
[3]李斌, 马东, 钱宗才, 等. 彩色图像分割方法新进展 [J]. 第四军医大学学报. 1998, 19: 66-68.
[4]赵荣椿, 迟耀斌, 朱重光. 图像分割技术进展 [J]. 中国体视学与图像分析. 1998, 3(2): 121-128.
[5]边肇祺, 张学工. 模式识别 [M]. 清华大学出版社. 2000.
[6]Yang YüBin, Li Ning, Chen ShiFu, Chen ZhaoQian. Intelligent Lung Cancer Identification Based on Image Features. Journal of Nanjing university, Vol. 39, No. 2.
[7]申洪, 陆药丹. 免疫组织化学染色的定量方法研究 [J]. 生物医学工程杂志. 1993, 10(4): 281-284.
[8]申洪, 免疫组织化学显色反应强度定量方法研究(Ⅱ) [J]. 单克隆抗体通讯. 1994, 10(4): 33.[9]申洪. 免疫组织化学染色定量方法研究(Ⅲ) [J]. 中国组织化学与细胞学杂志. 1995, 4(1): 89-92.











