Deep learning for artificial intelligence aided cytological diagnosis on exfoliated adenocarcinoma cells of lung in pleural effusion
-
摘要:目的
应用深度学习模型对胸水脱落肺腺癌细胞进行检测和分类,探讨人工智能辅助肺癌细胞病理诊断的可行性。
方法收集2019年3月至2021年12月南通大学附属医院、上海交通大学附属胸科医院和复旦大学附属中山医院的肺腺癌胸水标本110例,非癌性胸水标本20例为对照组。采用常规法和单细胞分离液处理技术2种方法分离细胞标本,并进行液基制片和苏木精-伊红(H-E)染色,全切片数字扫描使细胞图像数字化后保存为数字文件,由人工智能辅助诊断。经过裁切与图像预处理后,使用LabelImg软件对胸水细胞进行标记,打方框并标注细胞类型,选用较典型细胞样本,分别标记淋巴细胞、间皮细胞和腺癌细胞,共标记800张图像用于训练。采用Yolo V4模型对疑似与确诊肺癌细胞进行训练,采用Inception V3模型对不同分类细胞进行训练,取另外250张图像进行测试。
结果训练后的Yolo V4模型能够对胸水脱落细胞H-E染色涂片中疑似+确诊肺腺癌细胞进行识别标注,全类平均正确率(mAP)为20%;训练后的Inception V3模型对胸水脱落细胞病理图像中单个细胞分割后的淋巴细胞、间皮细胞、疑似+确诊肺腺癌细胞进行分类,准确度为98%。单细胞分离液可增加能明确标注的癌细胞数量,提高单目标识别的效率和准确性。
结论基于深度学习的方法,人工智能模型可以对胸水脱落细胞中肺腺癌细胞进行检测与分类,并用于辅助肺癌病理诊断。提高细胞分离的效率和统一的标准化制片,有助于促进深度学习方法的临床实际应用。
Abstract:ObjectiveTo explore the feasibility of artificial intelligence (AI)-assisted pathological diagnosis on lung adenocarcinoma cells by using deep learning model.
MethodsFrom March 2019 to December 2021, 110 specimens of lung adenocarcinoma were collected from the Affiliated Hospital of Nantong University, the Chest Hospital of Shanghai Jiao Tong University and Zhongshan Hospital, Fudan University and 20 specimens of non-cancerous pleural effusion as the control group. Two methods of cell separation (routine technology and new treatment technology with single cell separation solution) were used. Then making liquid based thin layer cell slides, H-E staining, digital scanning of whole slide image (WSI) and saving as digital files. Afterwards AI-assisted diagnosis was performed. After cutting and image pretreatment, LabelImg software was used to label pleural fluid cells, box and note cell types. Typical cell samples were selected to label lymphocytes, mesothelial cells and adenocarcinoma cells respectively. A total of 800 images were labeled for training. And then machine learning, suspected and confirmed lung adenocarcinoma cells were trained with Yolo V4 model, cells of different classifications were trained with Inception V3 model, and another 250 images were taken for testing.
ResultsThe trained Yolo V4 model could identify suspected + confirmed lung cancer cells in HE staining smears of pleural fluid cells (mAP 20%). The trained Inception V3 model can classify lymphatic, mesothelial, and suspected + confirmed lung adenocarcinoma cells segmented by a single cell in the pathological images from exfoliated cells of pleural fluid with an accuracy of 98%. Single cell separation solution can increase the number of cancer cells that could be clearly labeled, and increase the efficiency and accuracy of single cell target recognition.
ConclusionBased on deep learning method, the AI model can detect and classify lung adenocarcinoma cells in exfoliated pleural fluid cells, and can be used to assist the pathologic diagnosis of lung cancer. Improving the efficiency of cell separation and unified standardized preparation are helpful to promote clinical application.
-
Keywords:
- deep learning /
- pleural effusion /
- adenocarcinoma of lung /
- artificial intelligence
-
肺癌是中国发病率和患病人数最高的肿瘤,也是癌症死因之首。晚期肺癌患者常出现胸水,其中的癌细胞可通过细胞病理学来确诊。然而,胸水富含蛋白质,可使间皮细胞和淋巴细胞反应性增生,加上缺乏组织形态背景作为参照,导致胸水细胞病理学诊断的难度增加。因此,通常需要制作细胞包埋块和免疫组化等协助诊断,成本高、时间长,在基层医院不易施行[1]。
人工智能(artificial intelligence,AI)辅助病理诊断在临床工作中已有一些初步应用,但在辅助胸水肺腺癌细胞病理诊断方面鲜有报道。为获得最优模型,本研究采用2种较先进的深度学习方法,即Inception V3和Yolo(You only look once)V4,并在开发数据集(训练集、验证集和测试集)中评估其性能[2]。应用深度学习模型对胸水脱落肺腺癌细胞的检测与分类,探讨人工智能辅助肺癌细胞病理诊断的可行性。
1. 资料与方法
1.1 一般资料
回顾性收集2019年3月至2021年12月南通大学附属医院、上海交通大学附属胸科医院和复旦大学附属中山医院的胸水标本130例。其中细胞病理诊断为肺腺癌110例,另有非肿瘤性胸水标本20例为对照组。纳入标准:病理诊断明确,未经临床诊疗(手术、放疗和化疗)。本研究通过南通大学医学院伦理委员会审批(2022-1),3家医院均存有病理诊断知情同意书。病理图像为脱敏处理后进行相互公开交流学习的读片资料,仅保留基本信息。
1.2 细胞分离、制片、染色
1.2.1 常规法处理胸水
抽取胸水50 mL,加入1 000 U/mL肝素液1 mL,放盐水瓶中置于4 ℃冰箱中静置6~12 h,弃去上清。将底部10~20 mL富含细胞的胸水用长吸管移入2个15 mL离心管中,以1 500 r/min离心后沉淀5 min;用PBS液洗1次;再以1 500 r/min离心后沉淀5 min;加入液基固定液悬浮沉淀,备用。
1.2.2 单细胞分离法处理胸水
抽取胸水50 mL,加入1 000 U/mL肝素液1 mL,放盐水瓶中置于4℃冰箱中静置6~12 h,弃去上清。将底部10~20 mL富含细胞的胸水用长吸管移入2个15 mL离心管中,以1 500 r/min离心沉淀5 min;弃上清,将离心管中的细胞沉淀以5 mL“肺癌单细胞分离液”重悬,37℃消化15 min,间隔5 min摇匀1次;配制方法:0.01%PBS配制,pH 7.2,-20℃保存(表 1)。用巴氏吸管将所获细胞悬液转移至单细胞制备装置,加压通过100目筛网;1 500 r/min离心5 min,弃上清,保留沉淀细胞;加2 mL PBS液,重悬细胞;加入液基固定液悬浮沉淀,备用。
表 1 肺癌单细胞分离液配方试剂名称 最终浓度/(mg·mL-1) 胰蛋白酶 0.1 胶原蛋白酶 0.1 DNase 0.1 EDTA 0.02 顺铂 0.01 DNase:脱氧核糖核酸酶;EDTA:乙二胺四乙酸。 1.2.3 液基薄层细胞制片
将上述2种方法处理的胸水,均采用膜式制片法各制片1张,苏木精-伊红(hematoxylin-eosin, H-E)染色[3]。
1.3 数据处理与机器学习
1.3.1 全切片数字扫描(whole slide imaging, WSI)
采用40倍物镜扫描,每个病例采集和选择10幅图像(96´96 dpi)。
1.3.2 数据预处理
运算平台为戴尔T7920图形工作站图形处理器(graphics processing unit, GPU)。在计算机程序中设定分组:将数据集按照6∶2∶2的比例随机分为训练集(n=80)、验证集(n=25)和测试集(n=25)。训练集用于训练模型以及确定模型权重;验证集用于确定网络结构以及调整模型的超参数;测试集用于检验模型的泛化能力,评估模型的精确度。
1.3.3 标注和机器学习
在专科病理医师指导下使用LabelImg软件对训练集图像数据进行画框标注,分别标注各类细胞,定义标签(表 2)。分别用Yolo V4和Inception V3模型进行机器学习,对不同分类细胞进行学习和训练、验证和测试。
1.4 统计学处理
数据统计分析由Yolo V4和Inception V3模型内设程序完成。
表 2 图片中各种细胞的标记参数细胞类型 病理明确 病理可疑 腺癌细胞(单个) A a 腺癌细胞(簇) AA aa 淋巴细胞 L 间皮细胞 M 2. 结果
2.1 一般资料分析
结果(表 3)显示:130例患者中,男性49例、女性81例,年龄35~83岁,平均年龄(57±22)岁,病理诊断肺腺癌110例。130例标本按照6∶2∶2的比例进行预测分析并分组,其中训练集80例、验证集25例、测试集25例。
表 3 3组患者的一般资料分析基本特征 训练集
(n=80)验证集
(n=25)测试集
(n=25)年龄/岁 57±23 57±22 57±26 性别n(%) 男 29(59.2) 10(20.4) 10(20.4) 女 51(63.0) 15(18.5) 15(18.5) 病理诊断n(%) 肺腺癌 70(63.6) 20(18.2) 20(18.2) 非肿瘤 10(50.0) 5(25.0) 5(25.0) 2.2 细胞分离液的制片效果
未经肺癌单细胞分离液处理的病理片细胞较密集,肺腺癌细胞有很多成簇状,单个细胞较少。如果是间皮细胞增生比较明显,或癌细胞数量比较少的病例,病理诊断较为困难,需要经验丰富的高年资专科细胞病理医生诊断。
结果(图 1)显示:经肺癌单细胞分离液处理的病理片细胞亦较密集,肺腺癌细胞仍然有少数成簇状,但呈大串的细胞较少。同时,单个的腺癌细胞数量明显增多,病理诊断相对容易。
2.3 机器学习的数据分析
常规胸水细胞片中单个细胞少,肺腺癌细胞簇内的细胞数量差异很大,单细胞和细胞簇的混合学习识别率很低,模型运算速度较慢。其中,成簇细胞的识别率<10%。
结果(图 2)显示:经肺癌单细胞分离液处理的细胞片的图像中单个腺癌细胞数量明显增多,不仅标注效率高,而且模型运算速度快。使用训练后的Yolo V4模型对胸水脱落细胞H-E染色涂片中疑似+确诊肺癌细胞进行识别标注的结果:单个腺癌细胞A+a识别准确率的平均值约为20%,即全类平均正确率(mAP)为20%。
结果(表 4)显示:使用训练后的Inception V3模型对胸水脱落细胞病理图像中单个细胞分割后的淋巴细胞、间皮细胞、疑似+确诊肺癌细胞进行分类,腺癌(A+a)细胞识别准确度可达98%。
表 4 训练集(train)测试结果细胞类型 识别正确 总计 准确率/% A+a 42 43 97.7 L 43 43 100 M 86 86 100 总计 171 172 99.4 A+a:疑似+确诊肺腺癌细胞;L:淋巴细胞;M:间皮细胞。 3. 讨论
3.1 胸水中肺癌细胞的病理诊断和基于深度学习的AI模型
肺癌是目前威胁人类健康常见的恶性肿瘤之一,发病率及病死率均为第一。肺癌的病理类型很多,其中以腺癌、鳞状细胞癌和小细胞癌最为常见,占所有肺癌的90%~95%。不同病理类型的肺癌不仅治疗方案和预后不同,肿瘤驱动基因也有所不同。晚期肺癌常会伴发胸水,其中的癌细胞可以通过细胞病理学来明确诊断。然而,胸水中癌细胞的病理学诊断并非易事。胸水中大量增生的反应性间皮细胞与脱落到胸水中的肺腺癌细胞形态相似,单靠显微镜肉眼观察很难做出正确的诊断。因此,临床上通过制作细胞包埋块、加做免疫组化、DNA定量等方法来协助诊断[4]。为了不耽误疾病的诊治,快速而准确地对胸水中脱落细胞做出良恶性判断是目前对病理科医师的迫切要求。
AI已广泛应用于现代医学领域,可以帮助病理科医生做出更准确的诊断。深度学习是AI技术的热门研究领域,是一种基于人工神经网络对数据进行特征学习的AI算法的泛称,对于大数据样本、复杂函数模型具有强大的处理能力[5]。代表性网络主要是卷积神经网络(convolutional neural network, CNN)。Coudray等[6]使用迁移学习和Inception V3模型对非小细胞肺癌病理图像进行分类,结果表明深度学习模型可以为专家和患者提供快速、准确和便宜的癌症类型或基因突变检测,在癌症诊疗方面前景可观。目前,基于数据与模型驱动的深度学习分割方法是研究热点。标记法是将图像欲分割成的几个区域各以1个不同的标号来表示,对图像中的每一个像素,用一定的方式予以这些标记中的某一个,标记相同的连通像素组成该标记所代表的区域。本课题组用此方法来标记不同的细胞。Yolo是目前流行的目标检测模型之一,研究采用的是比较新的V4版本。该模型的特点是“快”,但每个网格只能预测一个物体,容易造成漏检。除此之外,模型对物体的尺度相对敏感,尺度变化大的物体泛化能力较差。对此,本研究将病理科医生的经验通过其优点转化为“精准识别”,但不可避免的是模型对细胞“簇”识别的精确度较低。Inception V3模型是谷歌Inception系列里面的第三代模型,相比于其他神经网络模型,Inception网络最大的特点在于将神经网络层与层之间的卷积运算进行了拓展,采用不同大小的卷积核,使得存在不同大小的感受野,最后实现拼接达到不同尺度特征的融合。本研究将这2种模型分别应用在胸水脱落癌细胞病理诊断的不同任务训练中。
3.2 胸水单体细胞制备技术
据报道[7],目前将胸水脱落细胞的液基薄层细胞制片应用于基于深度学习的AI细胞病理学诊断模块开发存在1个明显的问题:液基制片中胸水细胞成团、成簇现象比较明显,显微镜下不容易对焦,对病理科医生的诊断经验和水平要求较高,同时增加了机器学习难度并减慢了模块运算速度,不利于模块在日常高通量病理诊断工作中的推广应用。课题组在前期的研究中发现,癌细胞成簇是影响AI高效迅速识别胸水肺癌细胞的最大问题。这导致AI诊断的样本量、图像标注难度增大,工作量呈指数级增长,算法模型的精确度大幅下降。最终不仅病理诊断困难,对成像的精度和组合的影响也非常巨大。
现有的细胞悬液制备方法主要分为物理和化学方法。通常采用机械联合酶消化法将实体瘤组织制备成肿瘤单细胞悬液,其优点是经济、快速,能满足一般实验和临床诊断的要求。然而此“单细胞悬液”在显微镜下观察仍是以细胞簇为主的液体,并不完全满足AI分析的需求。关键性病理特征采集和标注方法的有效性决定了AI识别能力和未来诊断的精准度。因此,课题组从细胞之间相互连接的机制出发,在常规细胞裂解液的基础上,进行分解、离散癌细胞团块,研发出“癌细胞单体细胞制备方法”(已申请专利)。该方法能分离胸水中的肺癌细胞簇,形成肺癌单细胞,便于细胞标注和机器学习,提高识别的效率和准确性。
本研究发明一种应用于AI识别的胸水单体细胞制备方法,明显增加了胸水中肺癌细胞单体率,提高了机器学习和训练精准识别胸水肺癌细胞的效率,化繁为简,提升机器深度学习的泛化能力和鲁棒性。不过此技术在胸水细胞AI辅助病理诊断方面还不成熟,目前缺乏多样性数据和循证依据的支持。对此,仍需加强CNN与细胞良恶性特征的关联性分析并整合专科病理医生的经验,进一步提高模型的精度[8]。希望在不久的未来,通过人工智能深度学习技术构建肺癌液基细胞智能病理诊断模型的应用,提高不同地区/单位液基细胞病理诊断的一致性,降低误诊率、漏诊率。
综上所述,AI辅助细胞病理诊断有助于提高诊断效率、缩短诊断时间、提升诊断水平,具有重要的临床意义和广阔的商业应用前景。
致谢: 南通大学附属医院病理科章建国主任、上海交通大学附属胸科医院病理科韩昱晨主任提供病例,复旦大学附属中山医院病理科陈岗教授提供图片、病理诊断复核及专业指导。利益冲突:所有作者声明不存在利益冲突。 -
表 1 肺癌单细胞分离液配方
试剂名称 最终浓度/(mg·mL-1) 胰蛋白酶 0.1 胶原蛋白酶 0.1 DNase 0.1 EDTA 0.02 顺铂 0.01 DNase:脱氧核糖核酸酶;EDTA:乙二胺四乙酸。 表 2 图片中各种细胞的标记参数
细胞类型 病理明确 病理可疑 腺癌细胞(单个) A a 腺癌细胞(簇) AA aa 淋巴细胞 L 间皮细胞 M 表 3 3组患者的一般资料分析
基本特征 训练集
(n=80)验证集
(n=25)测试集
(n=25)年龄/岁 57±23 57±22 57±26 性别n(%) 男 29(59.2) 10(20.4) 10(20.4) 女 51(63.0) 15(18.5) 15(18.5) 病理诊断n(%) 肺腺癌 70(63.6) 20(18.2) 20(18.2) 非肿瘤 10(50.0) 5(25.0) 5(25.0) 表 4 训练集(train)测试结果
细胞类型 识别正确 总计 准确率/% A+a 42 43 97.7 L 43 43 100 M 86 86 100 总计 171 172 99.4 A+a:疑似+确诊肺腺癌细胞;L:淋巴细胞;M:间皮细胞。 -
[1] 方长清, 丁春晓, 刘小虎, 等. 结合恶性胸腔积液中脱落细胞探讨上皮细胞-间质转化与非小细胞肺癌的相关性[J]. 临床与实验病理学杂志, 2020, 36(1): 43-47. https://www.cnki.com.cn/Article/CJFDTOTAL-LSBL202001014.htm FANG C Q, DING C X, LIU X H, et al. Study on the relationship between epithelial-mesenchymal transition and NSCLC combined with exfoliated cells in malignant pleural effusion[J]. Chinese Journal of Clinical and Experimental Pathology, 2020, 36(1): 43-47. https://www.cnki.com.cn/Article/CJFDTOTAL-LSBL202001014.htm
[2] KHIN Y W, SOMSAK C, KAZUHIKO H, et al. Detection and classification of overlapping cell nuclei in cytology effusion images using a double-strategy random forest[J]. Appl Sci, 2018, 8: 1608-1627. DOI: 10.3390/app8091608
[3] 朱燕燕, 怀建国, 蒋艳, 等. 细胞DNA定量分析结合液基细胞学检测在肺癌诊断中的价值[J]. 临床与实验病理学杂志, 2016, 32(5): 573-575. https://www.cnki.com.cn/Article/CJFDTOTAL-LSBL201605028.htm ZHU Y Y, HUAI J G, JIANG Y, et al. The value of cell DNA quantitative analysis combined with liquid based cytology in the diagnosis of lung cancer[J]. Chinese Journal of Clinical and Experimental Pathology, 2016, 32(5): 573-575. https://www.cnki.com.cn/Article/CJFDTOTAL-LSBL201605028.htm
[4] 马海玥, 贾佳, 郭会芹, 等. 肺腺癌胸水标本中PD-L1的蛋白表达与临床病理特征及分子改变的相关性研究[J]. 中国肺癌杂志, 2020, 23(3): 150-155. https://www.cnki.com.cn/Article/CJFDTOTAL-FAIZ202003005.htm MA H Y, JIA J, GUO H Q, et al. Correlation between the expression of PD-L1 in pleural effusion of lung adenocarcinoma and the clinicopathological features and molecular changes[J]. Chinese Journal of Lung Cancer, 2020, 23(3): 150-155. https://www.cnki.com.cn/Article/CJFDTOTAL-FAIZ202003005.htm
[5] GUAN Q, WAN X C, LU H T, et al. Deep convolutional neural network Inception-v3 model for differential diagnosing of lymph node in cytological images: a pilot study[J]. Ann Transl Med, 2019, 7(14): 307-315. DOI: 10.21037/atm.2019.06.29
[6] COUDRAY N, OCAMPO P S, SAKELLAROPOULOS T, et al. Classification and mutation prediction from non-small cell lung cancer histopathology images using deep learning[J]. Nat Med, 2018, 24(10): 1559-1567.
[7] MCALPINE E D, MICHELOW P. The cytopathologist's role in developing and evaluating artificial intelligence in cytopathology practice[J]. Cytopathology, 2020, 31(5): 385-392. DOI: 10.1111/cyt.12799
[8] 金旭, 文可, 吕国锋, 等. 深度学习在组织病理学中的应用综述[J]. 中国图象图形学报, 2020, 25(10): 1982-1993. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB202010002.htm JIN X, WEN K, LYU G F, et al. Survey on the applications of deep learning to histopathology[J]. Journal of Image and Graphics, 2020, 25(10): 1982-1993. https://www.cnki.com.cn/Article/CJFDTOTAL-ZGTB202010002.htm