首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 20 毫秒
1.
目的 联合使用遗传因素和吸烟信息构建中国汉族人群的肺癌风险预测模型。方法 基于中国汉族人群全基因组关联研究(GWAS)数据,根据样本地区来源将样本分为训练集(南京与上海:1 473 名病例vs. 1 962 名对照)和测试集(北京与武汉:858 名病例vs. 1 115 名对照)。系统整理已报道肺癌易感位点,在训练集中用逐步后退法筛选具有独立效应的位点,并通过加权法估算个体遗传得分用于建模。在训练集中分别构建基于吸烟信息、遗传得分和联合使用吸烟与遗传信息的3 种风险预测模型(吸烟模型、遗传效应模型和联合模型),并根据受试者工作特征(ROC)曲线、曲线下面积(AUC)、净分类指数(NRI)和整体鉴别指数(IDI)评价模型对肺癌风险预测的效能。对于构建的模型,进一步在测试集中进行验证。结果 在训练集中,联合模型、吸烟模型和遗传效应模型AUC分别为0.69(0.67~0.71)、0.65(0.63~0.66)和0.60(0.59~0.62)。在训练集和测试集中联合模型的风险预测效能高于吸烟模型或遗传模型,差异有统计学意义(P<0.001)。重分类结果显示,联合模型与吸烟模型相比,在训练集中NRI 增加4.57%(2.23%~6.91%),IDI 增加3.11%(2.52%~3.69%)。在测试集中,NRI和IDI 分别增加2.77%和3.16%。结论 遗传得分可以显著提高肺癌传统风险模型的预测效能。联合使用遗传因素和吸烟信息构建的中国汉族人群肺癌风险预测模型可用于筛选中国汉族人群中肺癌发病的高危人群。  相似文献   

2.
目的文本数据与日俱增,但较少应用于公共卫生领域。本文旨在阐述如何通过随机森林和R软件实现文本情感分析,提供方法学参考。方法人工标注文本情感类别,然后进行分词、特征词权重和特征词选择等步骤。用随机森林进行建模,并评估模型性能。结果 1 149条文本纳入分析,正向、负向和中立情感各占34.3%、31.3%和34.4%。共构建18个模型,最优模型准确率0.60。结论影响准确率的原因有样本量、特征词选择、算法选择和参数调整。文本分析也需考虑文本数据来源的准确性才能更好地为卫生政策制定者提供决策的科学依据。  相似文献   

3.
基于信息熵的决策树在慢性胃炎中医辨证中的应用   总被引:1,自引:0,他引:1  
目的探讨基于信息熵的决策树在慢性胃炎中医辨证分型中的应用.方法对406例慢性胃炎病例进行bootstrap抽样至2000病例,采用基于信息熵的决策树C4.5算法建立中医辨证模型.结果决策树C4.5算法筛选出影响中医辨证分型的26个重要因素;产生可用于分类的诊断规则;建立辨证模型,模型分类符合率为,训练集83.60%,验证集80.67%,测试集81.25%.结论决策树C4.5算法建立的模型效果较好,可应用于慢性胃炎中医辨证分型的预测.  相似文献   

4.
目的应用不同机器学习算法预测男男性行为(MSM)人群HIV感染状况的比较。方法将四种机器学习算法(logistic回归、神经网络、随机森林和支持向量机)的预测结果和实验室的检测结果相比较,分类性能的评价指标采用ROC曲线下面积(AUC)、灵敏度、特异度和准确度(PRE)。结果四种算法在训练集和测试集上均具有较理想的分类效能,训练集的结果略好于测试集。和logistic回归分析相比较,其他几种算法均提高了分类预测效能:神经网络提高18.4%(AUC:0.909,95%CI:0.903~0.915),随机森林提高19.7%(AUC:0.922,95%CI:0.920~0.924),支持向量机提高22.3%(AUC:0.948,95%CI:0.947~0.949)。其中支持向量机的分类性能最好,分类的灵敏度为97.5%,特异度为99.1%,准确度(PRE)为98.9%。结论机器学习算法显著地提高了MSM人群中HIV感染的预测效能,可以较准确地识别MSM人群中HIV感染者与未感染者,为及时地提供预防与治疗服务提供了依据,同时避免了医疗资源的浪费。  相似文献   

5.
目的 采用文本挖掘技术结合问卷调查的方法,探讨公众对老年感染艾滋病患者的情感态度。方法 2016年12月1日-2022年5月31日,抓取微博对老年艾滋病患者的评论文本,利用集搜客GooSeeker软件和Python分析平台,对文本评论进行情感倾向分析。进一步面向社会人群发放调查问卷,分析不同文化程度人群对老年艾滋病患者的看法和态度。结果 抓取7 563条微博评论,清洗后有效评论6 706条,经过GooSeeker软件分析清洗后得到针对老年艾滋病患者的态度特征词,出现100次以上的特征词有“不正经”(451次)、“难以置信”(298次)、“震惊”(249次)、“歧视”(116次)。公众对老年艾滋病,情感态度得分消极占比最高,高度消极占36.56%(2 452/4 590),中度消极占19.49%(1 307/4 590),一般消极占12.39%(831/4 590);中性和积极情感得分相对较低。总计截取微博评论数6 706条,其中消极情感微博评论数4 590条,占67.9%。问卷调查显示,65.10%(215/330)本科及以上人群、48.40%(76/157)高中学历(含大专)及以下人...  相似文献   

6.
目的 探讨基于信息熵的决策树在结核病人住院费用分析中的应用. 方法 采用基于信息熵的决策树C4.5算法建立结核病人住院费用分析模型. 结果 决策树C4.5算法从20个变量中筛选出影响病人住院费用的有意义的14个因素并对其重要性进行排序;产生清楚易懂可用于预测的决策规则;建立预测模型,模型分类符合率为:训练集76.58%,验证集77.31%,测试集77.95%. 结论 决策树C4.5算法建立的模型效果较好,可应用于结核病人住院费用影响因素的分析及费用预测.  相似文献   

7.
目的分析我国传染病医院职能定位与发展相关政策工具, 以期为促进传染病医院职能落实和可持续发展政策的制定和优化提供参考。方法查阅北大法宝网站和卫生健康相关官方网站, 以"医疗机构、传染病、传染病医院、突发公共卫生事件、专科医院"等为关键词, 检索1991年12月至2023年1月国家层面发布的传染病医院职能定位与发展相关政策, 运用Rothwell和Zegveld的政策工具分类方法, 采用Nvivo 11 pro软件从需求型、供给型、环境型政策工具维度对文本内容进行分析。结果共纳入41份政策文件。对文本内容进行分析获得204条编码, 其中环境型政策工具和供给型工具使用较多, 分别为104条(50.99%)和95条(46.56%), 需求型政策工具使用较少, 仅有5条(2.45%)。环境型政策工具中, "目标规划"应用最多, 为34条(16.67%), "宣传引导"应用较少, 仅有4条(1.96%);供给型政策工具中, "明确突发共卫生事件报告和处置服务职能"应用最多, 为34条(16.67%), "信息化"和"基础设施建设"应用较少, 分别为8条(3.92%)和6条(2.94%);需求型政...  相似文献   

8.
目的本研究旨在有效识别临床文本中的隐私信息,以保护患者隐私,实现临床信息的共享与利用,促进基于临床医学证据研究的发展。方法采用中国四川省某市级区域人口健康信息平台随机抽取的18350条住院小结作为样本,基于条件随机域(conditional random field,CRF)模型,对样本数据中多种PHI类型进行识别。结果人工标注PHI实体总数为32210个,标注一致性达到92.7%,经过对不一致标记进行校正审核,一致性收敛至100%。测试结果评估显示,除病理号、X线片号、89岁以上的年龄以外,其他PHI类型的F值均超过95%,综合F值达到98.72%。结论本研究基于大规模多样化临床文本数据,利用机器学习的方法,实现了高效的自动化临床文本去识别。对于在保护模型的基础上开发更高效的健康大数据去识别算法以及保证去识别技术的一般性和可扩展性的研究还有待探索。  相似文献   

9.
目的 建立筛选胃癌血清蛋白质谱的人工神经网络(ANN)诊断模型.方法 将84例胃癌患者和75例对照者的血清样本按照随机数字表法随机分为训练集(106例)和测试集(53例).首先应用表面加强激光解吸电离-飞行时间质谱(SELDI-TOF-MS)技术及弱阳离子交换表面芯片(CMl0)检测练集样本,结合反向传播ANN的方法建立诊断模型,进一步检测测试集样本并评价该模型的诊断价值.结果 胃癌患者与对照者血清蛋白质谱图有5个明显表达差异的蛋白质峰(P<0.05),质荷比分别为7567、6742、5262、4869、4256 m/z,5个蛋白质峰作为标志蛋白建立ANN诊断模型.利用该模型对胃癌患者进行盲法预测,结果表明其对胃癌的诊断灵敏度和特异度分别为90.0%和91.3%.结论 胃癌血清蛋白质谱结合ANN建立的诊断模型对胃癌诊断具有较高的灵敏度和特异度,可用于胃癌早期诊断与肿瘤标志物筛选研究.  相似文献   

10.
目的 探讨非小细胞肺癌(NSCLC)患者基于治疗前CT增强图像的影像组学特征对其生存期的预后价值。方法 研究数据来源于癌症影像档案(the cancer imaging archive, TCIA)中的NSCLC-Radiomics公共数据集,使用数据库中的421例NSCLC患者的基线资料和CT影像数据,然后从每例患者的CT三维影像数据中提取组学特征,将所有病例按照7∶3的比例随机分为两组:训练集(296例)和测试集(125例),在训练组中以最小绝对收缩和选择算子(LASSO)算法筛选预测总生存(OS)的影像组学特征,基于Cox比例风险回归模型,建立预测模型,将患者分为高、低风险2组,Kaplan-Meier生存曲线比较两组间生存差异,纳入临床特征建立预后模型,曲线下面积(AUC)评价其预测效能。基于预后模型绘制列线图。结果 共提取1 409个组学特征,经降维后得到11个最有价值的组学特征。建模后计算组学标签,高、低风险2组在训练集和验证集中OS均有显著性差异(P<0.001)。Cox单因素和多因素分析显示影像组学标签均是影响OS[风险比(HR)值:1.529、1.369,95%...  相似文献   

11.
目的本研究探讨基于深度学习算法的结肠癌病理组织切片的诊断模型,对癌旁正常和肿瘤组织以及不同分化程度的肿瘤组织进行自动分类。方法经公共数据库TCGA收集117名结肠癌患者的全切片病理图,分割成不重叠的4440张子图片,按8∶1∶1的比例随机划分成训练集、验证集和测试集。基于Python语言的TensorFlow框架,采用Inception-v3模型和迁移学习算法构建模型。结果对癌旁正常和肿瘤组织构建诊断模型,测试集的准确度为99.8%,灵敏度为99.7%,特异度为100%;对低分化和中分化肿瘤组织构建诊断模型,测试集的准确度为94.8%,灵敏度为94.4%,特异度为95.1%;对不同分化程度肿瘤组织构建三分类诊断模型,测试集中癌旁正常、中分化、低分化组织的准确度分别为100%、94.6%、95.2%。结论利用Inception-v3模型和迁移学习算法对结肠癌病理组织切片构建诊断模型,具有较高准确度、查全率和查准率。  相似文献   

12.
目的探讨基于随机森林模型分析内脏脂肪等级的相关指标。方法本研究为横断面研究, 选取2021年3—9月在黑龙江省医院健康管理中心进行体检的医院职工(包括在职职工和退休职工)共617例的各项实验室指标以及体成分分析各项指标, 按照2∶1的比例将样本分为训练集(411例)和测试集(206例), 模型共纳入预测变量110个, 使用训练集数据进行随机森林模型构建, 测试集数据进行模型验证, 选择最优节点数和决策树数目, 对构建模型的预测性能进行评价, 同时选取重要性在前10位的相对重要因子进行下一步的研究。按内脏脂肪等级, 对617名研究对象再次进行分组:内脏脂肪等级正常组和内脏脂肪等级偏高组, 进一步分析前10位相对重要因子在组间的差异。结果随机森林模型的最优节点数为39、决策树数目为300。模型在测试集上的准确率为83.3%、精确率为73.9%、灵敏度为89.4%、特异度为78.7%, 其受试者工作特征曲线下面积为0.881(95%CI:0.832~0.931)。模型中前10位相对重要因子依次为:体重指数、性别、年龄、尿酸、红细胞计数、单核细胞计数、C肽、癌胚抗原、糖化血红蛋白、谷氨酰转肽酶...  相似文献   

13.
目的 探讨决策树技术在农村儿童贫血研究中的应用.方法 在SAS 8.2软件的Enterprise Miner模块中,将3000例农村地区3岁以下断奶儿童的卫生保健研究数据按75%和25%分为初步拟合模型的训练集与调整模型的验证集,利用Gini杂质函数建立CART算法决策树模型,以误分率、ROC曲线、Root ASE和诊断图建立的模型进行评价.通过模型中的变量以及变量在模型中的上下层级关系,来分析农村地区3岁以下断奶儿童贫血发生的影响因素,以及影响因素间的相互作用.结果 CART决策树模型中训练集和验证集的误分率分别为21.2%、21.9%,Root ASE为0.399、0.404;模型的ROC曲线高于参考线,有较大的曲线下面积;诊断图中实际值和预测值相一致的比例最大,正确分类的观察符合率明显高于错误分类的观察符合率;决策树模型共筛选出9个影响儿童贫血的重要因素,并按影响因素间的相对重要性进行了排序,其中母亲是否贫血(1.00)是最重要的影响因素,其他的是儿童的月龄(0.75)、儿童的断奶时间(0.53)、孩子母亲的年龄(0.32)、添加鸡蛋的时间(0.26)、项目县分类(0.26)、添加鲜奶的时间(0.16)、家庭人口数(0.13)和母亲受教育年限(0.12).结论 决策树技术为有效分析儿童保健研究方面的资料提供一种新的思路.  相似文献   

14.
目的寻找肺腺癌(lung adenocarcinoma,LUAD)特异性的预后相关微小RNAs(microRNAs, miRNAs),为LUAD患者预后预测及个性化治疗方案制定提供依据。 方法下载TCGA数据库中522例LUAD患者组织标本的miRNA-Seq数据和临床病理及生存时间数据,用R语言对LUAD与癌旁组织中差异miRNAs进行分析。采用LASSO & COX回归模型在训练集(245例LUAD)中进行LUAD预后相关miRNAs筛选,并构建基于7个miRNAs表达谱的线性风险模型。根据风险值的高低,以中位风险值为界将患者分为高、低风险组,并分别在测试集(245例LUAD)和总体标本(490例LUAD)中对风险模型预测患者预后的有效性进行验证。采用COX回归分析miRNAs风险模型是否是独立的预后因子。 结果LUAD组织与癌旁组织中共有72个差异表达的miRNAs(上调45个、下调27个)。从训练集中确定miR-101-3p、miR-148a-3p、miR-192-5p、miR-193b-3p、miR-505-3p、miR-584-5p和miR-99a-5p 7个与总生存期相关的miRNAs构建预后风险模型。在训练集、测试集及总体标本中,高风险组患者与低风险组患者相比,总体生存时间均显著降低(P均<0.05)。经多因素COX回归分析,风险模型在训练集、测试集及总体样本中均是一个独立的预后因子(训练集HR=1.97,P=0.02;测试集HR=1.927,P=0.009;总体HR=1.909,P=0.001)。 结论研究确定了7个与LUAD患者预后相关的miRNAs,基于7个miRNAs构建的风险模型是1个独立的预后因子。  相似文献   

15.
目的 构建肠道寄生虫卵的粪检显微图像数据集,建立一个深度学习模型,为肠道寄生虫疾病辅助诊断提供技术支撑。方法 利用显微镜和数码相机采集12种肠道寄生虫虫卵显微图像,经预处理后对虫卵的类别和位置进行标注,形成粪检显微图像数据集。以掩膜区域卷积神经网络深度学习模型作为框架,对标定框回归、分类、掩膜进行训练,并评估其性能。结果 构建的图像数据集共6 299张图片,涵盖了10 944个虫卵图像。经测试建立的深度学习模型总体识别准确率为90.20%,12种虫卵的准确率为58.65%(曼氏迭宫绦虫卵)~100.00%(蛲虫卵)。结论 构建肠道寄生虫卵的显微图像数据集和利用卷积神经网络建立肠道寄生虫卵显微图像的识别模型可为寄生虫相关疾病的辅助诊断提供技术支撑。  相似文献   

16.
心房颤动是一种常见的心律失常,其诊断受到多种因素的干扰,为在诊断上达到可应用性,使房颤自动分析水平提升至专家水平,对房颤的自动检测至关重要。该研究提出了一种基于BP神经网络和支持向量机的房颤自动检测算法。将MIT-BIH房颤数据库中的心电信号(ECG)片段分别分为10、32、64、128个心搏为一组,计算洛伦兹值、香农熵、K-S检验值和指数移动平均值这4种特征参数,将这4种参数作为SVM和BP神经网络的输入,进行分类和测试,以MIT-BIH房颤数据库中专家给定的标签作为参考输出。其中,使用MIT-BIH房颤数据库中用前18例数据作为训练集,后7例数据作为测试集。结果表明,在10个心搏分类上得到了92%的准确率,在后3种分类上得到了98%的准确率,灵敏度和特异性均在97.7%以上,具有一定的可应用性,后续将进一步在临床心电数据中进行验证和改进。  相似文献   

17.
目的 基于机器学习方法,提出一种固体核径迹图像的计算机识别算法,实现核径迹的自动、快速和准确识别,提高固体径迹图像分析效率。方法 首先利用形态学方法扫描143张含有径迹的图像,确定疑似径迹位置并截取1 250张素材图。选取素材的50%为训练集、30%为验证集,训练机器学习模型。另选素材的20%为测试集,测试模型识别效果。算法代码基于MATLAB软件编写并训练。结果 建立的固体径迹识别算法识别能力较强,测试集识别准确度可达84.8%。算法构建的机器学习模型程序能跟随训练数据量的投入不断进化,准确度进一步提升。结论 本算法在图像形态学基础上结合机器学习对径迹识别算法进行了研究,较好地实现固体径迹的自动识别。未来将加大模型的数据投入,优化算法,提高识别准确度,以期为图像径迹自动识别提供更精确高效的方法。  相似文献   

18.
目的探讨基于"互联网+"可穿戴式远程网络心电图诊断平台在院外场景的应用价值。方法选取2017年4月~2019年3月在院外采集并实时传输到解放军总医院心电图网络会诊中心的67 730例远程网络心电图。分析心电图的质量以及对心律失常与心肌缺血的诊断价值。结果无法正常判读心电图约794份(1.17%);检出标注为"危急"的心电图共311份(0.46%),标注为"急"的心电图共4 586份(6.77%)。发现心律失常25 797例(38.09%),其中恶性心律失常,如心室停搏 2.5 s145例(0.21%)、三度房室传导阻滞14例(0.02%)、室性心动过速21例(0.03%)。共检出ST段改变患者7 991例(11.80%);确诊急性心肌缺血106例(0.16%);检出心肌梗死共86例(0.13%),其中陈旧性心梗53例(0.08%),急性ST段抬高型心肌梗死33例(0.05%)。33例急性心肌梗死患者中,30例被及时转诊行急诊PCI,转诊率达91%;三度房室传导阻滞、心室停搏患者均转诊至对应医院,转诊率100%;其中30例患者植入永久起搏器。结论远程网络可穿戴式心电图设备操作简便,适用于家庭及社区。心电图可诊断率高,出具报告时间短,危急患者可通过网络平台转诊,第一时间获得心电图诊断并得到及时救治。  相似文献   

19.
目的探索利用点阵(lattice)长短期记忆(long short term mermory network,LSTM)神经网络构建命名实体识别(named entity recognition,NER)模型解决中文医学文本的信息提取问题。方法利用Lattice LSTM来表征句子中的词汇词(lexiconword),从而将潜在词信息整合到基于字符的长短期记忆网络—条件随机场(long short term memory-conditional random?eld,LSTM-CRF)模型中。进一步使用一个大型自动获取的词典来匹配句子,进而构建基于词的Lattice。利用Lattice LSTM结构自动控制从句子开头至结尾的信息流。结果门控单元可用于将来自不同路径的信息动态传送到每个字符。在NER数据基础上进行训练后,LatticeLSTM能够学会从语境中自动找到更有用的词汇,以取得更好的NER性能。结论与基于字符和词的NER方法相比,本文所提出的模型优势在于利用显性词汇信息而不是字符序列进行标注,同时较少出现分词误差。  相似文献   

20.
目的 利用循环神经网络探索自动推断根本死因的可行性,为死因监测工作提供自动化工具。方法 利用2016—2021年福建省国家级死因监测点经专家审核的死亡报告数据,基于门控循环单元(GRU)构建根本死因推断模型,通过训练、验证和测试确定最终模型;用准确率、加权查准率、加权查全率和F1分数评价模型性能。结果 根本死因推断模型的验证集推断准确率达93.5%。测试集推断准确率为87.8%,加权查准率87.3%,加权查全率87.8%,加权F1分数为0.88。结论 基于循环神经网络的根本死因推断模型具有较好性能,深度学习相关技术在辅助提升死因监测工作质量上能够发挥作用,降低人工审核压力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号