随机森林对文本情感分析的应用与R软件实现 |
| |
引用本文: | 郑志伟,邱佳玲,阳庆玲,龚晓春,郭山清,贾忠伟,郝春.随机森林对文本情感分析的应用与R软件实现[J].现代预防医学,2018(8). |
| |
作者姓名: | 郑志伟 邱佳玲 阳庆玲 龚晓春 郭山清 贾忠伟 郝春 |
| |
作者单位: | 中山大学公共卫生学院医学统计与流行病学系;山东大学计算机科学与技术学院;北京大学中国药物依赖性研究所;中山大学国家治理研究院全球卫生研究中心;中山大学公共卫生学院医学统计与流行病学系卫生信息研究中心广东省卫生信息学重点实验室 |
| |
摘 要: | 目的文本数据与日俱增,但较少应用于公共卫生领域。本文旨在阐述如何通过随机森林和R软件实现文本情感分析,提供方法学参考。方法人工标注文本情感类别,然后进行分词、特征词权重和特征词选择等步骤。用随机森林进行建模,并评估模型性能。结果 1 149条文本纳入分析,正向、负向和中立情感各占34.3%、31.3%和34.4%。共构建18个模型,最优模型准确率0.60。结论影响准确率的原因有样本量、特征词选择、算法选择和参数调整。文本分析也需考虑文本数据来源的准确性才能更好地为卫生政策制定者提供决策的科学依据。
|
本文献已被 CNKI 等数据库收录! |
|