共查询到10条相似文献,搜索用时 265 毫秒
1.
目的针对K-means法倾向于产生大小相等的球状类这一缺点,对K-means法进行改进,使其在对方差大小不等的类进行聚类时,可以达到较好的效果。方法以修正后的方差的倒数为权重,对欧氏距离的平方进行加权处理,从而用“相对距离”代替“绝对距离”来计算样品点与类间的相似度。结果在对方差大小不等的2个类进行聚类时,改进K-means法得到的正确率高于传统的K-means法。结论在对方差相差悬殊的两类进行聚类时,改进的K-means法优于传统的K-means法。 相似文献
2.
REML法和Bayesian法对小样本不平衡单因素随机效应模型方差成分估计的模拟比较分析 总被引:1,自引:1,他引:0
目的 比较限制性极大似然估计(REML)法和贝叶斯法(Bayesian)对小样本不平衡单因素随机效应模型方差成分估计的偏差和精密度,同时考虑在样本量的大小、单位的数量和单位内相关系数(ICC)的大小不同的情况下对方差成分估计的精确程度的影响.方法 通过计算机模拟7组不同设计的数据集,用SAS软件MIXED模块进行方差成分估计.结果 不同的设计中,REML法估计比Bayesian法估计更加接近真值,但Bayesian法对组间方差的区间估计更加精密.对于两种方法 而言,样本和单位数量的增加,估计结果 更加准确.组内方差的估计,比组间方差的估计更准确和精密.结论 对小样本不平衡结构数据,当ICC为小或中等时,REML估计比Bayesian估计的偏差和均方误差要小,推荐使用.但是Bayesian法的区间估计比REML法的区间估计更加精密. 相似文献
3.
目的 应用数据模拟方法,比较IPCW法与传统分析方法(意向性分析和censored方法)检验效能与假阳性率的差异,验证IPCW法的分析转组数据效果.方法 应用Monte Carlo模拟,产生试验组和对照组的基线数据、实验室检查数据及生存时间,比较三种方法的检验效能及假阳性率,从而评价IPCW法处理转组数据的优劣.结果 模拟结果显示,两组总生存时间不等时,IPCW法检验效能优于意向性分析;两组总生存时间相等时,IPCW法假阳性率与意向性分析相当.虽censored方法检验效能较好,但其假阳性率较高.结论 与意向性分析及censored方法相比,IPCW法在分析转组数据时更佳. 相似文献
4.
5.
动态聚类分析在中医方剂药量组合规律中的应用 总被引:3,自引:0,他引:3
聚类分析(cluster analysis)又称为集群分析、点群分析、簇分析等。该多变量分析方法根据实际的需要和聚类对象是样品还是变量,可分为两种类型,一种是对样品聚类(称为Q-型聚类),另一种是对变量聚类(称为R-型聚类)。在数学上,又可根据不同的聚类思想和策略,分为系统聚类(hierarchical clustering method)和非系统聚类(nonhierarchical clusteringmethod)两大类;前者主要分为集结法(agglomerative method)及分解法(divisive method)。对于样品聚类,当聚类对象很多时,若采用系统聚类法,则计算量很大,统计软件也需要计算很长时间,而且作出的聚类图(SPSS软件中为Dendrogram图或Icicle图)很复杂,难以解释,这时,我们可采用动态聚类法,也称为快速聚类法(quick cluster)来实现。本研究应用快速聚类法,利用SPSS12.0软件中K-means Cluster过程,对用于治疗慢性胃炎的汉代著名方剂半夏泻心汤的临床用药量进行了分析。 相似文献
6.
7.
逐步判别分析在脑中风分类诊断中的应用 总被引:3,自引:0,他引:3
目的 研究逐步判别分析在脑中风的缺血性与出血性分类诊断中的应用.方法 本文采用参数和非参数逐步判别分析,全部计算使用SAS软件.结果 对苏州大学附属第一医院189例脑中风病人,进行脑出血、脑缺血的分类诊断.参数法逐步判别分析判别正确率为:脑缺血84.52%,脑出血85.88%,总判别正确率85.19%;非参数逐步判别分析判别正确率为:脑缺血45.19%,脑出血94.12%,总判别正确率67.20%.结论 参数法逐步判别分析在脑中风的缺血性与出血性分类诊断中判别正确率较高,应用效果良好. 相似文献
8.
9.
《中国卫生统计》2015,(5)
目的探讨完全随机缺失条件下分类随机变量数据缺失对研究结果的影响,对各方法插补效果进行评价。方法基于上海地区35岁及以上吸烟人群吸烟与肺癌死亡关系的完整数据集,在5%、10%、20%及30%缺失率下,模拟有序分类变量(吸烟年数分组syfz)缺失和二分类变量(性别sex)缺失,重复模拟100次。采用删除法、众数插补法、多重插补-logistic回归法(MI/logistic)及多重插补-判别分析法(ML/discrim)对分类变量数据缺失进行处理。对插补效果从插补正确率及插补后模型参数的变化两个方面进行评价。结果有序分类变量缺失:各缺失率下,MI/logistic插补的正确率最高,MI/logistic和MI/discrim插补后模型参数的偏差均较小,对于吸烟年数sy以分组形式syfz纳入模型数据缺失导致模型参数的相对偏差更小,对syfz插补后模型参数相对偏差也小于连续变量sy插补后模型参数相对偏差。二分类变量缺失:各缺失率下,众数插补的正确率最高,删除法处理缺失数据后模型参数的偏差最小。结论连续变量缺失对模型结果的影响大于分类变量缺失,对于有数据缺失的连续变量可将其离散化,以分类变量的形式进行分析。缺失数据插补模型的拟合效果会直接影响插补效果,当模型拟合效果较差时可能会带来更大的偏差。 相似文献
10.
目的探讨适宜于集中式供水领域特点的风险评价方法。方法选择我国1 302座集中式供水设施,并计算其风险指数。采用两阶段聚类计算最优分类数。采用系统聚类和K-means聚类两种方法,并以最优分类数和标准推荐的三分类分别对研究对象的风险指数进行聚类分析。结果两阶段聚类显示最优分类数为4类;四分类系统聚类结果显示,97.8%的对象为2类;三分类系统聚类结果显示,98.5%的对象为1类;四分类的K-means聚类结果显示,14.0%、16.0%、30.6%和39.5%的对象被分别分为1~4类;三分类聚类结果显示,26.3%、34.2%和39.5%的对象被分别分为1~3类。结论集中式供水风险评价适宜分为分高、较高、较低、低四类;K-means聚类方法更适宜应用于该领域。 相似文献