首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
对同一组线性相关数据因变量Y与自变量X,有多种方法和多项指标用于选择“最优”多元线性回归模型。本文将熵(信息熵)〔1〕的概念引入线性回归模型。一个回归模型方程可视作一个系统,将系统的元序或混乱程度〔2〕与模型复杂性和拟合优度相联系,从而提出选择“最优”多元线性回归模型的信息熵法。原理与方法熵是一个系统无序或混乱程度的度量。将一个回归模型视作一个系统,信息熵最小的系统为不确定(无序)程度最小,混乱程度最低的系统,即欲得“最优”回归模型。因变量Y与自变量Xi(i=1,2,…,m,m为全模型自变量数目)呈线性相关。对于给定的准…  相似文献   

2.
目的 将Lasso-惩罚计分检验应用于小样本数据回归分析中影响因素的筛选与推断.方法 以前列腺癌数据为例,推断影响前列腺特异抗原(prostate-specific antigen,PSA)水平的因素.首先建立PSA及其影响因素的多重对数线性模型,采用Lasso-惩罚计分检验进行统计推断,把有统计学意义的变量纳入最终模型,计算该模型的校正决定系数R2和Cp值,然后与逐步法得到的一般多重回归校正R2和Cp值比较.结果 Lasso-惩罚计分检验得到4个有意义的变量:前列腺癌体积、前列腺重量系数、良性前列腺增生量、精囊入侵;一般多重回归得到前列腺癌体积、前列腺重量系数2个变量.两种方法得到模型的校正R2分别为0.637、0.603,Cp值分别为7.724、12.160.结论 Lasso-惩罚计分检能较好的筛选出重要变量且得到假设检验P值.  相似文献   

3.
目的探讨门诊量预测建模方法,为医院运营精细化管理提供参考依据。方法基于山东省某省级综合性医院2013-2016年各月门诊量等数据,探讨回归、指数平滑及ARIMA等三类多个模型,根据决定系数(R~2)、贝叶斯信息准则(BIC)及Ljung-Box Q统计量确定相应类别最优模型;通过比较三类最优模型的平均相对预测误差(MRFE),选择误差最小者为最终最优模型。结果最优回归预测模型表示为:月门诊量=月法定工作日天数×12643.946+78959.827,R~2为0.20,MRFE为10.0%;最优指数平滑模型为Winters加法指数平滑模型,水平常数α、趋势常数λ及季节常数δ分别为0.300、4.177×10~(-5)及6.397×10~(-5),R~2、BIC及Ljung-Box Q分别为0.952、18.913及17.096,MRFE为3.0%;最优ARIMA模型为ARIMA(1,1,0)(0,1,0)_(12),R~2、BIC及Ljung-Box Q分别为0.775、19.751及21.028,MRFE为7.4%。结论综合探讨门诊量预测建模方法并确定最优预测模型是推进医院精细化管理的有效措施。  相似文献   

4.
目的比较和评价不同实验条件下常见估计方法在估计自变量相对重要性时的指标差异,探索影响各方法的估计结果差异的因素。方法通过设置不同相关程度、自变量共线性水平及自变量个数等因子,使用改进后的大规模模拟研究观察不同方法间自变量估计值。结果优势分析、相对权重、乘积尺度的重要性估计值之和与模型R2之差,小于标准回归系数平方、简单相关系数平方。在2400个重要性指标值中,乘积尺度法估计的负值达到229个(9.54%)。相关系数平方估计值小于优势分析法。标准回归系数平方出现较多极端值。自变量间共线性水平可解释平均Kendallτ值4%~25%的变异,样本量可解释20%~77%的变异,而自变量个数可解释14%~60%的变异。结论对自变量重要性估计结果的影响最大的两个因子是样本量和自变量个数,其次有共线性水平和自变量与因变量间的相关程度。标准回归系数平方的估计结果变异性最大,相对权重与优势分析的估计结果是相对"有偏"的。  相似文献   

5.
目的将相对权重指标扩展应用于logistic回归分析,以更精确评价自变量的相对重要性。方法原始变量通过最小二乘正交变换获得一组独立不相关但与原变量最大相关的新变量集,并对因变量关于新变量集作回归分析获取一组标准回归系数β,再通过分析正交变量对原变量的回归作用返回至原变量集获取一组相关系数λ,最后对这两组估计参数平方乘积和所得结果就是自变量成比例贡献于因变量的重要性。结果相对权重总和等于模型的总变异R2,有效地分配了每个自变量对因变量的贡献大小。结论当存在共线性问题时,相对权重是评价自变量相对重要性的精确量化指标,为许多分类资料分析中希望确定自变量相对重要性的研究者提供一个可行的估计方法 。  相似文献   

6.
目的探讨当logitπ与连续型自变量之间呈线性关系时,采用原始值法和中位数截断法拟合logistic回归模型的差异。方法以成组设计病例对照研究为背景产生模拟数据,应用R软件"Smei Par"软件包对logitπ与连续型自变量间函数关系进行判断,进而采用原始值法和中位数截断法分别拟合logistic回归模型。结果原始值法较中位数截断法能够更好地拟合logistic回归模型。结论当logitπ与连续型自变量间呈线性关系时,建议采用原始值法。  相似文献   

7.
多元回归方程一般建立在变量的离差矩阵或协方差矩阵的基础上。变量标准化时,协方差矩阵等于相关矩阵。对回归方程的评价一般看回归贡献(在变量个数固定且为标准化形式时即复相关指数)。由此可考虑由复相关指数R~2的分布密度去估计多元回归分析时所需的样  相似文献   

8.
目的针对一般研究者在使用Cox回归时,直接比较标准化偏回归系数大小的做法,提出借助Wald检验进行排序,并用小细胞肺癌患者随访研究的实例加以说明。方法借鉴SNK多重比较法的比较策略,以尽可能少的比较次数,使用Wald检验对样本标准化回归系数进行假设检验,从而探讨总体标准化回归系数之间的关系,形成依影响大小排序的若干子集。结果选入模型的4个变量被划分在2个子集内,可认为第1子集中的自变量(实例中的肿瘤大小、年龄)对预后的影响小于第2子集中的自变量(神经元特异性烯醇化酶),自变量癌胚抗原对预后的影响介于两个子集之间。结论基于Wald检验对自变量进行排序,能够克服cox回归模型结果报告中判断自变量影响大小的主观性。  相似文献   

9.
Logistic回归模型中自变量相对重要性的优势分析   总被引:1,自引:0,他引:1  
目的应用扩展优势分析方法于Logistic回归模型中,为研究者在确定模型中自变量相对重要性提供一种可选择的方法。方法通过计算和比较与某自变量有关的所有可能子模型(即含有该变量的不同组合)的平均贡献增量△R2,以评价该自变量的相对重要性,并应用于实例分析。结果优势分析所得的各变量的总平均贡献之和等于最终模型的决定系数,其重要性排序与标准回归系数的排序不同,且R2M和R2E更适合作为优势分析的指标。结论优势分析可将各自变量对因变量总方差的贡献,分解为已解释方差百分比,且独立于模型,能精确地衡量自变量的相对重要性。  相似文献   

10.
目的 比较Peto-MacMahon非参数法(PM)和Rosner回归校准法(RC)对线性回归中回归稀释偏倚的校正效果,同时讨论不同情况下得到回归系数最佳校正效果时所需要的最小样本量.方法 用Matlab软件随机模拟产生重复测量数据,建立线性回归模型,用PM法和RC法进行校正,比较设定的真实系数与校正前、后回归系数,评...  相似文献   

11.
广义可加模型及其SAS程序实现   总被引:1,自引:0,他引:1  
回归分析中,非参数回归以其适用性强,对模型假定要求不严等优点,扩展了参数回归的应用范围,增强了模型的适应性。但非参数回归也有其局限性,当模型中的解释变量个数较多而样本含量并不是很大时,非参数回归拟合的效果并不尽如人意,容易引起方差的急剧增大。这种由于维度的增加而使方差急剧扩大的问题通常被称为“维度的孽根(curse of dimensionality)。而且非参数回归多是建立在核估计和光滑样条基础上的,其解释性也是一个问题。为了解决这些问题,Stone(1985)提出了可加模型(additive models),这种模型对多变量回归方程估计一个可加近似值。可加近似值有两个优点:(1)由于每一个个体的可加项是以单变量平滑估计的,因而“维度的孽根”可以避免;(2)个体项的估计解释了应变量如何随着自变量的变化而变化的。为了使可加模型扩展到更广范围的分布族,Hastie和Tibshirani(1990)又提出了广义可加模型(generalized additive models,GAM)。  相似文献   

12.
目的研究血管紧张素Ⅱ-1型受体(AGTR1)基因启动子区DNA甲基化水平与原发性高血压(EH)的相关性。方法选取在宁波市居住3代及以上的35~70岁汉族居民3 000人,分为新发病例组、既往病例组和对照组;按年龄、性别1∶1∶1匹配后有96对(共288人)进入病例对照研究。通过调查问卷、体格检查和实验室检测获取研究对象的基线资料及血生化指标。采用焦磷酸测序法检测AGTR1基因启动子区Cp G1~Cp G5位点的甲基化水平。采用条件Logistic回归模型对混杂因素进行校正,分析抗高血压药物治疗敏感的Cp G位点。结果三组研究对象的BMI、三酰甘油(TG)、空腹血糖(FPG)、高密度脂蛋白(HDL)、尿酸(UA)水平差异均有统计学意义(P0.05)。条件Logistic回归分析结果显示,与对照组的Cp G1甲基化水平(9.66±5.45)%比较,新发病例组(6.74±4.32)%(OR=0.888,95%CI:0.792~0.995)和既往病例组(4.99±3.97)%(OR=0.454,95%CI:0.226~0.913)均偏低,而新发病例组与既往病例组间,未见有差异的Cp G位点(均P0.05)。结论 AGTR1基因Cp G1的低甲基化是EH的影响因素,抗高血压药物治疗可能对AGTR1基因DNA甲基化水平无影响。  相似文献   

13.
目的比较季节性差分自回归移动平均模型(seasonal autoregressive integrated moving average,SARIMA)和SARIMA-广义回归神经网络(general regression neural network,GRNN)组合模型对中国流行性腮腺炎发病的预测效果,指导流行性腮腺炎的预防控制。方法收集2010年1月-2017年12月全国流行性腮腺炎月发病率数据,构建SARIMA模型和SARIMA-GRNN组合模型,以2018年的实际月发病率进行验证,比较两种模型的拟合效果。结果流行性腮腺炎的流行特征呈季节性双峰分布。经筛选:SARIMA(2,1,2)×(0,1,1)_(12)模型为相对最优模型(AIC=49.02,AICc=50.12,BIC=63.53);SARIMA-GRNN组合模型的最优光滑因子为0.013。SARIMA模型的MAPE、MAE、RMSE和R~2分别为17.221%、0.236、0.252和0.714,SARIMA-GRNN为14.115%、0.181、0.221和0.781。结论 SARIMA-GRNN组合模型拟合和预测效果均优于单纯SARIMA模型,更适合于我国流行性腮腺炎发病率的预测,可为该病的防控提供科学依据。  相似文献   

14.
医院住院成本多元岭回归模型的比较分析   总被引:3,自引:1,他引:2  
由于医院多产出的本质和成本管理的困难 ,医院成本分析已成为世界卫生部门研究的前沿课题。国内外在进行了大量的微观研究的基础上 ,从宏观的角度对医院成本也进行了一些研究。在建立医院成本宏观经济模型时考虑到了自变量间存在的多元共线性效应〔2~ 4〕,通过采用病例组合指数法解决了疾病分类间的权重问题〔1~ 3〕。但是在选择自变量建立回归模型时存在着这样的问题 :规模利用指标间存在着函数关系 ,因此不能把所有规模利用指标同时引入模型。本文就医院住院病人成本的影响指标进行探讨 ,并对其函数关系进行分析 ,对引入不同自变量建立…  相似文献   

15.
蚊虫灯诱捕量的混合回归分析   总被引:2,自引:1,他引:1  
对逐日蚊虫灯诱资料,应用多元逐步回归方法分析气象因素与诱捕量的关系。结果表明,风速是影响灯诱捕量最显著的因素,并计算或校正影响的校正指数。如在多元回归的基础上,加入前1和2天诱蚊资料作为自变量,建立混合回归模型,后者在拟合精度与残差模式方面均较前者有很大改善,说明混合回归分析更适于描述蚊虫种群的动态变化。  相似文献   

16.
广义可加模型及其SAS程序实现   总被引:1,自引:0,他引:1  
回归分析中,非参数回归以其适用性强,对模型假定要求不严等优点,扩展了参数回归的应用范围,增强了模型的适应性。但非参数回归也有其局限性,当模型中的解释变量个数较多而样本含量并不是很大时,非参数回归拟合的效果并不尽如人意,容易引起方差的急剧增大。这种由于维度的增加而使方差急剧扩大的问题通常被称为“维度的祸害(curse of dimensionality)”。  相似文献   

17.
目的分析我国南方5省媒介伊蚊幼蚊密度相关性并建立回归模型,为以登革热为代表的媒介伊蚊传播疾病风险评估、预测预警及科学防控提供科学依据。方法收集我国2012—2018年登革热I类省份媒介伊蚊监测点的布雷图指数(BI)、房屋指数(HI)、容器指数(CI)、诱蚊诱卵器指数(MOI)和千人指数等伊蚊幼蚊密度指标,各指标间进行相关性和回归分析,并利用回归模型对各省幼蚊密度进行预测。结果除福建省福州市(连江县)BI与CI相关性无统计学意义外(P0.05),其他各省媒介伊蚊BI与CI、HI、MOI、千人指数之间均呈正相关(P0.05)。云南省西双版纳州(勐海县)BI与HI、千人指数及福建省福州市(连江县)BI与千人指数回归模型拟合效果好(R~2分别为0.928、0.992和0.957);广东省广州市(海珠区)BI与MOI及福建省福州市(连江县)BI与CI的回归模型拟合效果相对较差(R~2分别为0.403和0.340)。云南省西双版纳州(勐海县)千人指数预测值和广西省钦州市(大路街)CI预测值的平均绝对百分误差(MAPE)均10%,回归模型预测效果好。结论南方5省的媒介伊蚊幼蚊密度各指标间存在相关性,回归方程可定量反映不同幼蚊密度指标之间关系且预测效果较好,可为我国各地媒介伊蚊监测、预测和媒介伊蚊传播疾病科学防控提供依据。  相似文献   

18.
回归预测模型的建立必须满足以下三个条件:①因变量与自变量之间存在线性统计关系。②自变量是确定性的,多元线性回归中要求自变量之间不存在线性关系。③各期的随机误差在任何时期都是互不相关的,反之则存在序列相关。只有符合上述三个假定条件时,预测模型才是有效的。在建立线性回归预测模型时,尤其当采用时间序列数据建模预测时,需从多方面对模型的假定条件加以检定,以检查模型是否成立。  相似文献   

19.
目的研究中国各地区农村居民食物消费差异,并分析影响农村居民食物消费的气候因素。方法以2000—2012年《中国统计年鉴》与中国经济社会大数据研究平台中我国各省农村居民小麦、稻谷、其他粮食、蔬菜、猪肉、牛羊肉、家禽、蛋及制品、奶及制品、水产品、食用油、食糖和酒13种食物的消费量数据为基础,进行聚类分析,将膳食结构分区,并比较各地理分区内食物消费的差异。选取中国气象局气象数据中心发布的《中国地面国际交换站气候资料年值数据集》及《中国地面累年值年值数据集(1981—2010年)》中平均气温、气温年较差、气温日较差、平均气压、平均日降水量、平均风速、平均相对湿度、平均日照时数8个气候因素为自变量,各类食物消费量为因变量,建立多元线性回归模型,研究食物消费与气候的相关性。结果中国农村居民膳食结构的地理分区为:京津地区、东北地区、黄河上游部分地区及中下游地区、东南沿海地区、长江中游及下游部分地区、岭南地区、西南地区、内蒙古地区、西藏地区和青(海)新(疆)地区。各类地区食物人均年消费量的比较中,京津地区蛋及制品(12.96 kg)和食用油(10.18 kg),东北地区蔬菜(128.20 kg),东南沿海地区水产品(15.81 kg)和酒(19.04 kg),岭南地区稻谷(189.36 kg)和家禽(10.17 kg),西南地区猪肉(26.46 kg),西藏地区其他粮食(126.31 kg)、奶及制品(32.38 kg)、牛羊肉(12.87 kg)、食糖(2.65 kg),青新地区小麦(184.63 kg)消费量均为全国最高。东北地区食糖(0.79 kg),东南沿海地区其他粮食(10.64 kg),岭南地区小麦(0.60 kg)和奶及制品(0.33 kg),西南地区牛羊肉(0.43 kg),内蒙古地区食用油(4.21 kg),西藏地区蔬菜(19.21 kg)、蛋及制品(0.60 kg)、水产品(0.01 kg)、猪肉(2.23 kg)和家禽(0.03 kg),青新地区稻谷(13.00 kg)和酒(2.25 kg)消费量为全国最低。气候与食物消费的多元线性回归分析显示,主粮中小麦消费量与平均日降水量呈负相关关系(P<0.01,校正R~2=0.632);稻谷与平均日降水量呈正相关关系,与平均气温与气温日较差呈负相关关系(P<0.01,校正R~2=0.839)。蔬菜与气温年较差呈正相关关系,与平均日照时长呈负相关关系(P<0.01,校正R~2=0.450);猪肉与平均日照时长呈负相关关系(P<0.01,校正R~2=0.386)。结论中国农村居民膳食结构可分为10个不同类型的地理分区。平均日降水量与小麦、稻谷消费量分别呈负、正相关关系。平均日照时长对蔬菜和猪肉消费量有负向影响。平均气温、气温日较差与稻谷消费量呈负相关关系,气温年较差对蔬菜消费量有正向影响。  相似文献   

20.
目的采用正交设计典型状态联合时间交换法(TTO)探索构建适合中国人群的生命质量量表(EQ-5D)积分体系建模方法。方法采用分层整群随机抽样的方法,从医学院校按年级、专业分层抽取在校大学生200人,选取L_(18)(2×3~7)正交设计表得到18个标准状态。应用STATA/SE 12.0软件构建了9个加权最小二乘多元线性回归模型,模型包括11个哑变量。结果总体水平上以中位数为基础构建的WLS回归模型(模型AM00)最优,该模型无截距、无N3变量,具有简洁、高效的特点,其决定系数R~2=0.9997,平均绝对误差MAE=0.04769。且评估曲线具有明显的国人文化特征。结论总体水平上以中位数为基础无N3无截距的WLS回归模型(AM00)是最优模型,该种建模方法最为合理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号