首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
目的 应用项目反应理论(Item Response Theory,IRT)编制中国应征青年数学推理测验. 方法 根据项目反应理论编制试题,并对1047名入伍一年的新兵进行测试,采用三参数Logistic模型(Three-Parameter Logistic Model,3PL)拟合数据,用因素分析的主成分方法检验数据单维性,利用BILOGMG软件估计项目参数,采用铆测验非等组设计进行参数等值以挑选最有效项目组成测验. 结果 四套测验第一特征值均超过第二特征值的4倍,符合单维性要求,基本拟合3PL,项目拟合度均在96%左右,最终选取66个项目组成正式测验,其信息量达到25.149,测量标准误为0.199. 结论 测验信息函数达到项目反应理论的要求,测验信度良好.  相似文献   

2.
目的应用项目反应理论(Item Response Theory,IRT)编制中国应征青年数学推理测验。方法根据项目反应理论编制试题,并对1047名入伍一年的新兵进行测试,采用三参数Logistic模型(Three-Parameter Logistic Model,3PL)拟合数据,用因素分析的主成分方法检验数据单维性,利用BILOGMG软件估计项目参数,采用铆测验非等组设计进行参数等值以挑选最有效项目组成测验。结果四套测验第一特征值均超过第二特征值的4倍,符合单维性要求,基本拟合3PL,项目拟合度均在96%左右,最终选取66个项目组成正式测验,其信息量达到25.149,测量标准误为0.199。结论测验信息函数达到项目反应理论的要求,测验信度良好。  相似文献   

3.
本文着重介绍项目反应理论(IRT)的基本特征及其在医学量表编制和修订中的具体应用.IRT具有项目参数不变性,可以为条目和量表提供信息量及不同潜在能力对应的测量信度.因此,IRT主要从项目参数、项目特征曲线、个体-条目图、条目对模型的拟合情况、条目信息量、条目在不同群体上的项目功能差异等方面判断条目的优劣.  相似文献   

4.
目的 采用项目反应理论对儿童睡眠问卷进行项目分析,评价儿童睡眠问卷在国内的适用性。方法 2015年5—7月采用多阶段分层整群随机抽样方法,随机抽取了北京市西城、朝阳、昌平、顺义、房山、怀柔和门头沟共7个区县的25所幼儿园和中小学学校,共计11 420例儿童。采用儿童睡眠问卷调查其睡眠情况,该问卷主要包含与儿童睡眠呼吸障碍相关的4个维度,即呼吸、睡眠、行为、其他。统计分析采用基于二参数Logistic模型的项目反应理论,计算各条目的区分度和难度参数,并绘制项目反应特征曲线。结果 大多数条目具有较好的区分度,但“睡觉偶尔尿床”和“是否超重”的区分度明显低于其他条目(区分度参数估计值分别为0.441和0.124),且难度参数均较大(分别为4.378和6.172)。测验信息量结果提示删除这两个条目后,问卷提供的信息量几乎没有变化。结论 儿童睡眠问卷在评价儿童睡眠障碍中可以提供较好的初筛效果,但国内应用可以考虑对其进行简化。  相似文献   

5.
项目反应理论(IRT)的测验模型比传统的经典测量理论(CTT)基础上的心理测量方法具有更多的优点[1],已经成为现代测量理论的主流,基于项目反应理论开展起来的计算机自适应测验(CAT)近年来已经在一些大规模测验中得到广泛应用。建立试题项目库是开展计算机自适应测验的重要步骤,作者在编制图形智力测验的实践中发现,偶然情况下出现的答案错误,可以对项目参数的估计产生影响,甚至出现个别难度参数估计不出的情况。如何根据参数估计中的线索,及时发现这些错误,对于测验的编制具有重要意义。对象与方法一、对象本研究时间为2005年3月,被试为武…  相似文献   

6.
武圣君  苗丹民 《医学争鸣》2004,25(22):2111-2111
1 测题编制测验共包括70个汉语语词项目,其中大部分为词组,少数项目为单字;语词类型大部分为名词,小部分为动词和形容词.这些词汇主要选自<汉语水平词汇与汉字等级大纲>,部分词汇选自各类汉语词典等.项目测验形式为4选1的选择题,所有项目均为4个语词组成题干,要求从中选出1个与其他3个不同的词或词组,分别称为目标项和干扰项.在编制题目时尽量使所有语词通俗易懂,正确答案明确无误,通过控制干扰项的字型外观(如,偏旁种类、字体结构、笔划简繁等)、语词字数和组词形式(叠词如"爸爸",非叠词如"桌子")与目标项尽量匹配,使干扰项确实起到干扰作用.  相似文献   

7.
王进礼  张月娟 《医学争鸣》2006,27(21):2008-2010
目的:为人员选拔和安置编制一种操作简便、适用于团体施测的智力工作特征测验. 方法:依据智力成分和层次理论,参照内田-别莱佩林测验的定时分行形式,编制测验项目结构相同、由0到9数字随机排列的加、减、乘运算测验,用于检测计算、注意、记忆广度、计算转换的能力特征的<智力工作特征测验>(IWCT);IWCT以智力工作水平和工作曲线形态为评价指标;对998名武警战士和学员进行施测. 结果:该测验重测信度0.89;与内田-克莱佩林测验的相容效度0.70,与智力测验的相容效度为0.59,对训练成绩的预测效度为0.42;曲线类型对MMPI多个分量表得分的区分效度达到显著水平. 结论:IWCT初步测试结果各指标符合心理测量学要求,达到了测量智力工作特征测验的编制构想.  相似文献   

8.
目的 利用经典测量理论和项目反应理论对一般自我效能量表(general self-efficacy scale,GSES)在医学研究生中的信度、结构效度和条目特征进行评价分析。方法 对北京市6所综合三甲医院的1 021名医学研究生进行问卷调查,内容包括一般人口学特征与一般自我效能感。利用SPSS 24.0软件进行统计分析。利用克朗巴赫系数(Cronbach’s α系数)和组内相关系数分析内部一致性,使用因子分析方法探索量表的维度结构,使用等级模型的项目反应理论对量表10个条目的难度和区分度进行参数估计。结果 量表的整体克朗巴赫系数为0.92。平行分析主成分法和验证性因子分析均支持GSES的单维性结构。10个条目的区分度为1.82~3.65,难度为-3.51~1.66,且呈单调递增。该量表在医学研究生中的最大测验信息量为19.16。结论 一般自我效能量表具有良好的信度、结构效度和测量精度,在医学研究生调查中具有较好的适用性,但具体条目的难度偏低,可进一步优化完善。  相似文献   

9.
目的 编制征兵用语词推理测验,对应征青年的言语能力进行考察. 方法 使用自编征兵用语词推理测验对780名士兵进行了测量,基于项目反应理论进行了项目分析,形成一份含56个项目,难度值界于-1~-2.5之间,项目信息函数峰值均大于0.3的试卷.使用该试卷对1900名新兵进行了测量,3个月新兵营训练结束时由228名上级对1900名士兵的智力相关工作绩效情况进行了评价,通过对上述数据的分析确定了最终测验方法及划界分数,并进行了信、效度检验. 结果 240 s内正确作答的题数低于28题的人视为不合格.28题的信息函数峰值为30.68,位于难度水平-1.75处,该测验的总命中率为97.3%. 结论 语词推理测验可以作为士兵基本资格测验.  相似文献   

10.
目的 检验中文字词识别测验的信度和效度.方法 在全国分层比例抽样的1605人中随机抽取224例,完成一般资料的调查表、中文字词识别测验和中国修订韦氏成人智力量表(WAIS-RC).结果 全量表的Cronbach's α系数为0.97,识字分测验的α系数为0.97,词汇分测验的α系数为0.94,量表的分半信度为0.89~0.97,量表的重测信度为0.73~0.94,表明量表具有较好的内部一致性和稳定性;识字分测验得分与全量表总分的相关系数为0.87,词汇分测验与总分的相关系数为0.92,识字与词汇分测验间的相关系数为0.60;全量表总分与韦氏全量表智商的相关系数为0.72.结论 量表编制符合心理测量学要求,具有良好的信度和效度.  相似文献   

11.
BackgroundStudent examinations are an essential component of medical education and item analyses are important to assess test quality. Among miscellaneous psychometric theories used for test analyses, item response theory is more flexible and versatile than other theories. This study aimed to apply item response models to analyze an anesthesiology examination for medical and dental students.MethodsThis examination included 50 items that were administered to 170 5th- and 6th-year medical and dental students. One- and two-parameter logistic (1-PL and 2-PL) item response models were used to conduct item analyses of the examination. Fit statistics were examined to exclude misfit items and evaluate test reliability. Goodness-of-fit analyses were used to select the model having the better fit to data. Examinee's ability and item difficulty were estimated and then expressed on the common scale. Potentially differential items were detected using logistic regression.ResultsThe goodness-of-fit analysis revealed that, in our case, the 1-PL model was more suitable for item response analyses. No misfit item was noted and the test reliability was 0.81 (1-PL model). The mean examinee's ability was set at 0 by definition [standard deviation (SD) = 0.61] and the mean item difficulty was ?2.08 (SD = 1.93). There were 24 items with a difficulty level lower than the least able examinee, and three items had a difficulty level higher than the most able examinee. Four potentially differential items were identified.ConclusionItem response models are useful for medical test analyses and provide valuable information about model comparisons and identification of differential items other than test reliability, item difficulty, and examinee's ability.  相似文献   

12.
目的应用项目反应理论(IRT)进一步分析慢性病患者生命质量测定量表体系共性模块(QLICD-GM)条目。方法用QLICD-GM测定8种慢性病1 024例患者,采用塞姆吉玛等级反应模型计算每个条目的难度、区分度系数和信息量,绘制项目特征曲线,采用MULTILOG软件进行计算和作图。结果在所分析的30个条目中,其区分度为1.17~1.88,难度(程度)都呈严格的单调递增(-2.88~2.27)。根据平均信息量(0.36~0.97)并结合条目特征选出24个好的条目。结论项目反应理论能筛选出信息量较高的条目,且每个条目都能进行精确的定量刻画,可以弥补经典测量理论(CTT)的不足。  相似文献   

13.
BackgroundExaminations are necessary for assessment of student proficiency in medical education, but comparison of achievement across different cohorts in different tests is challenging. We applied psychometric test equating methods to compare student proficiency in two different examinations for a clinical anesthesiology course.MethodsEach examination contained 50 multiple choice items and nine common items were identified from the two examinations (administered in 2011 and 2012). The common item design was used for test equating. Two psychometric test-equating approaches, chained linear equating and item response theory, were used to compare student proficiency in anesthesiology across distinct medical student cohorts. Raw scores from the 2012 test were linearly transformed to the 2011 scale using the chained method, and then Rasch analysis was applied to calibrate examinee ability and item difficulty in the two examinations on a common scale.ResultsBoth the linear equating method and Rasch analysis indicated that students in the 2011 examination performed better than those who took the 2012 examination (both p < 0.001). Rasch analysis revealed that the range of student ability was between −0.53 and 4.16, while the difficulty of all items ranged from −5.25 to 6.32. No significant difference in mean item difficulty was noted among the common items and other items in the two examinations.ConclusionAlthough both the chained linear equating method and Rasch analysis can be readily applied to practical test-equating issues in medical education, Rasch analysis exhibited more versatility in test parameter estimation and item bank development for clinical curriculums.  相似文献   

14.
目的:比较基础医学融合型试题与非融合型试题(后文简称融合题和非融合题)在医学考试中的试题参数表现,为提高基础医学试题质量、适应以能力为导向的医学教育评价提供数据支持。方法:本研究通过在某次大规模临床医学考试中应用非融合题和融合题2种不同单项选择题题型,对相同的基础医学知识点进行考核,选取15个基础医学知识点,比较分析不同题型认知层次、考核要点,采用配对样本秩和检验比较不同题型难度,采用配对样本t检验比较不同题型区分度。结果:融合题认知层次为对基础医学知识点的应用,非融合题认知层次均为记忆或理解。融合题比非融合题平均每道试题的考核要点增加2.8个。融合题难度为[0.75(0.69,0.86)],非融合题难度为[0.77(0.59,0.92)],其差异无统计学意义(P=0.100)。融合题区分度为(0.31±0.10),非融合题区分度为(0.26±0.11),其差异具有统计学意义(P=0.015)。结论:融合题题型符合岗位胜任力为导向的医学教育改革要求,顺应医学考试评价发展趋势,提高了基础医学试题质量。  相似文献   

15.
计算机化智力测验的研制及其信度和效度的研究   总被引:3,自引:0,他引:3  
研制一种高效的计算机化智力测验方法,初步探讨其信度和效度。方法:把瑞文标准推理测验的60个项目按照由易到难排序,定义每5个相邻的项目为一个级别,分为12个级别。测验时,软件根据被试的回答估计其智力水平,并据此呈现合适的测验项目。用179名潜水人员的测验结果进行5次模拟测验,考察计算机化测验方法的效率及其信义和效度。结果:5次模拟测验平均仅用25%的测验项目,测验结果之间的相关系数大于0.72(P=0.0001),与原测验的相关系数大于0.79(P=0.0001)。结论:初步认为计算机化智力测验的效率及信度和效度较高,具有实际应用价值。  相似文献   

16.
张睿  费超晴  夏浩志 《中国全科医学》2019,22(12):1461-1467
背景 健康信息素养不仅关注个体对健康信息的掌握情况和获取途径,更注重个体对信息评价与应用的能力。中医在治病防病、养生保健方面发挥了不可替代作用,评估个体中医养生健康信息素养水平可有效促进我国社区居民健康。目的 编制中医养生健康信息素养量表,并检测其信效度。方法 2017年9月,在健康信息素养基本概念的基础上,查阅国内外相关文献、量表及《中国公民中医养生保健素养》和《中国公民健康素养——基本知识与技能(2015年版)》等中医养生权威问卷形成条目池,编制中医养生健康信息素养量表初稿(包括5个维度45个条目)。2018年1—2月,经过专家咨询形成中医养生健康信息素养量表初稿1(包括5个维度40个条目),2018年3月经过预调查及项目分析形成中医养生健康信息素养量表(包括5个维度36个条目)。2018年4—5月,采用便利抽样法选取南大和园、赛世香樟园、亚东城、西岗社区、仙林新村5个社区的220例社区居民进行正式调查,分析中医养生健康信息素养量表的信效度。结果 中医养生健康信息素养量表初稿1条目1~21、条目23~35、条目38~39得分与其总分的相关系数均>0.300,条目22、36、37、40得分与其总分的相关系数均<0.300。通过区分度法将调查对象分为高分组(由中医养生健康信息素养量表总分最高27%的个体组成,n=32)和低分组(由中医养生健康信息素养量表总分最低的27%的个体组成,n=32);高分组中医养生健康信息素养量表初稿1条目1~21、条目23~35、条目38、条目39得分高于低分组(P<0.05);高分组中医养生健康信息素养量表初稿1条目22、36、37、40得分与低分组比较,差异无统计学意义(P>0.05)。综上,删除条目22、36、37、40,形成中医养生健康信息素养量表。中医养生健康信息素养量表各条目水平的内容效度指数(I-CVI)为0.79~1.00,量表水平的内容效度指数(S-CVI)为0.911。中医养生健康信息素养量表的KMO值为0.858,Bartlett's球形检验的χ2=4 432.383,P<0.001,符合探索性因子分析条件。采用主成分分析法,共提取特征根>1.000的公因子5个,分别命名为对中医养生健康信息的认知能力、对中医养生健康信息的获取能力、对中医养生健康信息的评价能力、对中医养生健康信息的应用能力和信息道德,其累积方差贡献率为65.293%,各条目的因子负荷为0.423~0.860,均>0.400。中医养生健康信息素养量表的Cronbach's α系数为0.922,各维度Cronbach's α系数为0.839~0.882。结论 本研究编制的中医养生健康信息素养量表包括对中医养生健康信息的认知能力(5个条目)、对中医养生健康信息的获取能力(11个条目)、对中医养生健康信息的评价能力(11个条目)、对中医养生健康信息的应用能力(7个条目)和信息道德(2个条目)共5个维度36个条目,其在社区居民中具有良好的信效度和适用性,且易于理解,有利于研究者评估我国社区居民中医养生健康信息素养。  相似文献   

17.
目的 探讨中文版10条目心理韧性量表(CD-RISC-10)在恶性肿瘤患者中的信效度。方法 采用便利抽样法选取2015年12月—2016年7月于广州中医药大学第一附属医院、中山大学肿瘤防治中心、广东省中医院接受治疗的恶性肿瘤患者520例为调查对象,采用一般资料表、中文版CD-RISC-10、医院焦虑抑郁量表(HADS)、癌症患者自我管理效能感量表(SUPPH)对其进行调查。共发放问卷520份,回收有效问卷424份,有效回收率为81.5%。大样本施测2周后,采用EXCEL软件自带的随机程序从424例患者中选取50例采用中文版CD-RISC-10对其进行重测。采用双参数项目反应模型对中文版CD-RISC-10进行单维性检验、等级反应模型(GRM)条目分析,并分析其聚合效度、重测信度及截断值。结果 中文版CD-RISC-10仍保持单维结构,共解释58.06%的变异量,整个量表条目分离指数(ISI)为0.914。10个条目难度分布均匀,区分度为1.17~1.82,残差拟合度为-2.5~2.5,阈值间距为1.08~3.17 logits,不存在阈值倒错的情况。中文版CD-RISC-10得分与HADS总分及其焦虑、抑郁得分呈负相关,与SUPPH总分及其各维度得分呈正相关(P<0.05)。中文版CD-RISC-10的重测信度系数为0.855,截断值为21.5分,灵敏度为0.735,特异度为0.833。结论 中文版CD-RISC-10的单维性、单调性良好,条目的难度、阈值间距分布合理,同时具有较高的信度和外标效度,对于筛查情绪困扰的恶性肿瘤患者具有较高的敏感性,建议临床使用。  相似文献   

18.
目的应用六西格玛(6σ)质量管理方法对Roche Cobas E601电化学发光免疫分析系统检测项目的性能进行量化,并设计各项目的质量控制方案,指导质量持续改进。方法根据σ=[允许总误差(TEa)-偏倚(Bias)]/变异系数(CV),计算14个检测项目的σ水平,评价各项目的分析性能。其中TEa以卫生部临床检验中心(NCCL)室间质量评价的评价标准,Bias以本室参加NCCL室间质量评价的平均偏倚计算所得,本室室内质量控制日间不精密度(CV%)反映不精密度。根据Westgard等对σ值的说明,制定个体化的室内质量控制方案;同时计算各项目的质量目标指数(QGI),对于性能未达到6σ的项目,查找导致性能不佳的主要原因,并确立性能改进的方案。结果 14个检测项目的总性能σ水平为3.809.19,平均σ=6.20,σ≥6、5、4、3的分别占42.9%、21.4%、28.6%、7.1%;分析性能未达到6σ的项目中,75%需要优先改进精密度。结论 6σ质量标准能对电化学发光免疫分析系统的性能作出全面的评价,对设计个体化的质量控制方案和指导质量持续改进具有重要意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号