摘 要: | 目的探讨基于二项分布的率及其数据转换采用正态分布近似法分析的适用条件。方法计算机模拟二项分布抽样,样本数n在8~1000范围内取值,总体率π在0.01~0.50范围内取值,共计49650种组合。对每种组合进行1000次二项分布抽样,计算偏度系数。另外,对每种n、π组合下的1000个率分布进行对数转换、logit转换、平方根反正弦转换及双重反正弦转换后重复以上分析过程。对5种方法的偏度系数绝对值进行排序比较,并考察率的转换对偏度系数的影响。结果原始的率的偏度系数在nπ≥5时位于±0.66范围内,如以此为标准,nπ<0.43时,任何转换都不能使偏度系数达标。nπ范围大致在0.43~1、1~1.35、1.35~1.5、1.5~2.4及2.4以后时,偏度系数绝对值最小者分别是反正弦转换、双重反正弦转换、对数转换、logit转换及双重反正弦转换。双重反正弦转换整体表现最佳,是唯一的在nπ≥0.5之后即可使偏度系数稳定在±0.66内的方法。nπ较小时,双重反正弦转换的偏度系数几乎总是优于原始率,但这种优势随nπ的增加而减弱,在nπ≥20后已不明显,甚至局部落后。结论对基于二项分布的率及其转换后可正态近似应用的条件,简单的推荐是在nπ≥0.5时使用双重反正弦转换,即使nπ≥5时,双重反正弦转换也可改善偏度系数。这种改善在nπ≥20时已不明显,甚至局部落后。而实际操作时宜根据具体情况,个体化进行比较择优。
|