数据的正态性检验汇总怎么做_检验数据

博客小编 (34) 2024-09-19 16:01:01

一、图示法

1、P-P图

以样本的累计频率作为横坐标，以安装正态分布计算的相应累计概率作为纵坐标，把样本值表现为直角坐标系中的散点。如果资料服从整体分布，则样本点应围绕第一象限的对角线分布。

2、Q-Q图

以样本的分位数作为横坐标，以按照正态分布计算的相应分位点作为纵坐标，把样本表现为指教坐标系的散点。如果资料服从正态分布，则样本点应该呈一条围绕第一象限对角线的直线。

以上两种方法以Q-Q图为佳，效率较高。

3、直方图

判断方法：是否以钟形分布，同时可以选择输出正态性曲线。

4、箱式图

判断方法：观测离群值和中位数。

5、茎叶图

类似与直方图，但实质不同。

二、计算法

1、偏度系数（Skewness）和峰度系数（Kurtosis）

计算公式：

g₁表示偏度，g₂表示峰度，通过计算g1和g2及其标准误σ_g1及σ_g2然后作U检验。两种检验同时得出U<U_0.05=1.96，即p>0.05的结论时，才可以认为该组资料服从正态分布。由公式可见，部分文献中所说的"偏度和峰度都接近0……可以认为……近似服从正态分布"并不严谨。

2、非参数检验方法

非参数检验方法包括Kolmogorov-Smirnov检验（D检验）和Shapiro- Wilk （W 检验）。

SAS中规定：当样本含量n ≤2000时，结果以Shapiro – Wilk（W 检验）为准，当样本含量n >2000 时，结果以Kolmogorov – Smirnov（D 检验）为准。

SPSS中则这样规定：（1）如果指定的是非整数权重，则在加权样本大小位于3和50之间时，计算 Shapiro-Wilk 统计量。对于无权重或整数权重，在加权样本大小位于3 和 5000 之间时，计算该统计量。由此可见，部分SPSS教材里面关于"Shapiro – Wilk适用于样本量3-50之间的数据"的说法实在是理解片面，误人子弟。（2）单样本 Kolmogorov-Smirnov 检验可用于检验变量（例如income）是否为正态分布。

对于此两种检验，如果P值大于0.05，表明资料服从正态分布。

三、SPSS操作示例

SPSS中有很多操作可以进行正态检验，在此只介绍最主要和最全面最方便的操作：

1、工具栏--分析—描述性统计—探索性

2、选择要分析的变量，选入因变量框内，然后点选图表，设置输出茎叶图和直方图，选择输出正态性检验图表，注意显示（Display）要选择双项（Both）。

3、Output结果

（1）Descriptives：描述中有峰度系数和偏度系数，根据上述判断标准，数据不符合正态分布。

S_k=0，K_u=0时，分布呈正态，Sk>0时，分布呈正偏态，Sk<0时，分布呈负偏态，时，Ku>0曲线比较陡峭，Ku<0时曲线比较平坦。由此可判断本数据分布为正偏态（朝左偏），较陡峭。

（2）Tests of Normality：D检验和W 检验均显示数据不服从正态分布，当然在此，数据样本量为1000，应以W检验为准。

（3）直方图

直方图验证了上述检验结果。

（4）此外还有茎叶图、P-P图、Q-Q图、箱式图等输出结果，不再赘述。结果同样验证数据不符合正态分布。

许多计量资料的分析方法要求数据分布是正态或近似正态，因此对原始独立测定数据进行正态性检验是十分必要的。

通过绘制数据的频数分布直方图来定性地判断数据分布正态性。这样的图形判断决不是严格的正态性检验,它所提供的信息只是对正态性检验的重要补充。

正态性检验主要有三类方法:

一、计算综合统计量

如动差法、夏皮罗-威尔克Shapiro-Wilk 法(W 检验) 、达戈斯提诺D′Agostino 法(D 检验) 、Shapiro-Francia 法(W′检验) .

二、正态分布的拟合优度检验

如皮尔逊χ2 检验、对数似然比检验 、柯尔莫哥洛夫Kolmogorov-Smirov 法检验 .

三、图示法(正态概率图Normal Probability plot)

如分位数图(Quantile Quantileplot ,简称图) 、百分位数(Percent Percent plot ,简称PP 图) 和稳定化概率图(Stablized Probability plot ,简称SP 图) 等.

下面介绍几种较统计软件中常用的正态性检验方法

1、用偏态系数和峰态系数检验数据正态性

偏态系数Sk,它用于检验不对称性;峰态系数Ku,它用于检验峰态。 S k= 0, K u= 0 时, 分布呈正态, S k> 0 时, 分布呈正偏态,S k < 0 时, 分布呈负偏态。适用条件：样本含量应大于200

2、用夏皮罗-威尔克(Shapiro-Wilk)法检验数据正态性

即W检验,1965 年提出,适用于样本含量n ≤50 时的正态性检验;。

3、用达戈斯提诺(D′Agostino)法检验数据正态性

即D检验,1971提出,正态性D检验该方法效率高，是比较精确的正态检验法。

4、Shapiro-Francia 法

即W′检验,于1972 年提出,适用于50 < n < 100 时的正态性检验。

5、图或PP图

散点聚集在固定直线的周围，可以认为数据资料近似服从正态分布

SPSS&SAS规则：
SPSS 规定:当样本含量3 ≤n ≤5000 时,结果以Shapiro - Wilk (W 检验) 为难,当样本含量n > 5000 结果以Kolmogorov - Smirnov 为准。

而SAS 规定:当样本含量n ≤2000 时,结果以Shapiro - Wilk (W 检验) 为准,当样本含量n >2000 时,结果以Kolmogorov - Smirnov (D 检验) 为准

问：对照组和病例组都是20例，拟对某指标进行正态性检验，是用Kolmogorov-Smirnov检验(简称K-S检验)，还是Shapiro-Wilk检验？已用K-S检验不能认为该指标不是正态分布，但是Shapiro-Wilk检验表明其为非正态分布，我该相信哪个检验结果？答：Kolmogorov-Smirnov检验：检验频数分布的正态性检验，适合大样本。Shapiro-Wilk检验：小样本数据的正态性检验。矩法正态性检验: 不限样本。问：用SPSS中analysze/discriptive statistics/explore法和用analyze/nonparametric tests/1-sample K-S法评价正态性，结果不完全相同，为什么？答：以第二个为准，第一种方法是参数检验，而第二种是非参数检验，第一种是在知道总体分布的情况下做的，第二种是在不知道总体分布的情况进行的检验，而且大多数的检验，我们都是不知道总体分布到底是什么才做的K-S检验。

因此在做分析的时候一般用第二种，标准的检验单样本分布的方法。不过一般推荐用上面的，并且和SAS的结果比较吻合。同时样本量小的时候选S-W的结果，至于结果的不同，应该是不同的方法算出的值不同，这很正常，因为这几个方法的数学表达式就不一样，中间对数据的处理也不一样，会有信息损失等原因的，在正态检验中，尤其是接近α水准时，往往容易出现问题，所以要根据资料的性质判断用什么方法进行检验更合适。不是把所有的方法都做一遍。对于到底P取多少才有意义，说法有好多种，常用的是0.1 吧，SPSS自带的是0.2的界值。其实还是得结合，PP图之类的来观察会好些。小样本最好不要看Kolmogorov-Smirnov的结果，常常会有问题，Shapiro-Wilk 的结果会好些。补充：如果根据国标，其偏态和峰态算法，其值为多少时符合正态别有规定呢？K-S检验记得在资料上见过8<=n<=50时可以利用，小样本就不推荐，W检验在国标中不推荐，具体原因未知，不过，推荐了EPPS-PULLEY法（在SPSS，SAS软件中未见有这种检验，但有针对的软件对该法有独立开发）。问：那为什么用analysze/discriptive statistics/explore法的结果中，nonparametric tests 图下有一句话： test distribution is normal。这句话和P值不就矛盾了吗？答：这个是对前面给出均数标准差时候的一个假定，因为如果不服从正态，给出这两个参数是没有实用价值的，或者说是错误的，所以它给了一个假定。你看a，b标注在什么地方？

问：大样本的非正态资料可看作近似正态分布的资料，那么其描述能不能用均数加减标准差来表示呢？一定要用中位数和四分位数间距来表示吗？答："大样本的非正态资料可看作近似正态分布的资料"这是基于中心极限定理，大样本均数服从正态分布，可用U检验进行两组均数的比较。并非大样本的非正态资料可看作近似正态分布的资料。大样本资料的描述可以用均数加减标准差。数据的描述正态 X±S 非正态 M(QR) （M代表中位数，QR=Q3-Q1，代表四分位数间距）非正态资料也有用 M(P25,P75)来进行描述的，能够更直观的看到数据的分布形状

疑问:这儿有个值得考虑的问题，多大属于大样本？如果样本是我们常说的"大样本"那么只能说明样本参数是符合正态分布。就样本资料来说，如果这个样本的资料偏态严重，那么就不适合采用均数加减标准差来对这个样本资料进行描述。

问：SPSS中只有关于t检验的程序，请问U检验的程序在哪里呢？答：U检验SAS程序（只有样本量、均数、标准差的情况）data utest;n1=116; x1=0.2189; s1=0.2351;n2=125; x2=0.2280; s2=0.2561;u=(x1-x2)/sqrt(s1**2/n1+s2**2/n2);p=(1-probnorm(abs(u))*2;proc print;var u p;run;SAS的正态性检验PROC UNIVARIATE DATA=data1 NORMALVAR x;RUN;

注：以上问题即回答来自各大论坛，本工作室对其进行整理，和修正，以方便读者。如有不妥支出，请及时帮我们斧正，谢谢！如有与"GBT4882-2001数据的统计处理和解释-正态性检验"冲突的，请参照国标。下载地址http://www.tj911.cn/netdisk/GetFile.asp 提取码：009MMH

两种正态性检验方法差异比较

SPSS 2010-06-26 13:20:34 阅读56 评论0 字号：大中小

SPSS里面有两处可以检验数据正态性，
一个是: Analysis - Descriptive Statistics --Explore,这可能是常用的方法

数据的正态性检验汇总怎么做_检验数据 (https://mushiming.com/) 第1张

另一处是：Analysis -Nonparametric tests -- One sample K-S test，

数据的正态性检验汇总怎么做_检验数据 (https://mushiming.com/) 第2张

两个地方虽然都用到了名称相同的Kolmogorov-Smirnov Test，但是经常会出现检验的结果不一致的情况。

比如就用SPSS自带的数据Anxiety 2.sav，分别对trial1-trial4的检测值做正态性检验
用EXPLORE得出的结果是：

数据的正态性检验汇总怎么做_检验数据 (https://mushiming.com/) 第3张

而用NPAR做出的结果是：

数据的正态性检验汇总怎么做_检验数据 (https://mushiming.com/) 第4张

在'探索'里出现的Kolmogorov-Smirnov检验，它的右上角有一个a的注释号。
下面的介绍表明它是经过Lilliefors改进或纠正的结果。
它将Kolmogorov-Smirnov检验改进用于一般的正态性检验。

而在'非参数检验'里出现的Kolmogorov-Smirnov检验，是没有经过纠正或改进的。
该正态性检验只能做标准正态检验。

SPSS规定：当样本含量3≤n≤5000时，结果以Shapiro—Wilk(W 检验)为难，当样本含量n>5000结果以Kolmogorm —Smimov(D检验)为准。

SAS规定：当样本含量n≤2000时，结果以Shapim—Wilk(W 检验)为准，当样本含量n>2000时，结果以Kolmogorov—Smimov(D检验)为准。

在SPSS和SAS等统计分析软件中，通常用统计描述模块中的Shapiro-Wilk检验、经过Lilliefors显著水平修正的Kolmogorov—Smirnov检验和非参数检验模块中的单一样本Kolmogorov—Smirnov检验进行正态性判定。但是这几种检验方法存在以下几方面的问题。
(1)在实际应用中常出现检验结果与直方图、正态性概率图不一致，甚至几种假设检验方法结果完全不同的情况。
(2)Shapiro—Wilk检验(Ⅳ 检验)和经过Lilliefors显著水平修正的Kolmogorov—Smirnov检验(D检验)是用一个综合指标(顺序统计量Ⅳ 或D)来判定资料的正态性由于两种方法都是用一个指标反映资料的正态性，所以当资料的正态峰和对称性两个特征有一个不满足正态性要求时，两种方法出现假阴性错误的机率均较大；而且两种方法的检验统计量都是进行大小排序后得到，所以易受异常值的影响。
(3)Kolmogorov—Smirnov单一样本检验是根据实际的累计频数分布和理论的累计频数分布的最大差异来检验资料的正态性，可对正态分布进行拟合优度检验。但它并非检验正态性的专用方法，因此它的检验效率是最低的，最容易受样本量和异常值等因素的影响。
没有修正的K-S检验的原始公式里面，检验的既是标化后的数据是否服从理论的分布。

正态性检验（上）

2008-04-25 10:45

1. 样本量较大时的结果：

运用的数据是SPSS13.0Data里面的diameter_sub.sav，样本含量是216

对数据分别支用SAS和SPSS进行正态性检验：

1.1 SAS中用Proc univariate normal;命令

结果如下：

Tests for Normality

Test --Statistic--- -----p Value------

Shapiro-Wilk W 0. Pr < W 0.4813

Kolmogorov-Smirnov D 0.057717 Pr > D 0.0789

其中SAS中SAS 规定:当样本含量n ≤2000 时,结果以Shapiro - Wilk (W 检验) 为准,当样本含量n >2000 时,结果以Kolmogorov - Smirnov (D 检验) 为准。

1.2 SPSS里面用Explor过程Plots选项中Normality Plots with tests

结果如下：

Tests of Normality

	Kolmogorov-Smirnov(a)			Shapiro-Wilk
	Statistic	df	Sig.	Statistic	df	Sig.
AP diameter(mm)	.058	216	.070	.994	216	.476

a Lilliefors Significance Correction

对于SPSS结果选用哪个方法，我看的资料并不一致：在SPSS13.0书上以样本量≤50，选Shapiro - Wilk 检验，（而有文献SPSS说样本含量3 ≤n ≤5000 时,结果以Shapiro - Wilk (W 检验) 为准，有出入）

1.3 在SPSS13.0中单样本的K-S拟合优度检验讲到：可以用来检验样本的分布是否服从某种理论分布――可以是正态、均匀等。用上述例子选Normal分布进行计算

结果如下：

One-Sample Kolmogorov-Smirnov Test

		AP diameter(mm)
N		216
Normal Parameters(a,b)	Mean	14.4421
	Std. Deviation	.71728
Most Extreme Differences	Absolute	.058
	Positive	.032
	Negative	-.058
Kolmogorov-Smirnov Z		.859
Asymp. Sig. (2-tailed)		.451

a Test distribution is Normal.

b Calculated from data.

THE END

发表回复

请先登录账户再评论哦