非参数统计


举例说明
  例如,检验“两个总体有相同分布”这个假设,若假定两总体的分布分别为正态分布N(μ1,σ2)和N(μ2,σ2),则问题只涉及三个实参数μ1,μ2,σ2,这是参数统计问题。若只假定两总体的分布为连续,此外一无所知,问题涉及的分布不能用有限个实参数刻画,则这是非参数统计问题。又如,估计总体分布的期望μ,若假定总体分布为正态 N(μ,σ2),则问题是参数性的;若只假定总体分布的期望值存在,则问题是非参数性的。不过参数统计与非参数统计之间并没有泾渭分明的界线。例外
  有的统计问题,从不同的角度,可以理解为参数性的,也可以理解为非参数性的。例如线性回归(见回归分析)问题,若关心的是估计回归系数,它只是有限个实参数,因而可以看成是参数性的。但是,如果对随机误差的分布类型没有作任何假定,则从问题的总体分布这个角度看,也可以看成是非参数性的。统计方法
  重要的非参数统计方法 秩方法是基于秩计量(见计量)的一类重要的非参数统计方法。设有样本X1,X2,…,Xn,把它们由小到大排列,若Xi在这个次序中占第Ri个位置(最小的占第1个位置), 则称Xi的秩为Ri(i=1,2,…,n)。1945年F.威尔科克森提出的"两样本秩和检验"是一个有代表性的例子。设X1,X2,…,Xm和Y1,Y2,…,Yn分别是从分布为 F(x)和 F(x-θ)的总体中抽出的样本,F连续但未知,θ也未知,检验假设 H:θ=0,备择假设为θ>0(见假设检验)。记Yi在混合样本(X1,X2,…,Xm,Y1,Y2,…,Yn)中的秩为Ri,且为诸秩的和,当W >C时,否定假设H,这里C决定于检验的水平。这是一个性能良好的检验。秩方法的一个早期结果是C.斯皮尔曼于1904年提出的秩相关系数。设(X1,Y1),(X2,Y2),…,(Xn,Yn)是从二维总体(X,Y)中抽出的样本,Ri为Xi在(X1,X2,…,Xn)中的秩,Qi为Yi在(Y1,Y2,…,Yn)中的秩,定义秩相关系数为(Ri,Qi)(i=1,2,…n)的通常的相关系数(见相关分析)。它可以作为X、Y之间相关程度的度量,也可用于检验关于X、Y独立性的假设。
  次序计量和U 计量在非参数统计中也有重要应用。前者可用于估计总体分布的分位数(见概率分布)、检验两总体有相同的分布及构造连续总体分布的容忍限和容忍区间(见区间估计)等。后者主要用于构造总体分布的数字特征的一致最小方差无偏估计(见点估计)及基于这种估计的假设检验
  苏联数学家Α.Η.柯尔莫哥洛夫和Β.И.斯米尔诺夫在20世纪30年代的工作开辟了非参数统计的一个方面,他们的方法基于样本X1,X2,…,Xn的经验分布函数Fn(x)(见样本)。柯尔莫哥洛夫考察 Fn(x)与理论分布F(x)的最大偏差墹n,当墹n超过一定限度时,否定这个理论分布F(x)。这就是柯尔莫哥洛夫检验。斯米尔诺夫则考察由两个分布为F(x)和g(x)的总体中抽出的样本X1,X2,…,Xm和Y1,Y2,…,Yn计算其经验分布Fm(x)和gn(x)的最大偏差墹mn,当墹mn超过一定限度时,否定“F与g相等”这个假设。这就是斯米尔诺夫检验。
  在非参数性估计方面,有关于估计分布的对称中心、概率密度函数和回归函数等比较重要的成果。基本特点
  非参数统计的特点 非参数统计问题中对总体分布的假定要求的条件很宽,因而针对这种问题而构造的非参数统计方法,不致因为对总体分布的假定不当而导致重大错误,所以它往往有较好的稳健性(见稳健统计),这是一个重要特点。但因为非参数统计方法需要照顾范围很广的分布,在某些情况下会导致其效率的降低。不过,近代理论证明了:一些重要的非参数统计方法,当与相应的参数方法比较时,即使在最有利于后者的情况下,效率上的损失也很小。
  由于非参数统计中对分布假定要求的条件宽,因而大样本理论(见大样本统计)占据了主导地位。第二次世界大战前,非参数统计的大样本理论已有了一些结果,从20世纪50年代直到现代,更有了显著的进展,尤其是关于秩计量与U 计量的大样本理论,及基于这种理论的大样本非参数方法,研究成果很多。适用范围
  非参数统计最常用于具备下述特征的情况:
  1、待分析数据不满足参数检验所要求的假定,因而无法应用参数检验。例如,我们曾遇到过的非正态总体小样本,在t-检验法也不适用时,作为替代方法,就可以采用非参数检验。
  2、仅由一些等级构成的数据,不能应用参数检验。例如,消费者可能被问及对几种不同商标的饮料的喜欢程度,虽然,他们不能对每种商标都指定一个数字来表示他们对该商标的喜欢程度,却能将几种商标按喜欢的顺序分成等级。这种情形也宜采用非参数检验。
  3、所提的问题中并不包含参数,也不能用参数检验。例如,我们想判断一个样本是否为随机样本,采用非参数检验法就是适当的。
  4、当我们需要迅速得出结果时,也可以不用参数统计方法而用非参数统计方法来达到目的。一般说来,非参数统计方法所要求的计算与参数统计方法相比,完成起来既快且易。有些非参数统计方法的计算,就算对统计学知识不熟练的人,也能在收集数据时及时予以完成。相对优点
  非参数统计与传统的参数统计相比,有以下优点:
  1、非参数统计方法要求的假定条件比较少,因而它的适用范围比较广泛。
  2、多数非参数统计方法要求的运算比较简单,可以迅速完成计算取得结果,因而比较节约时间。
  3、大多数非参数统计方法在直观上比较容易理解,不需要太多的数学基础知识和统计学知识。
  4、大多数非参数统计方法可用来分析如象由等级构成的数据资料,而对计量水准较低的数据资料,参数统计方法却不适用。
  5、当推论多达3个以上时,非参数统计方法尤具优越性。相对缺点
  非参数统计方法也有以下缺点:
  1、由于方法简单,用的计量水准较低,因此,如果能与参数统计方法同时使用时,就不如参数统计方法敏感。若为追求简单而使用非参数统计方法,其检验功效就要差些。这就是说,在给定的显著性水平下进行检验时,非参数统计方法与参数统计方法相比,第Ⅱ类错误的概率β要大些。
  2、对于大样本,如不采用适当的近似,计算可能变得十分复杂。