本文主要摘选了一些游戏设计者需掌握的统计学话题。特别对于系统设计师、机械设计师、平衡设计师等设计领域的设计师来说,统计学着实有用且很重要。

作为前数学专业毕业生,学过的概率统计知识已经忘记得差不多了,对于统计学的概念能清楚记得的也只有方差,标准差和均值了。正态分布只记得了一个曲线图了,其他性质什么的都不记得了。更遑论说知道每一个统计变量的意义了。所以看到这个书名的时候就挺好奇这个所谓的极简的统计学究竟简单到什么程度。事实上看完之后确实觉得真得讲得很简单了,有初中以上的数学程度就可以轻松看完全书了。关键是没有生硬地去讲公式的证明和推导,一些复杂的理论都是直接给出结论的,重点在比较形象地去说明每个统计量和公式的含义和用法,让我们能更好地理解和运用这个统计量来解决现实中的问题。

已经很难在可以理解的基础上对本书中的一些说明过程做进一步浓缩了,这里也不会做这样的努力。本文只是尝试在读过《极简统计学》之后将其中我认为有用的知识点和需要记忆的内容提取出来,做成一个结构清晰的速查性质的文摘,这样必然会损失其中的一些逻辑上的关联和形象生动的示例过程,如果再看过本文之后对这些内容感兴趣,可以去找来原书通读一遍。事实上我当时读完整本书也就只用了8个小时左右。

Chapter 5 Estimation

本篇是第五章,内容是参数估计。

虽然统计学是一门基于数学的学科,但是它实在很枯燥!严格地说——如果你曾经不得不大量地研究双边置信区间、学生T检验以及卡方分布测试,有时你会觉得很难消化这些知识点。

总述

《极简统计学》共计21章,分为两部分来组织全文,第一部分主要介绍一些统计量,第二部分通过这些统计量来完成一些推论统计的过程。通读全书之后可以发现,本书的最终目的只是为了完成了两件很有意义的推导:

  • 如何在只知道样本数据的情况下推算正态母群体的总体方差
  • 如何在只知道样本数据的情况下推算正态母群体的总体均值

本文自然不会再完成这样一个推导过程。和原书的结构一样,本文也会分为两部分来做摘要,一部分是统计量,一部分是区间估计的方法。

1.参数估计的一般问题

正如前面介绍的,统计学的两大分支,分别是描述统计和推断统计。所以今天来谈谈推断统计的第一大问题——参数估计。当然一般叫统计推断的会更多些,二者是一样的。
统计推断(Statistical
Inference)——主要包括参数估计和假设检验,实质就是通过样本的均值、标准差、方差等去估计总体的均值、标准差、方差或者判断总体的分布形式和分布参数。

  • 参数估计:根据从总体中抽得的样本所提供的信息,对总体分布中包含的未知参数作出数值上的估计。
    点估计:用样本的某一函数值来估计总体分布中的未知参数;
    区间估计:按照一定的可靠度估计出参数的一个范围,即确定一个区间,使这一个区间内包含参数真值的概率达到预先所要求的程度。
  • 假设检验:需要对总体的分布形式或分布参数事先作出某种假设,然后根据样本观测值,运用统计分析的方法来检验这一假设是否正确。

上一篇提到的,获取样本之后,我们需要去猜总体,参数估计就是猜总体的参数(分布中所含的未知参数;分布特征:均值、方差等;事件的概率等)或者参数空间(参数的可能取值范围)。
假设检验是下一章内容,这里就不细述了。
首先明确两个概念:估计量(estimator)与估计值(estimated value)。

  • 估计量:
    用于估计总体参数的随机变量,一般为样本统计量(如样本均值、
    样本比例、 样本方差等; 例如:样本均值就是总体均值μ
    的一个估计量)。
  • 估计值: 估计参数时计算出来的统计量的具体值,如果样本均值=80,
    则80就是总体均值的估计值。

既然是估计量,就必须有评价估计量的标准。一般包括以下几点:

  • 无偏性:估计量的数学期望等于被估计的总体参数,样本的随机性导致估计偏差,
    偏差平均值为0,
    无系统误差(所以在这里又提出了渐进无偏估计:估计随着样本量的增加而逐渐趋近于真值。渐进无偏估计指系统偏差会随着样本量的增加而逐渐减小,趋于0,在大样本时可近似当无偏估计使用)。
  • 有效性: 对同一总体参数的两个无偏点估计量,
    有更小标准差的估计量更有效。
  • 一致性: 随着样本容量的增大,
    估计量的值越来越接近被估计的总体参数。

由于无偏性是最普遍的标准。这里再介绍部分无偏性的几个要点:

* 样本均值是总体期望的无偏估计。

  • 诸观测值对样本均值的偏差可正可负,其和恒为0(n个偏差中只有n-1个是独立的)。
  • 自由度:独立偏差个数。
  • 偏差平方和(样本量相等情况下,偏差平方和的大小反映样本散布的大小,
    样本量大,偏差平方和大趋近于平均偏差平方和,偏差平方和的期望小于方差,有偏估计,渐进无偏估计。

点估计(point estimate)

  • 用样本估计量的某个取值直接作为总体参数的估计值(例如:用样本均值直接作为总体均值的估计;用两个样本均值之差直接作为总体均值之差的估计)。
  • 无法给出估计值接近总体参数程度的信息(虽然在重复抽样条件下,点估计的均值可望接近总体真值,但由于样本是随机的,抽出一个具体的样本得到的估计值等同于总体真值的可能性很小,特别是在连续分布时,该概率几乎为0,一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量)。

一般来说,我是喜欢物理学和力学的,因为很多时候只需简单地分析一个事例,你就能核实现状。当你计算苹果从树上落下的速度及方向时,如果你的结果是苹果应以每小时1224英里垂直向上抛出,也就是实际上你已经在头脑中核实过结果了。

统计量

2.区间估计 Confidence Intervals

正如前面提到的点估计可靠性较低,因此在点估计的基础上又提出了区间估计(interval
estimate),它能解决的问题包括:

  • 为解决参数估计的精确度和可靠性问题,
    在点估计的基础上给出总体参数估计的一个区间范围(该区间一般由样本统计量加减抽样误差而得到),使这一个区间内包含参数真值的概率大到预先所要求的程度。
  • 它不具体指出总体参数等于什么,但能指出总体的未知参数落入某一区间的概率有多大。

二者的区别在于:点估计是一个数,区间估计给出一个区间,提供更多关于变异性的信息。通俗的解释,你女朋友买了件衣服,让你猜价格,你猜中准确价格很难,但是你猜一个范围还是准确度比较高的。

图片 1

所以区间估计(interval
estimate)的概念是——根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。
由概率度量则引出了置信区间(Confidence Intervals)的概念。

图片 2

置信区间实质上是由样本统计量所构造的总体参数的估计区间。在某种程度上确信这个区间包含真正的总体参数(用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总
体参数的真值,我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个)。置信区间表明了区间估计的精确性,
区间越小越精确,区间越大越不精确。
置信水平——将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平(置信度)。置信水平表明了区间估计的可靠性,
表示为 (1 – α) (α是总体参数未在区间内的比例, 区间估计不可靠的概率为α,
如α=0.05, 表明结论犯错误的概率为0.05),常用的置信水平值有99%, 95%,
90%。
那么什么样的置信区间是好的置信区间呢?也就是区间估计的评价标准是什么呢?一般包括如下两点:

  • 置信度(置信系数)越大越好——概率越大越放心,但不能一味求大。
  • 随机区间平均长度越短越好——估计精度越高。

但是在某些实际问题中,我们可能更关心置信上限或置信下限(合金钢强度,越大越好(望大特性),平均强度下限是个重要指标,药物毒性,越小越好(望小特性),平均毒性上限是个重要指标)。这就是单侧置信限问题。
谈完了这么多理论,接下来进入实践,如何做一个总体参数的区间估计?
按照前一章,我们还是讨论三个重要的总体参数:均值、比例、方差。也是先谈一个总体参数的区间估计。
首先规定好符号对应统计量和参数。
总体均值——μ,总体比例——p,总体方差——σ²;
样本均值——x,样本比例——p,样本方差——s²。
一个总体均值的置信区间估计方法总结起来就是:

  • 正态分布,且总体方差σ已知,用Z值;
  • 正态分布,且总体方差σ未知,用t值;
  • 非正态分布但是大样本,无论总体方差σ是否已知,用Z值。

图片 3

一个总体比例的置信区间估计方法如下:
假定条件np≥5, n(1-p)≥5, n≥30。

图片 4

一个正态总体方差的置信区间估计方法如下:

图片 5

接下来谈谈两个总体参数的置信区间的估计方法。
估计的一般包括均值差、比例差、方差比,主要包括两种抽样方法——独立样本和配对样本。
两个正态总体均值之差的置信区间(独立样本):

图片 6

两个总体均值之差的区间估计(独立大样本)
两个总体均值之差的估计:

图片 7

两个总体均值之差的区间估计(匹配样本)

图片 8

图片 9

两个总体比例之差区间的估计
假定条件——两个总体服从二项分布,可以用正态分布来近似,两个样本是独立的。

图片 10

两个正态总体方差比的置信区间
实际应用如两种不同方法生产的产品性能的稳定性或两种不同测量工具的精度,需要我们去比较两个总体方差。

两个正态总体方差比的估计

图片 11

总的来说,参数估计的东西很多,根据具体研究情况,我们可以根据自己需求选择不同的参数估计。当然据笔者所知,R语言在参数估计上,现成函数(指默认的基础包)比较少,一般需要自编函数或者有额外的包。这里先给出一个样例函数(14章中会涉及到一部分,这里不详述)。

conf.int=function(x,sigma,alpha) {
    mean=mean(x)
    n=length(x)
    z=qnorm(1-alpha/2,mean=0,sd=1,lower.tail = T)
    c(mean-sigma*z/sqrt(n),mean+sigma*z/sqrt(n))
    }

统计学的优势在于易理解且具合理性;而劣势在于它的奇特性。无论如何,这篇文章的话题不会让你觉得枯燥。因为大部分的话题都是有形的、属于重要的数据资料,你应有精力去慢慢摸索。

平均值

平均值 = (组值*相对频数)的合计

平均值 = (数据总和) / (数据数)

上述两个公式都被用来计算算术平均值,事实上第一个可能用得更多。但是要明白,上面的两个公式都是用来计算算术平均值的,但是取平均值的方法并不止一个。

3.样本容量的确定

前一章我们提到统计学闻名于世的规定,样本容量一般必须>30。但是这种规定,并不是万能的。所以样本容量的确定就成了一个问题。n过大费用高、时间长、人力多;n过小误差增大。
事实上n的确定依赖于多大置信度(可靠性),什么样的精度(多宽的区间)。
所以样本容量的确定需要根据置信区间的性质来决定。
置信区间的性质——以正态总体小样本容量为例。首先置信区间的宽度:

图片 12

因此很容易发现影响区间宽度的因素包括了:

  • 样本容量:大样本容量——小区间。
  • 总体数据的离散程度:小方差——小区间。
  • 置信水平:高置信度——大t值——大区间。

边际误差(margin error)——置信区间上下限与点估计之间的距离。

图片 13

给定边际误差E和置信水平1-α,可以找到所需要的样本容量。

估计总体均值时样本容量的确定(σ已知):

图片 14

样本容量n与总体方差σ、边际误差E、置信水平1-α之间的关系为:

  • 随总体方差增大而增大。
  • 随边际误差减小而增大。
  • 随1-α增大而增大,随α减小而增大。

σ未知,如有近期样本可用,用其样本标准差代替σ,用t分布分位数代替标准正态分布分位数,自由度为近期样本容量-1。否则,可以用一个至少比σ大的数来替代σ,抽一个样本,用s代替σ——Stein
两步法。

估计总体比例时样本容量的确定:
根据比例区间估计公式可得样本容量n为

图片 15

E的取值一般小于0.1,p 未知时,
可用之前样本比率估计,或保守的取最大值0.5。

估计两个总体均值之差时样本容量的确定:

图片 15

估计两个总体比例之差时样本容量的确定:
设n1和n2为来自两个总体的样本,并假定n1=n2。根据比例之差的区间估计公式可得两个样本的容量n为:

图片 17

总的来说,样本容量的确定也是根据具体需要以及显著性水平计算得到的。

图片 18

算术平均值

statistics(from wired.com)

几何平均值

统计学:黑暗的科学

均方根值

统计学是所有学科领域中最易被邪恶势力滥用的科学。

调和平均值

统计学可以同邪恶行径相比较是因为在使用不当时,这门学科的分支就会被推断出各种无意义或者不真实的裙带关系(参见本文末尾的实例)。如果政治家或其它非专业人士掌控了统计学,那么他们就可以操纵一些重要决定。一般来说,基于错误总结的坏决策从来不受好评。

加权平均值

一般来说:如果想在合计意义上保持数据的本质,则使用算术平均值;想在乘积的意义上保持数据的本质,则用几何平均值,如成长率;对待速度则一般用调和平均值。

也就是说,使用得当时,统计学无疑非常有用且有益。而对于强权势力者来说,他们会将统计学应用于一些非法途径,甚至是一些纯粹无用的渠道。

平均值的性质

  1. 数据在平均值的周边分布
  2. 多次出现的数据对平均值的影响力大
  3. 直方图呈左右对称的情况下,其对称轴通过的点即平均值

统计学——所谓的争议

方差和标准差

偏差 = (数据的数值)-(平均值)

方差 = [(偏差的平方)的合计]/(数据数)

标准差 = 方差的开平方 = 偏差的均方根值

也可以通过分组之后计算相对频数的方式计算方差:

方差 = (组值 – 平均值)的平方 * (相对频数) 的合计

我已准备好作一个紧凑的总结,然而我注意到维基百科已经对统计学作了定义,而且语言几近诗歌体系。如下:

数学表达式

统计学是应用数学的一个分支,主要通过收集数据进行分析、解释及呈现。它被广泛应用于各个学科领域,从物理学到社会科学到人类科学;甚至用于工商业及政府的情报决策上。(Courtesy
Wikipedia.org)

方差

这真的是一段很感人的文章。特别是最后那句“用于情报决策上”。

标准差

当然,作者忘记添上“在游戏设计领域”,但是我们原谅他对这一蓬勃发展的新兴行业的无知。

意义和性质

平均值是从数据的分布中取出的代表的数。因此,可以认为数据以平均值为基点,在其左右扩散。评价这种扩散、分散的标准就是标准差。标准差将数据平均值的离散方式进行平均化。此时无论向大的方面离散还是小的方面离散,都用正数进行评价,避免相互抵消的平均。

这里和原书一样,通过S.D.
来表示标准差,这是原书一个非常重要的统计量。一般会以S.D.
作为判断数据特殊性的标准。可以认为只距离平均值1个S.D.
的数据为普通数据,距离平均值超过2个S.D. 的数据为特殊数据。

S.D. 具备如下性质:

  • 数据组X的全部数据加上定值a得到新数据组Y,数据Y
    的平均值是数据X的平均值加上a, 数据Y
    的方差和S.D. 与数据X相比不变
  • 数据组X的全部数据乘以定值k得到新数据组Y,数据Y
    的平均值是数据X的平均值乘以k, 数据Y
    的方差是数据X方差的k平方倍,S.D.k
  • 将数据进行[(数据)-(平均值)]/(S.D.)的加工,所得的数据的平均值为0,S.D.
    为1

以下为我自己撰写:

现实的应用

  1. 股票的交易中,不仅要考虑收益的平均值,收益率的S.D.
    也和重要。股票收益率的S.D. 的术语称作波动率。

  2. S.D.
    也可以用于理解金融商品的优劣,可以说在同样的平均收益率下,S.D.
    小的是优良的金融商品;而在同样的S.D.
    下,平均收益率大的是优良的金融商品。金融商品的优劣性的评价基准是夏普比率(SPM):

    ( X的夏普比率 ) = [ ( X的回报 )-( 国债收益率 ) ] / ( X 的风险
    )
    *

    一般认为夏普比率越大,金融商品越是优良。

统计学是应用数学的一个分支,它涉及收集及分析数据,以此确定过去的发展趋势、预测未来的发展结果,获得更多我们需了解的事物。(Courtesy
Tylerpedia)

正态分布

标准的数学著作中,正态分布需要有概率密度函数来决定,需要从概率的角度来进行推导,原书为了简便起见,完全不涉及概率的知识,这里也一样,只从应用的角度来对正态分布的性质做一个说明。

可以认为分布规律符合下面的图形的数据是正态分布的(μ代表平均值,σ代表标准差):

8.jpg

标准正态分布 是平均值为0,S.D. 为1的正态分布。

从上面的图形中可以看出一些正态分布的性质:

  • 横轴与正态曲线之间的面积恒等于1。正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%,横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%,横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
  • σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
  • 平均值为μ,标准差为σ的正态分布数据可以通过公式 z=(x-μ)/σ
    回到标准正态分布

中心极限定理:设从均值为μ、方差为σ2;(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n
的正态分布。

我们可以认为,实际观测到的不确定现象,如果是有很多单一的不确定现象复合而成,则可以将他们解释为”在中心极限定理的作用下表现为正态分布”,如动物身长,股票价格等现象。

如果将此修改为适用游戏设计领域,那可以如此陈述:

正态分布的应用

使用正态分布的知识,可以进行”预测”。从上面的描述的正态分布的性质可以看出来,如果我们把关注的不确定现象看做正态分布,那么,利用正态分布的性质对将要出现的数据进行预测就将成为可能。

从上面的正态分布曲线图可以知道,如果想加大预测的命中概率,就要扩大区间范围,如果想要100%命中,预测范围将是负无穷到正无穷的范围。通用的是”95%命中”或者”99%命中”,原书中选取了世界上最常用的”95%命中”。后续的说明都是基于这一个命中概率来进行的。

从95%命中区间出发,可以得到两个结论:

  • 标准正态分布的95%预测命中区间为-1.96以上+1.96以下。
  • 平均值为μ,标准差为σ的正态分布的95%预测命中区间为[μ – 1.96σ, μ +
    1.96σ]

统计学为你那破损的机制及破碎的设计梦指引了一条光明大道。它为你有意义的设计决策提供了稳定且具有科学性的数据。

应用1

有关正态分布(或者近似正态分布)的母群体的总体参数为某数值的假设检验,可以按照下面的方法进行:

其总体参数的母群体是正态分布,平均值为μ,标准差为σ时,如果观测到的数据x的不等式:

-1.96 <= (x-μ)/σ <= +1.96

成立,假设不被舍弃(接受);否则,假设被舍弃。

这里,其实并没有开始预测,只是对一个随意的总体参数是否合理做了一个检验,而检验的依据是我们一般认为我们观测的数据都会落在总体数据分布的95%置信区间内,如果假设的总体参数不满足让观测数据落到置信区间,则将假设舍弃,否则接受。

须知的事实

应用2

区间估计
是这样一种估计方法:它针对母群体的总体参数,在假定其总体参数的情况下,只集合了现实观测到的数据在观测数据“95%预测命中区间”的总体参数。根据区间估计确定的总体参数的范围叫做”95%置信区间”。由区间估计求得的区间,是对所有的总体参数进行上面应用1中的检验操作,不舍弃而保留下来的集合。

关于正态母群体已知标准差σ时,对未知的平均值μ进行区间估计的方法:使用观测到的数据x,解关于μ的一元一次不等式

-1.96 <= (x-μ)/σ <= +1.96

得出 “* <= μ <= *”的形式即可。

95%置信区间是这样一种区间:它有各种各样的观测值用相同的方法进行区间估计,其中95%包含正确的总体参数。

统计量部分的描述就此结束了,这部分主要是通过不同的统计量来刻画数据的特征,并简单地说明了对正态母群体进行“统计检验”和”区间估计”的方法。

统计学同其它硬科学一样深奥且复杂。如同第一部分的内容一样,本文只涉及一些精选的话题,我自认为只要掌握这些就足够了。

推论统计

在现实生活中,我们是基本不可能观测到总体的全部数据的,很多时候只能获取到总体中一部分的数据。但是我们从一些现象中也可以得出这样的结论“如果进行充分的观测,就能相当鲜明地捕捉母群体的情况”。但是我们的目标是:“不进行那么大量的观测而推测出母群体的情况”。

我们知道,从母群体中观测到的数据是受母群体的总体特征制约的。原书给出了这样的结论:

  • 观测到的数据,可以在一定程度上认为接近总体均值
  • 观测多个数据,取样本均值,比观测一个数据更接近总体均值,观测数据越增加,样本均值接近总体均值的可能性越高。

我们回到先前的目标,就是要通过样本数据推测母群体即总体的情况。这依赖母群体的一些数学性质,原书作为统计的入门书,并没有也不需要给出这些数学理论的证明,这里直接拿来用就可以。

  • 正态母群体取样本均值的分布仍为正态分布
  • 设从均值为μ、标准差为σ的一个正态总体中抽取样本量为n的样本,则样本均值的抽样分布服从均值为μ、标准差为σ/√n
    的正态分布

从上面的性质可以得到这样的结论:

对于均值为μ、标准差为σ的一个正态总体的n个样本均值来说,其95%置信区间为有下面的不等式解出来的范围,a为样本均值

-1.96 <= (a-μ)/(σ/√n)) <= +1.96

本部分其实就是要达到四个目标:

  1. 已知正态母群体和总体方差时,对总体均值的估计
  2. 已知正态母群体和总体均值时,对总体方差的估计
  3. 已知正态母群体,未知总体均值时,对总体方差的估计
  4. 已知正态母群体,未知总体方差时,对总体均值的估计

下面来分别说明。

再次突击测验

已知正态母群体和总体方差时,对总体均值的估计

这个估计是很简单的,通过公式:

-1.96 <= (a-μ)/(σ/√n)) <= +1.96

可以推出μ的95%置信区间是:

a-1.96(σ/√n) <= μ <= a+1.96(σ/√n)

很抱歉我要采取另一项测试了。别讨厌出题目的人,讨厌测试吧。

已知正态母群体和总体均值时,对总体方差的估计

正态母群体的样本均值是符合正态分布的,而且样本均值也体现了总体均值的性质,可以通过上面的不等式来推导出总体均值的估计。样本方差当然也体现了总体方差的性质,但是样本方差并不服从正态分布。样本方差服从的是卡方分布。

卡方分布 若n个相互独立的随机变量ξ₁、ξ₂、……、ξn
,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square
distribution)。

卡方分布的分布曲线如下:

从前面的知识我们可以知道,对于从正态母群体中观测到的n个样本,用如下公式表示的统计量V是自由度为n的卡方分布:

卡方分布的分布的临界值表如下:

通过查表可以知道V在95%置信区间的范围,从而求出总体方差的95%置信区间。如对于自由度为5的卡方分布V来说。95%的置信区间可以按照
0.83 <= V <= 12.83来计算最终的总体方差的置信区间。

Q1a)假设有20名测试员刚刚完成新蜗牛赛跑游戏《S-car
GO!》中的一个关卡。你得知完成一圈的时间最少为1分24秒,最多为2分32秒。你期望的平均时间为2分钟左右。请问这个测试会成功吗?

已知正态母群体,未知总体均值时,对总体方差的估计

从上面根据正态母群体的总体均值来推测总体方差的估计中我们可以看到,必须先要有知道总体均值,才能对总体方差进行估计,这是一个很不自然的假设。在实际应用中也是不太可能知道总体均值的存在的。那么如果不知道总体均值的时候,如何估计总体方差呢。

自然的想法是能不能通过样本的均值和方差来对总体的方差的估计。事实是统计学家们已经证明了下面的统计量W也是一个卡方分布,只不过自由度不是样本数据数n,而是n-1,(其中):

这里不用考虑如何证明W是自由度为n-1的卡方分布,直接去使用这一结论即可。我们有样本方差的公式:

从而可以推导出:

因为W是自由度为n-1的卡方分布,通过对w的95%置信区间的估计就可以得到一个不等式,解这个不等式就可以得到总体方差的95%的置信区间,完成对总体方差的估计。

Q1b)在同一关卡中你收集了过多的数据,在分析后得出这样的结果:平均值=2分5秒;标准差=45秒。请问你会满意这个答案吗?

已知正态母群体,未知总体方差时,对总体均值的估计

现在只剩下最后一个困难的问题了,如何在只知道样本数据的情况下的得到总体均值的估计。从前面的讨论中其实可以看出,除总体均值μ以外,如果我们能只用样本数据得到的统计量,清楚其分布,我们自然就可以得到总体均值的估计。

英国化学家戈塞特发现了这样一个分布,并命名为t分布。我们可以看一下t分布的定义和特征。

如下公式表示的统计量T服从自由度为n-1的t分布:

我们知道,从正态母群体中的n个样本数据得到的统计量z服从标准正态分布:

但是在现实中,统计量σ往往是未知的,所有不能通过z来求得总体均值的估计。事实上统计量T和z形式上很像,不难看出,如果n足够大的时候,T的分布趋近于标准正态分布,但是当n并不是足够大的时候,T的分布和标准正态分布的偏差并不能被忽略。

t分布的概率密度分布图和特征如下:

特征

  • 以0为中心,左右对称的单峰分布
  • t分布是一簇曲线,其形态变化与n(确切地说与自由度ν)大小有关。自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线,如上图.

t分布速查表

对于每一个指定的自由度,如果求T的95%置信区间,只需要左右分别去掉0.025即可。如自由度为10的t分布的95%置信区间是-2.228
<= T <=
2.228。通过前面推导出来的T的统计量即可得到对总体均值μ的估计。

至此,在未知总体方差时,对总体均值的估计也已经完成

Q2)你设计了一款休闲游戏,不久就要发行。在最后的QA阶段,你分布了一个测试版本,然后收集了所有的数据作为试验对象。你记录了1000多位玩家的分数,还有100多位特殊的玩家的分数(有些玩家允许重复玩游戏)。运算这些数据可知平均分为52000pts,标准差为500pts。请问这游戏可以发行了吗?

总结

以上介绍了一些常见的统计量和比较常用的通过样本数据估计总体统计量的几个方法。原书毕竟只是一本统计学的入门书籍,通过本文可以对原书的结构和内容做一次概括的了解。如果想知道这些统计量具体的应用场景,可以查阅原书。对于统计学更高深的知识,读者可以去学习更专业的统计学课程。

事实上,作为统计学中最基础的两个统计量:平均值和标准差,已经能够刻画出来数据很重要的一些特征,如果能够从样本数据中推导出总体的的平均值和标准差,可以说是很了不起的一件事儿,能在现实生活生产实践中给予我们很多帮助了。

最后附上本书主要内容的思维导图

极简统计学.png

Q3)你设计了一款RPG游戏,然后收集数据分析新的玩家从关卡1到关卡5的游戏进程会有多快。收集的数据如下所示:4.6小时、3.9小时、5.6小时、0.2小时、5.5小时、4.4小时、4.2小时、5.3小时。请问你可以计算出平均值和标准差吗?

总体和样本

统计学的基础为分析数据。在分析数据的时候,你需要了解两个概念:

1.总体:

总体是指某一领域中所有需要测量的对象。总体是抽象的,只在你需要测量时候才会具体化。比如,你想了解人们对某一特定问题的看法。那你就可以选择地球上所有的人,或者爱荷华州所有的人或者只是你街道附近所有的人作为一个总体。

2.样本:

样本实际上就是指抽取总体中部分用于测量的对象。原因很明显,因为我们很难收集到所有总体的数据。相对来说,你可以收集部分总体的数据。这些就是你的样本了。

正确性及样本容量

统计学结果的可靠性通常由样本容量的大小决定。

我们完美的想法是希望样本容量就是我们的总体——也就是说,你想整个收集全部涉及到的数据!因为样本越少,你就需要估计可能的趋势(这是一种数学性的推断)。而且,数据点越多越好;你最好能建立一个大型的总体而不是小型的。

例如,相对于调查10000个初中生对《Fruit
Roll-Ups》的感想,试想下调查人员能否询问到每一个学生。100万个的数目过于庞大,做不到的话,10万个也不错。仍然做不到,好吧,10000个刚刚好。

由于时间和费用的关系,通常呈现出的研究结果都是基于样本所做的调查。

1.统计学的常识性规则:

你无法通过一个数据点来预测整个趋势。如果你知道我喜欢巧克力冰淇淋,你不能总结所有的Sigmans都喜欢巧克力冰淇淋。如果现在你询问我家庭中的许多成员,然后你可能会得出关于他们的想法这类比较合理的结论,或者你至少知道是否能总结出一个合理的推断。

广泛的分布图(重点!)

由于种种原因,只有《The Big
Guy》可以解释生活中的许多事情倾向于同一模式发展或者分布。

最普遍的分布也有一个合理的名称——“正态分布”。是的,无法匹配这一分布图的都为非正态,所以有点怪异(需要适当避免)。

正态分布也称“高斯分布”,主要因为“正态”一词听起来不够科学。

正态分布也称为“钟形曲线”(又称贝尔曲线),因为其曲线呈钟形。

图片 19

bell curve(from gamasutra)

钟形曲线的突出特点是大多数的总体均分布在平均值周围,只有个别数据散落在一些极限位置(主要指那些偏高或偏低的数据)。中间成群的数据构成了钟的外形;而那些偏高数据或偏低数据分布在钟的边缘。

相关文章