近期学习小结之:初入统计学的世界

刚好最近要作一个阶段性总结的小汇报,将近两个月来所学知识和项目进展向同事和专家们讲讲,也可以在项目准备的最后阶段作修正和补充。
近期所学:主要围绕项目需要,调研了一些类似的读者调查文献,看了几本统计方面的书,和一些有关统计,抽样,问卷方面的PDF和PPT资料。

《统计学的世界》

这不是一本谈统计方法的书,更多的是统计的概念以及统计概念对日常生活、公共政策以及其他许多研究领域的影响。当然此外还可以从中学到一些统计方法,如算平均数(mean)、标准差(standard deviation)以及线性相关(correlation)系数等。

主要包括四大部分:

1.数据的产生(data production)说的是给特定的问题找到清楚的答案,应该用何种方法来产生数据。其中包括如何选择样本和设计实验的基本观念,是统计当中影响最大的概念。

2.数据分析(data analysis)介绍如何用图和数值摘要(numerical summary)来探索、组织及描述数据的方法及策略。最简单的方法都有助于明智的解读数据。

3.概率(probability)是我们用来描述基于、编译和风险(risk)的语言。因为到处都有编译,所以利用概率思考,可以把实施从一些无关紧要的干扰信息中分离出来。

4.统计推论(statistical inference)超越了我们手中的数据而对于一个更大的总体(universe)做出结论,结论中要考虑到“变异无所不在”和“结论并不确定”这两项认识。

什么是统计?

• 数据胜过轶闻

信仰不能取代数字--斯潘塞(Henry Spencer)

数据最具说服力,尤其是在媒体为某种目的炒作甚至搬出专家压轴的情况下。记得有个例子讲到关于抽烟致癌调查得出了确实数据,于是引发尼古丁杀手之说,香烟遭到警惕。可是每年出于车祸的同比数值要远远高于香烟,却没有人认识到。所以关心某个议题,更要关注它的数据以及数据品质和数据透露的信息。

• 数据从何而来非常重要

数字不会说谎,但说谎的人会想出办法。--格罗夫纳(Charles Grosvenor)

数据的获取是人为的过程,任何偏差都可能造成无法弥补的错误。如获取数据的过程,包括抽样(必须是随机抽样),问卷(不能有导向性问题等)还有所谓安慰剂(placebo)作用(如那个冷却缓解胃病的实验),实验数据的差异完全源自受试者心理因素,而客观的测试中则不存在显著性了。

• 小心潜在变量

我的钱够我这辈子用了,只要我不买东西。--梅森(Jackie Mason)

比如,我们做的座谈,访问结果现实工科学生阅读没有文科的多,是否就证明工科的课程多,学习任务重?其实其中还有男女生比例,文科的课内阅读本身就是课程的一部分等等因素。这里提出了变量和潜在变量的问概念。

• 变异无所不在

当实施改变时,我就改变主意。您呢?--凯恩斯(John Maynard Keynes)

测试值总是在一定范围波动,产生个别结果数值的变异是允许的,于是引出标准差和标准差的68-95-99.7定律。

• 结论并不是百分之百的

数学定律不能百分之百确实地用在现实生活里;能百分之百确实地用数学定律描述的,就是现实生活。--爱因斯坦(Albert Einstein)

这个很好理解,任何是都没有百分百之说,样本只能在某种范围(程度内)代表整体。也就是置信区间(confidence interval)。注入“95%信心”,“有统计上的显著意义(statistically significant)”等字眼在许多严谨的报告上都是必须的。

• 数据可反映社会价值

要用统计骗人很容易。但是不用统计,骗人更容易。--莫斯提勒(Frederick Mosteller)
书中用失业率的例子来表述这种社会价值观的差别。美国失业率的统计是针对那些想工作却没有工作,在过去两周还在找工作的人,而没有找工作的,就不算是失业。可见这样的失业率的定义,反映了美国对工作的价值观。

其实本书最好之处在于,其中有许多实例,道理在实例的阐述下都变得浅显易懂了,比较适合我这样没有统计学基础的人。而且实例很多都很有趣味性和启发性,这使面对如此厚(B5近4cm)的一本书时不会感到疲惫和厌烦。

学到了什么?

判断

看到一些数据(如成分所占比例的数据),可以用简单的方法判断这份数据是否有误,如看各自所占比例之和是否为1。
前几天看Alex的统计数据,同事也介绍了一个查看统计排名的网站,123cha,但是粗略的看一眼就不难发现,它的第一列各百分比之和明显大于1,算了一下居然到了123%,呵呵,这样的数据那曲怎能使人信服。

辨识

书中有许多例子,是关于乐透和彩票的。有一种三州每日一数,作者根据期望值计算后发现,“连胜盒”的赌法比“连妥善”处理好一些,因为政府付出的彩金比一般赌注多一些。联想到上海易懂电视的某种什么发送短信赢大奖的赌法(每天奔波上班途中朋友提供),每日只拿出500作为大奖,而1个月按照31天算奖金才15500元。但是一旦发送号码,就意味着包月10元,此外短信费用不算。一个1000万人口的城市,只要有1万人发送,至少有10万的包月费。区区15500奖金才只有15.5%,何等黑心呀~

自我安慰剂法

看了书才发觉安慰剂的作用如此之大,可以让病人病痛减轻20%以上。其实在现实生活中,所谓打针吃药真的就那么灵?未必。许多无良医开得号称昂贵的进口药和新研制的好药,未必比三两元的大众药高明,甚至成分都一样,可是有人就是感觉好--安慰剂。补品,医疗器械等等更是这样了,有些八竿子打不着的功用一个劲的往说明上罗列,一看就是瞎掰--安慰剂。与其这样,倒不如学作阿Q,糖片一盒,包治百病,有问题来一片,呵呵,比吃药好(是药都有毒性)。

还看了贾平俊的《统计学基础》和《描述统计》,其他统计方面的书都比较有目的性的看,如《统计学案例集》,《统计学方法与数据分析引论》,清华经管的《初级统计学》等,都是为前期数据获取作准备,所以也只挑着看了部分相关的内容。不过,感觉对一般的应用而言,理论方面这样也就差不多了,而后期的数据处理则需要掌握一些统计方法与应用软件的知识(近期推出)。