《统计学与真理》笔记

作者:C.R.劳

卷首语-论知识

在终极的分析中,一切知识都是历史。
在抽象的意义下,一切科学都是数学。
在理性的基础上,所有的判断都是统计学。

不确定性知识 + 所含不确定性量度的知识 = 可用的知识。

就像房屋是由石头堆砌的一样,科学是由事实堆砌的。但如同一堆石头并不是一栋房子,仅仅是事实的收集,也并不成为一门科学。——J.H.Poincare

对统计学的一知半解常常造成不必要的上当受骗,对统计学的一概排斥往往造成不必要的愚昧无知。

随机性

1.早期产生随机数的方法

  • 随机数的书 年份 作者 书名 内容 原理
    1927年 英国统计学家蒂皮特 《随机抽样书》 41600个数字(从0到9),排成4个一组 英国社会调查报告中所给出的各教区的面积的数字中,除去头尾的两个数字后棍合排列
    1927年后 费歇(Fisher)和耶茨(Yates) 15000个数字 由20位对数表中排列第15–19位数组成
  • 抛硬币
  • 记录婴儿性别
    在加尔各答印度统计研究所给一年级研究生上课时,经常让他们去研究所附近的班一霍夫(Bon-Hoophly)医院记录相继在该医院出生的婴儿的性别。

伪随机数:通过确定程序生成的数列。

2.随机数的作用

蒙特卡洛(Monte Carlo)方法

利用随机数求解过于复杂而难以得到精确答案的概率统计问题。(卡 皮尔逊)

抽样调查

随即抽取部分个体,以评估总体。

试验设计

如,检验A药和B药的有效性。随机将A和B分配给实验者。

通讯加密

采用随机数密码加密通讯内容。

作为建模工具

将随机数用于模型构造和预测。如天气预报等。

用于解决复杂问题

如计算最短路线,AI下棋,随机移动棋子。

3.对随机数列的误解

已出现(发生)数,会对未发生的数形成影响。

例如,连续生女孩,后面生男孩的概率超过1/2。实际上,后面生男孩的概率,还是1/2。

随机数列局部出现确信规律。

例如,大多数动物存活总数,大致以3年为一周期。实际上,任取3个随机数,中间数比2个都大的概率,恰好是1/3。

4.对敏感问题的随机反应

应用随机数的一个有趣的例子,是对敏感问题的调查。如果直接提出敏感问题,如是否吸食大麻,几乎得不到正确答案。对此,我们可以这样做:

  1. 提出2个问题,1个是敏感问题:是否吸食大麻。另1个是无关紧要的问题:电话号码尾数是否为偶数。
  2. 让回答者抛硬币,硬币为正面,则回答问题1, 反面则回答问题2。

由于提问者并不知道回答者是回答了哪个问题,于是信息得到了保密。但提问者,可以估算出吸食大麻的比例:

  • \pi = 吸食大麻比率,未知。
  • \lambda = 电话号码尾数是偶数的比率,已知。
  • \rho = 回答是的比率,已知。

由上可得:

  • \pi + \lambda = 2\rho

于是得到$\pi$得估计值:

  • \pi = 2\rho - \lambda

5.从决定论到无序中的有序

  • 拉普拉斯“数学神灵”思想,决定论的最极端表述。如果知道某一时刻的所有度量,可预测未来将要发生的一切事件。
  • 蝴蝶效应,敏感地依赖于初始状态的现象。

    洛伦兹(Lorenz)1961年描绘由同一时刻开始的两个长期气象预报模式,揭示,相同的规律下气象模式从同一状态开始,差别逐渐增大,直到所有相同点都消失掉。

  • 基于随机性产生的3个重要发展。

    凯特勒(A.Quetlet, 1869)利用概率论描述社会学和生物学现象。
    孟德尔(G.Mendel, 1870)通过简单的随机性结构公式化了他的遗传法则。
    玻尔兹曼(Boltzmann, 1866)对热力学第二定律给出了统计学解释。

  • 伽利略(Galileo, 1564-1642)发现,即使相等条件下,重复测量的值有会有变化。

    测量,重复测量,再重复测量,就能找到误差,以及误差的误差。——伽利略

  • 高斯(Gauss, 1777-1855)研究了测量中误差的概率法则,提出综合多个测量值估计未知量的最佳方法。
  • 利用概率论属于描述基本法则自身,使物理学产生了本质变化。

    布朗运动、放射性物质引起的闪烁。
    海森伯(Heisenberg)不确定性原理。
    等质量分子的麦克斯韦分布。

6.随机性与创造性

非常重要的发现绝不是由逻辑推断或者强化观测基础来得到的。

7.偶然性和混沌

偶然性是指随机现象,混沌是指整体规则中局部随机性。海岸线、雪花形状可以用迭代函数建模。混沌的本质是数学。

1931年开普勒进行试验,得到了水晶纤维再镜面的布朗运动轨迹照片,只有随机化结构才能产生这种轨迹。
卡克(自传《偶然性之谜》)证明,只要n足够大,并适当的\lambda_1,\lambda_2,\dots,\lambda_n和尺度因子\alpha轨迹图可以用函数得到:
\alpha \frac{cos\lambda_1t+cos\lambda_2t+\dots+cos\lambda_nt}{\sqrt n}

所以卡克提出:到底什么是偶然性?

8.偶然性和必然性

  • 生活中的每一件事都是偶然性和必然性的混合。这使得生活变得复杂但不索然无味(丁.内曼)

  • 利用因果关系原理解释所观测到的现象和预测将来的事件时存在着逻辑的和实际的困难。

    逻辑上讲,最后得到的结局是处于一个复杂的因果关系链上,我们有可能要找一个没有穷尽的链,而且某个阶段寻找一个原因会很困难。
    实际中,引起一个事件的原因会有无限多。

  • 误差理论是模型化偶然性的最初尝试。

  • 没有偶然性,进化和改良是不可能的。

9.模糊性

  • 在解释观测数据时还存在着另一个障碍,那就是在识别物体所属不同类别时存在着模糊性。
  • 为了避免交流障碍和引发研究混乱,应尽可能准确定义分类,但是,在引入定义时,模糊性时不可避免的。

不确定性的驾驭——统计学

那些默默无闻的统计学家已经改变了我们的世界,不是因为发现了新的事实或技术,而是改变了我们推理和试验的方法,以及我们对这个世界的观念的形成方式。——哈克英(Hacking)

1.统计学与统计学学会

  • 统计学statistics术语的词根,在拉丁语中是国家status的意思,由18世纪中叶德国学者艾奇纳沃(G.Achenwall)新创,词义是

由国家来收集、处理和使用数据。

  • 比利时数学家凯特勒(A.Quetlet, 1796-1874)把统计学应用于认类事务。

1844年凯特勒利用男子身高分布正态法找出法国躲避征兵的人的身高大小范围。
凯特勒敦促拜比吉(C.Babbage, 1792-1871)创立伦敦统计学会。
1854年,布鲁塞尔召开第一次国际统计学会,凯特勒称为第一任会长。

  • 英国皇家统计学会1834年创建,认为统计学是

与认类有关的事实,可以由数量来表示,并且经过大量累积重复可以导出一般规律。

  • 1885年6月24日国际统计学会(International Statistics Institure, ISI)诞生。

2.不确定性的驾驭

三种逻辑推理方法

  • 演绎法(推断法),由给定的前提或公理,推导出其他事实。

著名数理逻辑学家哥德尔证明

基于给定的公理系统的推理,人们不能证明由该公理系统不可能导致矛盾的结果。

同时也证实了一个推断

如果一个公理系统能同时演绎命题P及其否定命题,那么这个公理系统就能使我们导出任何我们想要得到的矛盾。

  • 归纳法,与演绎法相反,即以给定的某些结果来决定前提。所谓归纳推理,就是由观测到的数据去匹配一个假设,从而由特殊向一般的逻辑推理过程。与演绎法不同,归纳推理出的判断是缺乏精确性的。

  • 诱导法,凭直观或者是直觉产生新知识。

归纳:基于观察到的数据产生新知识。
诱导:由直观而不是数据产生新知识。
演绎:证明所提的理论。

数据分析的原理和策略——数据的交叉检验

1.数据分析的发展历史

  • 统计分析的形式在变,但目的没变,即,从数据中提取信息或归纳和揭示。
  • 描述统计学,DDA:综合整理给定的数据集,测量,并通过直方图、条形图等表现数据的直观醒目特征。
  • 理论统计学,IDA:综合整理给定的数据集,依赖于特定的随机模型,推断某些未知参数的不确定性范围。
  • 卡方统计量,卡.皮尔森发明,用于检验已知数据是否来自某一特定的随机模型(概率分布族)。被哈克英(Hacking)誉为1900年以来科学技术20个尖端发明之一。

Leave a Reply

Your email address will not be published. Required fields are marked *