从计数活动到数据科学 · 用数据揭示规律的伟大历程
统计学(Statistics)是研究如何收集、整理、分析、解释数据,并从数据中得出结论的科学。由于人类的统计实践是随着计数活动而产生的,因此统计发展史可以追溯到远古的原始社会,距今足有五千多年的漫长岁月。但是,能使人类的统计实践上升到理论上予以概括总结的程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百余年的短暂历史。统计学发展的概貌,大致可划分为三种形态:古典记录统计学(17 世纪中叶至 19 世纪中叶)、近代描述统计学(19 世纪中叶至 20 世纪中叶)和现代推断统计学(20 世纪中叶至今)。古典记录统计学阶段,统计学还是一门意义和范围不太明确的学问,在它用文字或数字如实记录与分析国家社会经济状况的过程中,初步建立了统计研究的方法和规则。到概率论被引进之后,才逐渐成为一项较成熟的方法。最初卓有成效地把古典概率论引进统计学的是法国天文学家、数学家、统计学家拉普拉斯(1749-1827)。因此,后来比利时大统计学家凯特勒指出,统计学应从拉普拉斯开始。统计学不仅是数学的分支,更是所有科学的基础工具,广泛应用于自然科学、社会科学、商业、医学、工程等所有领域,是数据科学的核心基础。
统计学的核心价值在于从数据中提取信息、揭示规律、支持决策、预测未来。统计学的独特之处在于:它不研究确定性现象,而是研究随机现象的规律性。通过大数定律,统计学证明大量随机现象的平均结果具有稳定性;通过中心极限定理,统计学证明大量独立随机变量的和近似服从正态分布。这些理论使统计学能够从随机中发现规律,从不确定性中得出确定性结论。拉普拉斯的贡献在于:他将概率论系统引入统计学,使统计学从简单的记录上升为科学方法。费雪的贡献在于:他发展了推断统计学,使统计学能够从样本推断总体,从有限数据得出一般结论。今天,统计学是所有科学的基础工具:物理学用统计分析实验数据,医学用统计评估药物效果,经济学用统计预测经济趋势,商业用统计优化决策,政府用统计制定政策。没有统计学,就没有现代科学;没有统计学,就没有数据科学;没有统计学,就没有人工智能。统计学是数据时代的基石,真正改变了人类认识世界的方式。
古埃及进行最早的人口普查和土地测量,用于税收和劳役分配,是最早的统计实践之一。⭐
古巴比伦记录人口、牲畜、农产品等数据,使用泥板保存统计资料,建立早期统计制度。⭐
中国建立户籍制度,定期统计人口、土地、赋税,形成系统的统计体系,《周礼》记载统计制度。⭐
威廉一世下令编制《末日审判书》,详细调查英格兰土地、财产、人口,是中世纪最全面的统计调查。⭐
英国格朗特发表《关于死亡表的自然和政治观察》,分析伦敦死亡数据,开创人口统计研究。⭐
统计学开始成为系统学科,用文字或数字记录分析国家社会经济状况,初步建立统计方法和规则。⭐
拉普拉斯发表第一种关于概率论的表述,开始将概率论引入统计学,是统计学的重大转折。⭐
拉普拉斯出版《概率分析理论》,系统地把数学分析方法运用到概率论,成为古典概率论集大成者。⭐
拉普拉斯结合概率分布模型和中心极限思想研究最小二乘法,为统计学奠定理论基础。⭐
统计学进入描述统计学阶段,凯特勒发展平均人理论,皮尔逊发展相关系数、回归分析等方法。⭐
费雪发展最大似然估计、方差分析、实验设计,奠定现代推断统计学基础,是统计学的革命。⭐
统计学进入现代推断统计学阶段,贝叶斯统计、非参数统计、多元统计等新分支蓬勃发展。⭐
统计学与计算机科学结合,形成数据科学,机器学习、人工智能、大数据分析都基于统计学原理。⭐
拉普拉斯是法国最伟大的数学家之一,被誉为"法国的牛顿"。他是现代概率论的奠基人,也是将概率论系统引入统计学的先驱。拉普拉斯第一种关于概率论的表述发表于 1774 年。从 1812 年起,先后出过四版《概率分析理论》,是他的代表作。书中,拉普拉斯最早系统地把数学分析方法运用到概率论研究中去,建立了严密的概率数学理论。该书不仅总结了他自己过去的研究,而且还总结了前一代学者研究概率论的成果,成为古典概率论的集大成者。拉普拉斯通过结合天文学、物理学的研究来从事概率研究,他能相当自觉、相当明确地指出:概率论能在广泛范围中应用,能解决一系列的实际问题。他在实际推广中的成绩是多方面的,主要表现在人口统计、观察误差理论和概率论对于天文问题的应用。1809-1812 年,他结合概率分布模型和中心极限思想来研究最小二乘法,首次为统计学中这项后来最常用的手段奠定了理论基础。拉普拉斯明确了统计学的大数法则,他认为:"由于现象发生的原因,是为我们所不知或知道了也因为原因繁复而..."。比利时大统计学家凯特勒指出,统计学应从拉普拉斯开始,因为是他最初卓有成效地把古典概率论引进统计学。拉普拉斯的贡献不仅在于理论,更在于他将概率论与统计实践结合,使统计学从简单的记录上升为科学方法。
凯特勒是 19 世纪最伟大的统计学家之一,他将统计学从数学理论推向社会实践。凯特勒发展了"平均人"(l'homme moyen)理论,认为人类社会存在统计规律性,通过大量观察可以发现这些规律。他将正态分布应用于人类特征研究,发现身高、体重等人类特征服从正态分布。凯特勒创立了国际统计大会,推动国际统计合作,使统计学成为国际性学科。他强调统计学应研究社会现象的规律性,而不仅仅是记录数据。凯特勒指出"统计学应从拉普拉斯开始",肯定了拉普拉斯将概率论引入统计学的贡献。他的著作《论人及其能力的发展》将统计方法应用于社会学、犯罪学、人口学等领域,开创了社会统计学的先河。凯特勒的工作使统计学从数学分支发展为独立的科学,影响了后世统计学的发展方向。
皮尔逊是现代统计学的奠基人之一,他对描述统计学的发展做出了巨大贡献。皮尔逊发展了相关系数(Pearson correlation coefficient),用于度量两个变量之间的线性相关程度,这是统计学中最常用的统计量之一。他发展了回归分析、卡方检验、矩估计等方法,完善了描述统计学的理论体系。皮尔逊创立了《生物计量学》杂志,推动统计学在生物学中的应用。他建立了高尔顿实验室,培养了大批统计学家。皮尔逊强调统计学应基于数学理论,推动了统计学的数学化。他的工作使统计学从经验方法上升为科学理论,为现代统计学奠定基础。皮尔逊的贡献不仅在于理论,更在于他将统计学应用于实际问题,展示了统计学的实用价值。
费雪是 20 世纪最伟大的统计学家,被誉为"现代统计学之父"。他是推断统计学的奠基人,使统计学从描述走向推断。费雪发展了最大似然估计法,这是参数估计的最重要方法之一。他创立了方差分析(ANOVA),用于比较多个总体均值的差异,这是实验设计的核心工具。费雪发展了实验设计理论,提出随机化、重复、局部控制三大原则,使科学实验更加严谨。他将统计学应用于遗传学,发展了群体遗传学理论,将达尔文进化论与孟德尔遗传学统一起来。费雪的著作《研究者的统计方法》、《实验设计》等成为统计学经典教材。他的工作使统计学成为独立的科学学科,影响了所有科学领域。费雪的贡献不仅在于理论,更在于他将统计学与科学实践结合,展示了统计学的强大威力。
贝叶斯是贝叶斯统计学的创始人,他提出的贝叶斯定理是统计学中最重要的定理之一。贝叶斯定理描述了在已知相关证据的条件下,假设的概率如何更新。公式为:P(A|B) = P(B|A) × P(A) / P(B),其中 P(A|B) 是在 B 发生的情况下 A 发生的概率。贝叶斯的工作在他生前未发表,死后由朋友整理发表。20 世纪,随着计算机技术的发展,贝叶斯统计学重新受到重视,成为现代统计学的重要分支。贝叶斯统计学强调先验信息与样本信息的结合,在机器学习、人工智能、医学诊断等领域有广泛应用。贝叶斯的贡献在于他提供了一种新的统计推断范式,与传统的频率学派统计学形成互补。
高斯是历史上最伟大的数学家之一,被誉为"数学王子"。他在统计学方面的贡献同样卓越。高斯独立发现了最小二乘法,并用于天文学中预测谷神星轨道,展示了统计方法的强大威力。他发展了正态分布理论,正态分布也称为高斯分布,是统计学中最重要的概率分布。高斯将正态分布应用于误差分析,建立了误差理论,使科学测量更加精确。他的工作为统计学提供了重要的数学工具,影响了后世统计学的发展。高斯的贡献不仅在于理论,更在于他将统计方法应用于实际问题,展示了统计学的实用价值。
| 阶段 | 时间 | 特征 | 代表人物 |
|---|---|---|---|
| 古典记录统计学 | 17 世纪中叶 -19 世纪中叶 | 记录分析国家社会经济状况,初步建立统计方法 | 格朗特、拉普拉斯 |
| 近代描述统计学 | 19 世纪中叶 -20 世纪中叶 | 发展描述统计方法,相关分析、回归分析 | 凯特勒、皮尔逊、高尔顿 |
| 现代推断统计学 | 20 世纪中叶至今 | 从样本推断总体,假设检验、实验设计 | 费雪、奈曼、皮尔逊 |
大数定律: 当试验次数 n→∞时,频率收敛于概率
意义: 大量随机现象的平均结果具有稳定性
中心极限定理: 大量独立随机变量的和近似服从正态分布
意义: 为统计推断提供理论基础
内容: 整理、展示、描述数据
方法: 平均数、标准差、图表
目的: 了解数据特征
应用: 所有领域的基础
内容: 从样本推断总体
方法: 参数估计、假设检验
目的: 得出一般结论
应用: 科学研究、决策
内容: 设计科学实验
原则: 随机化、重复、控制
目的: 减少误差、提高效率
应用: 农业、医学、工业
内容: 结合先验与样本信息
方法: 贝叶斯定理、后验分布
目的: 更新概率判断
应用: 机器学习、医学
| 方法 | 说明 | 应用 | 发展者 |
|---|---|---|---|
| 最小二乘法 | 使误差平方和最小的拟合方法 | 回归分析、曲线拟合 | 高斯、勒让德 |
| 最大似然估计 | 使观测数据出现概率最大的参数估计 | 参数估计、模型拟合 | 费雪 |
| 假设检验 | 检验关于总体参数的假设是否成立 | 科学验证、质量控制 | 费雪、奈曼 |
| 方差分析 | 比较多个总体均值的差异 | 实验分析、因素分析 | 费雪 |
| 相关分析 | 度量变量之间的相关程度 | 关系研究、预测 | 皮尔逊 |
| 回归分析 | 建立变量之间的数学关系 | 预测、因果分析 | 高尔顿、皮尔逊 |
| 分支 | 研究内容 | 应用领域 | 代表人物 |
|---|---|---|---|
| 贝叶斯统计 | 先验信息与样本信息结合 | 机器学习、医学诊断 | 贝叶斯、杰弗里斯 |
| 非参数统计 | 不依赖特定分布假设 | 稳健分析、秩检验 | 威尔科克森、曼 - 惠特尼 |
| 多元统计 | 多变量同时分析 | 降维、分类、聚类 | 霍特林、威尔克斯 |
| 时间序列 | 随时间变化的数据分析 | 经济预测、信号处理 | 博克斯、詹金斯 |
| 空间统计 | 空间数据分析 | 地理信息、环境监测 | 克里格、马瑟隆 |
| 指标 | 数据 | 说明 |
|---|---|---|
| 统计实践起源 | 约公元前 3000 年 | 古埃及人口普查 |
| 学科形成时间 | 17 世纪中叶 | 古典记录统计学 |
| 概率论引入 | 1774 年 | 拉普拉斯发表概率论 |
| 《概率分析理论》 | 1812 年 | 拉普拉斯代表作 |
| 描述统计学 | 19 世纪中叶 | 凯特勒、皮尔逊 |
| 推断统计学 | 1920 年代 | 费雪建立 |
| 实践历史 | 5000 年 + | 公元前 3000 年至今 |
| 学科历史 | 300 年 + | 17 世纪中叶至今 |
统计学的建立是人类文明史上的重大成就,它:
方向: 深度学习理论
目标: 可解释 AI
应用: 机器学习
意义: 理论支撑
方向: 因果关系识别
目标: 超越相关
应用: 政策评估
愿景: 科学决策
方向: 大数据处理
目标: 降维方法
应用: 基因组学
前景: 技术突破
方向: 普及教育
目标: 提高素养
应用: 基础教育
意义: 培养人才
"数据的科学"
—— 统计学的 5000 年奇迹之旅
公元前 3000 年,古埃及人口普查;
17 世纪,古典记录统计学形成;
1774 年,拉普拉斯引入概率论;
1920 年代,费雪建立推断统计;
21 世纪,数据科学兴起;
5000 年后,统计学改变世界。
这是智慧的结晶,
也是文明的传承。
从计数活动到数据科学,
从随机现象到统计规律,
统计学改变了人类认识世界的方式。
统计学,
将永远铭刻在人类文明史上!
📊 致敬拉普拉斯、费雪、皮尔逊及所有统计学先驱 📊