开发一个彩票网站多少钱济南医院网站建设服务公司
news/
2025/9/25 17:06:51/
文章来源:
开发一个彩票网站多少钱,济南医院网站建设服务公司,制作一个网页要多少钱,高端旅游定制网站来源#xff1a;AI科技评论作者#xff1a;陈彩娴、Mr Bear编辑#xff1a;青暮近日#xff0c;图灵奖得主、“贝叶斯网络之父”Judea Pearl在Twitter上分享了一篇新论文“What are the most important statistical ideas of the past 50 years?”#xff08;过去50年中最… 来源AI科技评论作者陈彩娴、Mr Bear编辑青暮近日图灵奖得主、“贝叶斯网络之父”Judea Pearl在Twitter上分享了一篇新论文“What are the most important statistical ideas of the past 50 years?”过去50年中最重要的统计思想是什么这篇论文由哥伦比亚大学统计学教授Andrew Gelman和阿尔托大学计算机科学系副教授Aki Vehtari所著他们根据自己的研究和文献阅读经验总结出了过去半个世纪以来最重要的8个统计思想并表示“它们是独立的概念涵盖了统计方面不同的发展。这些思想都在1970年前的理论统计文献和各个应用领域的实践中就已经出现。但是在过去的五十年中它们各自已经发展到足以成为新事物的程度。”他们认为过去半个世纪中最重要的统计思想是反事实因果推理基于bootstrapping自助抽样法和基于模拟的推理超参数化模型和正则化多层模型泛型计算算法generic computation algorithms自适应决策分析鲁棒推理和探索性数据分析未按时间顺序排序不分先后。在这篇论文中他们将讨论这些思想的共同特征、它们与现代计算和大数据的关系以及在未来几十年中如何发展。“本文的目的是引起有关统计和数据科学研究更大主题的思考和讨论。”值得一提的是Judea Pearl在推文中表示“对作者将因果推理列入其中感到欣慰这与Stigler在《统计学七支柱》中的总结截然不同后者完全没有提到因果推理。”另外他也对大学统计专业很少安排因果推理课程感到担忧“统计学可以期待复兴或改革吗不幸的是统计系中提供因果推理课程的非常少更不用提教The First Law的简直是无穷少。”论文What are the most important statistical ideas of the past 50 years?论文地址https://arxiv.org/pdf/2012.00174.pdf作者简介Andrew Gelman美国统计学家哥伦比亚大学统计学和政治学教授。他1986年获得麻省理工学院数学和物理学博士学位。随后他获得了博士学位。在哈佛大学统计学荣誉退休教授Donald Rubin的指导下于1990年从哈佛大学获得统计学博士学位。他是美国统计协会与数理统计学会的院士曾三度获得美国统计协会颁发的“杰出统计应用奖”谷歌学术显示他的论文总引用量超过12万h-index为110。Aki Vehtari阿尔托大学计算机科学系副教授主要研究领域为贝叶斯概率理论和方法、贝叶斯工作流、概率编程、推理方法例如LaplaceEPVBMC、推理和模型诊断、模型评估和选择、高斯过程以及分层模型。谷歌学术显示他的论文总引用量近4万。他和Andrew Gelman都是《贝叶斯数据分析》的作者这本书因在数据分析、研究解决难题方面的可读性、实用性而广受读者好评被认为是贝叶斯方法领域的优秀之作。以下是全文编译1过去50年最重要的统计思想1.1 反事实因果推理在这里我们首先要介绍在统计学、计量经济学、心理测量、流行病学和计算机科学领域出现的一些重要思想它们都围绕着因果推理面临的挑战展开并且都在某种程度上弥平了「对观测推理的因果解释」和「认识到关联关系并不意味着因果关系」这两方面的差距。核心的思想在于在某些假设情况下我们可以识别出因果关系而且我们可以严谨地声明这些假设并且通过设计和分析以各种方式解决它们。到目前为止关于如何将因果模型应用于真实数据的具体问题上的争论仍在继续。然而在过去的五十年中这一领域的工作进展使因果推理所需要的这些假设变得精确得多从而反过来又促进了解决这些问题的统计方法的相关工作。研究人员针对各个领域研发出了各种各样的因果推理方法在计量经济学领域中人们主要关注对线性模型的因果估计的可解释性在流行病学领域中人们主要关注基于观测数据的推理心理学家已经意识到交互和各种处理效应的重要性在统计学领域中出现了一系列有关匹配和其它调整并衡量实验组和对照组之间差别的方法在计算机科学领域中涌现出有关多维因果归隐模型的研究工作。在上述所有工作中有一条研究主线即从反事实或可能得到的结果的层面上对因果问题进行建模这相较于之前没有明确区分描述性推理和因果推理的标准方法是一个巨大的飞跃。在这个研究方向上具有里程碑意义的工作包括 Neyman (1923)Welch (1937)Rubin (1974)Haavelmo (1973) 等人的研究成果更加详细的研究背景请参阅 Heckman 和 Pinto 于 2015 年发表的论文「Causal analysis after Haavelmo」。反事实因果推理的思想和方法在统计学以及相关的应用研究和策略分析领域都有深远影响。1.2 bootstrap与基于模拟的推理在过去的50年中用计算取代数学分析是统计学的一大发展趋势。这一变化甚至在「大数据」分析出现之前就开始了。bootstrap是最纯粹的基于计算定义的统计方法之一它定义了一些估计量并将其应用于一组随机重采样数据集。其思想是将估计值视为数据的一个近似的充分统计量并将自助分布视为对数据的采样分布的近似。在概念层面上人们推崇将预测和重新抽样作为基本原则可以推导出诸如偏差校正和收缩等统计学操作。历史上这一方向诞生了「刀切法」和「交叉验证」等方法。此外由于bootstrap思想的通用性及其简单的计算实现方式bootstrap立刻被广泛用于各种传统的解析近似方法效果不佳应用从而产生了巨大的影响。时至今日充足的计算资源也起到了帮助作用使得对许多重采样得到的数据集进行反复的推理变得十分容易。计算资源的增加也使得其它重采样和基于模拟的方法流行了起来。在置换检验中我们通过随机打乱排列真实值target来打破预测值和真实值之间的依赖关系从而生成重采样数据集。参数化的bootstrap、先验和后验预测检查、基于模拟的校正都是根据模型创建了复制数据集而不是直接从数据中重采样。在分析复杂模型和算法时根据已知的数据生成机制采样的做法往往被用于创建模拟实验用于补充或替代数学理论。1.3 过参数化模型和正则化自 20 世纪 70 年代以来统计学受个方面的影响发生了一个重大的变化即用一些正则化过程得到稳定的估计和良好的预测结果从而拟合具有大量参数有时参数比数据点更多的模型。该思想旨在在避免过拟合问题的同时获得一种非参数化的或高度参数化的方法。我们可以通过针对参数或预测曲线的惩罚函数来实现正则化。早期的高度参数化的模型包括「马尔科夫随机场」、「样条函数」、「高斯过程」随后又出现了「分类和回归决策树」、「神经网络」、「小波收缩」、「Lasso 和 Horseshoe 等最小二乘的替代方法」、「支持向量机及相关理论」。上述所有模型都会随着样本规模的增加而扩大其参数往往也不能被直接解释它们是一个更大的预测系统的一部分。在贝叶斯方法中我们可以首先在函数空间中考虑先验然后间接推导出相应的模型参数的先验。在人们能够容易地获得充足的计算资源之前这些模型的使用还十分有限。此后图像识别、深度神经网络领域中的过参数化模型持续发展。Hastie、Tibshirani 以及 Wainwright 于 2015 年将许多该领域的工作定义为对稀疏结构的估计。但是在本文作者看来正则化技术更为通用这是因为它使稠密的模型能够适应数据支持的程度。在统计学领域以外 这方面也产出了许多成果例如非负矩阵分解、非线性降维、生成对抗网络、自编码器。它们都是可以寻找结构和分解结果的无监督学习方法。随着统计方法得到了发展并被应用于更大的数据集上研究者们还研发了一些调优、自适应以及组合来自多个拟合结果的推理包括 stacking 集成、贝叶斯模型平均、boosting 集成、梯度提升、随机森林的方法。1.4 多层模型多层模型的参数因组而异它使模型可以适应于聚类抽样、纵向研究、时间序列横断面数据、元分析以及其它结构化的环境。在回归问题中一个多层模型可以被看做特定参数化的协方差结构或者是一个参数数量随数据比例增加的概率分布。多层模型可以被看做一种贝叶斯模型它们包含未知潜在特征或变化参数的概率分布。反过来贝叶斯模型也有一种多层结构包含给定参数的数据和超参数的参数的分布。对局部和一般信息进行池化pooling的思想是根据带有噪声的数据进行预测的固有数学原理。这一思想可以追溯到拉普拉斯和高斯高尔顿也隐式地表达了这种思想。部分池化的思想已经被应用于一些特定应用领域例如动物育种。部分池化与统计估计问题中的多重性的一般关系由于 James 和 Stein 等人的工作而得到了理论上的重要进展。最终这启发了心理学、药理学、抽样调查等领域的研究。Lindley 和 Smith 于 1972 年发表的论文以及 Lindley 和 Novick 于 1981 年发表的论文提供了一种基于估计多变量正态分布的超参数的数学结构而 Efron 和 Morris 等人则给出了相应的决策理论方面的解释接着这些思想被融入了回归建模并被应用于广泛的使用结构化数据的问题。从另一个方向来看Donoho 等人于 1995 年给出了多元参数收缩的信息论解释。我们更倾向于将多层模型看做将不同的信息源进行组合的框架而不是一个特定的统计模型或计算过程。因此每当我们想要根据数据的子集进行推理小面积估计或将数据泛化到新问题元分析上的时候就可以使用这种模型。类似地贝叶斯推理的可贵之处在于它不仅仅是一种将先验信息和数据组合起来的方法也是一种解释推理和决策的不确定性的方法。1.5 泛型计算方法前文中讨论过的建模方面的研究进展高度依赖于现代计算科学这不仅仅指的是更大的内存、更快的 CPU、高效的矩阵计算、对用户友好的语言以及其它计算科学方面的创新。用于高效计算的统计算法方面的进展也是一个关键的因素。在过去的 50 年中在统计问题的结构方面出现了许多具有创新性的统计算法。EM 算法、Gibbs 采样、粒子滤波、变分推断、期望传播以不同的方式利用了统计模型的条件独立结构。而 Metropolis 算法、混合或 Hamiltonian 蒙特卡洛算法则并没有直接受到统计问题的启发它们最初被提出用于计算物理学中的高维概率分布但是它们已经适应了统计计算这与在更早的时候被用于计算最小二乘以及最大似然估计的优化算法相同。当似然的解析形式很难求解或计算开销非常大时被称为近似贝叶斯计算的方法通过生成式模型仿真、而不是对似然函数进行估计得到后验推理是十分有效的。纵观统计学的历史数据分析的发展、概率建模和计算科学是共同发展的。新的模型会激发具有创新性的计算算法而新的计算技术又为更加复杂的模型和新的推理思想开启了大门例如高维正则化、多层建模、自助抽样法。通用的自动推理算法使我们可以将模型的研发解耦开来这样一来变更模型并不需要对算法实现进行改变。1.6 自适应决策分析自 20 世纪 40 年代至 20 世纪 60 年代决策理论往往被认为是统计学的基石代表性的工作包括效用最大化、错误率控制、以及经验贝叶斯分析。近年来沿着上述工作的方向研究人员在贝叶斯决策理论、错误发现率分析等领域也取得了一系列成果。决策理论还受到了有关人类决策中的启发与偏见的心理学研究的影响。决策也是统计学的应用领域之一。在统计决策分析领域的领域中重要的研究成果包括贝叶斯优化、强化学习这与工业中的 A/B 测试的实验设计的复兴以及许多工程应用中的在线学习有关。计算科学的最新进展使我们可以将高斯过程和神经网络这些高度参数化的模型用作自适应决策分析中的函数的先验还可以在仿真环境中进行大规模的强化学习例如创造能够控制机器人、生成文本、以及参与围棋等游戏。1.7 鲁棒的推理鲁棒性思想是现代统计学的核心它指的是即使在假设错误的前提条件下我们也可以使用模型。实际上开发出能够在违背上述假设的真实场景下良好运行的模型对于统计理论来说是十分重要的。Tukey 曾于 1960 年在论文「A survey of sampling from contaminated distributions」中对该领域的工作进行了综述Stigler 也于 2010 年在论文「The changing history of robustness」中进行了回顾。受到 Huber 等人工作的影响研究者们开发出了一系列在现实生活中尤其是经济学领域人们对统计模型的缺陷有深刻的认识具有一定影响力的鲁棒方法。在经济学理论中存在「as if」分析和简化模型的概念因此计量经济学家会对在一系列假设下还能运行良好的统计程序十分感兴趣。例如经济学和其它社会科学领域的应用研究人员广泛使用鲁棒标准误差以及部分识别。一般来说正如在 Bernardo 和 Smith 于 1994 年所提出的 「M-开放世界」在这个世界中数据生成过程不属于拟合的概率模型下评估统计过程的想法一样统计研究中的鲁棒性的主要影响并不在于对特定方法的发展。Greenland 认为研究者需要显式地解释传统统计模型中没有考虑的误差来源。对鲁棒性的关注与高度参数化的模型相关这是现代统计学的特点对模型评估有更普遍的影响。1.8 探索性数据分析上文讨论的统计思想都涉及密集的理论和计算的结合。从另一个完全不同的方向来看研究人员们进行了一种具有影响力的「回归到本质」的探索他们跳出概率模型重点关注数据的图形可视化。Tukey 和 Tufte 等人在他们的著作中曾对统计图的优点进行了讨论而许多这样的思想通过他们在数据分析环境 S目前在统计学及其应用领域占据主导地位的 R 语言的前身中的实现开展了统计实践。在 Tukey 之后探索性数据分析的拥趸重点说明了渐进理论的局限性以及开放式探索和通信的好处并且阐明了超越统计理论的对统计科学的更一般的观点。这与更加关注发现而非检验固定假设的统计建模观点不谋而合。同时它不仅在特定的图形化方法的发展中十分具有影响力也从科学的数据中学习将统计学从定理证明转向更开放、更健康的角度。举例而言在医学统计学领域中Bland 和 Altman 于 1986 年发表的一篇高被引论文推荐人们将图形化方法用于数据对比从而替换关联性和回归分析。此外研究人员试图形式化定义探索性数据分析Gelman 将数据展示与贝叶斯预测检查的可视化相结合Wilkinson 形式化定义了统计图中固有的对比和数据结构而 Wickham 通过这种方式得以实现了一个极具影响力的 R 语言程序包从而在许多领域中改变了统计学实践。计算的进步使从业者们能够快速构建大型的复杂模型其中在理解数据、拟合的模型、预测结果之间的关系时统计图是十分有用的。「探索性模型分析」有时被用来获取数据分析过程的实验特性。研究人员们也一直进行着将可视化囊括在模型构建和数据分析过程中的研究工作。2相同点与不同点2.1 思想能产生方法与工作流程我们之所以认为上面列出的思想重要是因为它们不仅解决了现有问题还建立了新的统计思维方式和数据分析方式。换句话说上述的每一种思想都是一部法典其方法不仅局限于统计学而更像是一种“研究品味”或“哲学思想”• 反事实机制将因果推理置于统计或预测的框架中其中因果估量causal estimands可以根据统计模型中未观察到的数据精确定义和表达并与调查抽样和缺失数据推算的思想联系起来。• Boostrap 打开了隐式非参数建模implicit nonparametric modeling的大门。• 过参数化的模型和正则化基于从数据中估计模型参数的能力将限制模型大小的现有做法形式化和泛化这与交叉验证和信息标准有关。• 多层模型将从数据估计先验分布的“经验贝叶斯”技术形式化使这种方法在类别更广泛的问题中使用时具备更高的计算与推理稳定性。• 泛型计算算法使实践者能够快速拟合用于因果推理、多层次分析、强化学习和其他许多领域的高级模型使核心思想在统计学和机器学习中产生更广泛的影响。• 自适应决策分析将最佳控制的工程问题与统计学习领域联系在一起远远超出了经典的实验设计。• 鲁棒推理将对推理稳定性的直觉形式化在表达这些问题时可以对不同程序进行正式评估和建模以处理对异常值和模型错误说明的潜在担忧。此外鲁棒推理的思想也为非参数估计提供了信息。• 探索性数据分析使图形技术和发现成为统计实践的主流因为这些工具正好可以用于更好地理解和诊断正在与数据进行拟合的概率模型的新型复杂类别。2.2. 计算上的进步元算法利用现有模型和推理步骤的工作流在统计学中被广泛使用比如最小二乘法矩估计the method of moments最大似然等等。在过去 50 年里所开发的许多机器学习元算法都有一个特征就是它们会以某种方式拆分数据或模型。学习元算法Learning Meta-Algorithms与分治计算方法相关最著名的是变分贝叶斯和期望传播算法。元算法和迭代计算在统计学中之所以重要主要是有两个原因1除了最初开发的元算法示例以外通过多个来源整合信息或通过整合弱分类器weak learner来创建强分类器的通用想法可以得到广泛应用2自适应算法在在线学习中发挥了很好的作用最终被认为代表了现代统计观点数据和计算分开信息交换和计算架构是元模型或推理过程的一部分。新方法使用新技术工具并不稀奇随着计算速度越快、计算范围越广统计学家不再局限于具备解析方案的简单模型与简单的封闭式算法如最小二乘法。我们可以简要说一下上述思想是如何利用现代计算• 一些思想boostrapping超参数化模型和机器学习元分析直接利用了计算速度这在计算机出现之前难以想象。例如直到引入高效的GPU卡和云计算之后神经网络才更加流行起来。• 除了计算能力以外计算资源的分散也很重要台式计算机能让统计学家和计算机科学家尝试新方法然后由从业人员使用这些新方法。• 探索性数据分析最初是从纸笔图形开始但随着计算机图形学的发展探索性数据分析已经历彻底改变。• 过去贝叶斯推理仅限于可以通过分析解决的简单模型。随着计算能力的提高变分和马尔可夫链模拟方法使得模型构建和推理算法开发的分离成为可能概率编程也因此允许不同领域的专家能够专注于模型构建并自动完成推理。这导致了贝叶斯方法在1990年开始在许多应用领域变得普及。• 自适应决策分析贝叶斯优化和在线学习应用于计算和数据密集型问题例如优化大型机器学习和神经网络模型实时图像处理和自然语言处理。• 鲁棒的统计学不一定需要大量计算但它的使用在一定程度上由计算驱动与封闭式估计如最小二乘法有所区别。Andrews等人曾使用大量计算进行了一项模拟研究促进了对鲁棒方法的开发和理解。• 减少多元推理的合理性不仅可以通过统计效率来证明还可以从计算层面证明激发了一种新的渐近理论。• 反事实因果推理的关键思想与理论相关而不是计算相关。但是近年来因果推理在使用计算密集的非参数方法后已有了发展促进了统计学、经济学和机器学习中因果和预测模型的统一。2.3 大数据除了为统计分析开拓发展空间以外现代计算还启发了新统计方法的应用和开发从而产生了大数据例子有基因阵列流图像和文本数据以及在线控制问题如自动驾驶汽车。事实上“数据科学”流行的原因之一就是因为在此类问题中数据处理和高效计算是与用于拟合数据的统计方法一样重要的。这与 Hal Stern 的观点相关统计分析最重要的方面不是对数据进行的操作而是你所使用的数据是什么。与先前的方法相比本文讨论的所有思想都有一个共同特征即有助于使用更多的数据• 反事实框架允许使用用于对受控实验建模的相同结构从观测数据中进行因果推断。• Bootstrapping 可用于纠正偏差与在分析计算无法进行的复杂调查、实验设计和其他数据结构上进行方差估计。• 正则化允许用户在模型中加入更多预测变量而不必担心过度拟合。• 多层模型使用部分汇集来合并来源不同的信息从而更广泛应用元分析的原理。• 泛型计算算法允许用户拟合更大的模型这对将可用数据连接到重要的基本问题来说可能是有必要的。• 自适应决策分析利用在数值分析中开发的随机优化方法。• 鲁棒推理可以更常规地使用具有异常值、相关性和其他可能阻碍常规统计建模的数据。• 探索性数据分析为复杂数据集的可视化打开了大门并推动了整洁数据分析tidy data analysis的发展以及统计分析、计算和通信的集成。在过去的50 年里统计编程环境也有了很大的发展最著名的是S语言、R语言还有以 BUGS 开头命名的通用推理引擎及其后继者。近日数值分析、自动推理和统计计算的思想开始以可复制的研究环境如Jupyter notebook和概率编程环境如StanTensorflow和Pyro的形式混合在一起。因此我们至少可以预计推理和计算方法的部分统一例如使用自动微分进行优化、采样和灵敏度分析。2.4 这些思想的关联与交互Stigler 在 2016 年提出一些明显不同的统计领域背后存在某些共同主题的相关性。这一互相联系的思想也可以用于最近的发展。例如鲁棒统计学侧重于偏离特定模型假设和探索性数据分析传统上被认为对模型根本不感兴趣之间有什么联系探索性方法如残差图和 hanging rootograms 可以从特定的模型分类分别是累计回归和泊松分布中获得但是它们的价值在很大程度上是在于其可解释性即无需参考启发它们的模型。同样你可以单独将一种方法如最小二乘法看作对数据的运算然后研究表现好的数据生成过程的类别再使用这种理论分析的结果来提出更鲁棒的程序能够拓展无论是基于故障点breakdown point极小化极大风险或其他方式定义的适用范围。相反纯粹的计算方法例如蒙特卡洛积分估算可以被有效解释为统计推理问题的解决方案。另一个联系是因果推理的潜在结果框架对人群中的每个单元都有不同的处理效应因此自然而然就采用了一种元分析方法将效应多样化并使用在实验或观察性研究分析中使用多层次回归进行建模。回过头来看研究 bootstrap 可以为我们提供一种新观点将经验贝叶斯多层次推理看作非透视方法。在该方法中正态分布或其他参数模型用于部分汇集但最终估计值不局限于任何参数形式。对小波wavelets和其他丰富参数化模型进行正则化的研究与在鲁棒背景下开发的稳定推理程序之间存在意想不到的联系。其他方法论的联系更为明显。正则化的过参数化模型使用机器学习元算法进行了优化反过来又可以得出对 contamination 具有鲁棒性的推论。这些连接可以用其他方式表示鲁棒回归模型对应混合分布混合分布可以视为多层次模型还可以使用贝叶斯推理进行拟合。深度学习模型与一种多层次逻辑回归相关也与复现核心的 Hilbert 空间在样条中使用支持向量机相关。高度参数化的机器学习方法可以构建为贝叶斯分层模型其中将惩罚函数正则化与超先验相一致无监督学习模型也可以被构建为具有未知组员的混合模型。在许多情况下是否使用贝叶斯生成框架是取决于计算这也是双向进行贝叶斯计算方法可以帮助掌握推理和预测中的不确定性高效优化算法也可以用于近似基于模型的推理 。许多被广泛讨论的思想都涉及到丰富的参数化并伴随一些用于正则化的统计或计算工具。因此它们可以被认为是经筛选思想的更广泛实现随着可用数据的增加模型会变得更大。2.5 理论促进应用反之亦然可以说所有这些方法的共同特征是易记的名称和良好的传播。但是作者怀疑这些方法的名称仅在回顾时会引起注意。诸如“反事实”、“引导程序”、“堆叠”和“增强”之类的术语听起来很专业而不是令人印象深刻作者认为是方法的价值使这些名字变得响亮。创新的想法经常会遇到阻力这也是本文中讨论的这些有影响力的想法的命运。如果一个新思想起源于一个应用领域那么要说服理论家相信它的价值可能会遇到很大挑战。相反批评新方法在理论上是有用的但在实践中没有用倒是很容易。我们应该澄清所谓“反对”不一定意味着积极反对。与其他一些学术领域相比统计数据不是很政治化学术界、政府和行业内部对统计领域的发展很宽容甚至边缘思想也被允许发展。此处讨论的许多方法例如引导程序lasso和多层模型在统计和各种应用领域中都立即流行起来但即使是这些思想也面临着阻力即局外人需要确信其应用的必要性。理论统计学是应用统计学的理论这在一定程度上得益于诸如Cox的“Planning of Experiments”Box and Tiao的“Bayesian Inference in Statistical Analysis”Cox and Hinkley的“Theoretical Statistics”BoxHunter和Hunter的“Statistics for Experimenters”等有影响力的著作帮助我们跨越了理论和应用之间的鸿沟。不同于纯数学不存在纯粹的统计。没错一些统计思想是深刻而优美的并且与数学一样这些思想也具有基本的联系。例如回归和均值之间的联系最小二乘和部分池化之间的联系但它们仍与特定主题相关。就像摘下的苹果一样脱离其营养来源后理论统计研究趋于枯竭。数学也是如此但是纯数学中的思想似乎可以存在更长的时间并且能以孤立的研究存在而统计学思想则无法如此。应用统计理论带来的好处是显而易见的。人们可以将理论视为计算的捷径。我们总是需要这样的捷径建模的需求不可避免地随着计算能力的增长而增加因此我们需要分析压缩和逼近的价值。此外理论可以帮助我们理解统计方法的工作原理而数学逻辑可以启发新的模型和数据分析方法。2.6 和统计领域其他进展的关联特定的统计模型与这些重要思想是什么联系在这里作者考虑的是有影响力的工作例如风险回归、广义线性模型、空间自回归、结构方程模型、潜在分类、高斯过程和深度学习。如上所述在过去的半个世纪中统计推断和计算领域出现了许多重要的发展这些发展都受到了上面讨论的新模型和推断思想的启发和推动。模型、方法、应用程序和计算都结合在一起。讨论不同概念发展之间的联系并不意味着关于适当使用和解释统计方法的争论仍然存在。例如错误发现率false discovery rate与多层模型之间存在双重性但是基于这些不同原理的过程可以给出不同的结果。通常使用贝叶斯方法来拟合多层模型并且在后验分布中没有任何东西会一直收敛到零。相反错误发现率方法通常使用p值阈值目的是识别少量统计上显著的非零结果。再例如在因果推理中人们越来越关注密集参数化的机器学习预测然后进行后分层poststratification以获得特定的因果估计但是在更开放的环境中需要发现非零因果关系。同样根据目标是密集预测还是稀疏预测使用了不同的方法。最后我们可以将统计方法的研究与科学和工程学中统计应用的趋势联系起来。在这里作者提到了生物学、心理学、经济学和其他科学领域的复现危机或可复现性革命这些领域的变异范围足够大需要根据统计证据得出结论。在可复现性革命中具有里程碑意义的论文包括Meehl发表的“Theoretical risks and tabular asterisks: Sir Karl, Sir Ronald, and the slow progress of soft psychology”概述了在原假设重要性检验的标准用法中提出科学主张的哲学缺陷。Ioannidis发表的“Why most published research findings are false”其认为医学上大多数已发表的研究都在使得结论不受其统计数据的支持。SimmonsNelson和Simonsohn发表的“False-positive psychology: Undisclosed flexibility in data collection and analysis allow presenting anything as significant ”解释了“研究人员的自由度”如何使研究人员即使从纯噪声数据中也能常规获得统计意义。一些补救措施是程序性的例如AmrheinGreenland和McShane发表的“Scientists rise up against statistical significance”。但也有人建议可以使用多层模型解决不可复现研究的某些问题将估计值部分归零以更好地反映研究中的效应总量例如van ZwetSchwab和Senn发表的“The statistical properties of RCTs and a proposal for shrinkage”。可再现性和稳定性问题也直接涉及到引导程序和可靠的统计数据参见Yu. B.发表的“Stability.”。 3未来几十年的重要统计思想会是什么3.1 回顾在考虑自1970年以来最重要的发展时回顾一下1920-1970年的重要统计思想包括质量控制、潜在变量建模、抽样理论、实验设计、经典和贝叶斯决策分析、置信区间和假设检验、最大似然、方差分析和客观贝叶斯推理也很有意义。当然还有1870年至1920年概率分布分类、均值回归、数据现象学建模以及Stigler在《The History of Statistics》中提到的更早年代的统计思想。在本文中作者试图提供一个广泛的视角以反映不同的观点。但是其他人可能对过去五十年来最重要的统计思想有自己的看法。确实问这个问题主要是引起人们对统计学观念的重要性的讨论。在本文中作者避免了使用引文计数或其他数值方法对论文进行排名但是他们隐含地以类似page-rank的方式来衡量影响力因为他们试图将注意力集中在那些影响了统计实践的方法发展的思想上。3.2 展望接下来会发生什么作者同意卡尔·波普尔Karl Popper的观点即人们无法预见所有未来的科学发展但是我们可能对当前的趋势将如何持续有比较可靠的见解。最安全的选择是在现有方法组合上持续取得进展对潜在输出的丰富模型进行因果推理并使用正则化估计结构化数据的复杂模型例如随时间演变的网络对多层模型的可靠推断对超参数化模型的探索性数据分析用于不同计算问题的子集subsetting和机器学习元算法等等。此外作者期望在结构化数据的实验设计和采样方面取得进展。另一个成熟的发展领域是模型理解有时也称为可解释机器学习。这里的矛盾之处在于理解复杂模型的最佳方法通常是使用简单模型对其进行近似。但问题是在这过程中是什么在进行交流一种可能有用的方法是计算对数据和模型参数扰动的推断敏感性将鲁棒性和正则化的思想与基于梯度的计算方法相结合该方法在许多不同的统计算法中使用。最后鉴于几乎所有新的统计和数据科学思想在计算上都是昂贵的因此作者设想了对推论方法验证的未来研究将诸如软件工程中的单元测试之类的思想应用到从噪声数据中学习的问题中。随着统计方法变得越来越先进理解数据、模型和实体理论之间的联系将变得越来越重要。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/917274.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!