传统统计学与机器学习的对比
目录
- 传统统计学的起源与发展
- 人工智能的起源及其应用
- 机器学习与统计学的关系
- 深度学习与机器学习的区别
- 强化学习的原理与应用
- 机器学习与传统统计学的区别及应用场景
- 机器学习在垃圾邮件检测中的应用
- 机器学习在自动翻译中的应用
- 机器学习在自动驾驶中的应用
- 机器学习中的生成模型及应用
- 机器学习的优势与限制
- 机器学习与统计学的学习途径
- 人工智能的长期潜在风险
👩🏫 传统统计学的起源与发展
传统统计学具有悠久的历史。它始于公元前美索不达米亚地区的算术计数,发展到英格兰的死亡率表,并在18世纪和19世纪逐渐与数学结合。随后,统计学的基本原理得以确立,人们能够制定估计、变异、有效估计等原则,并将理论与实际数据处理相结合,产生了强大的分析能力。随着数据的不断增加,传统统计学逐渐无法应对,于是新的思路应运而生。
👾 人工智能的起源及其应用
人工智能是受人类想象力驱动的产物,旨在创建能够思考和模仿人类智能和行为的机器。最早的尝试之一是图灵的国际象棋机器人,它是一个机器人雕像,可以与人类进行国际象棋对弈。这一发明非常受欢迎,其中一个非常小巧的机器人是一个出色的国际象棋棋手,通过控制机器人来下棋。因此,人工智能基本上包括试图模仿人类行为的任何算法或研究领域,包括逻辑推理、智能搜索算法、专家系统等。人们只需编写一套编码规则,便可回答非常具体的问题,从而实现问题的智能回答。
🤝 机器学习与统计学的关系
机器学习是人工智能的一部分,其中学习是其主要组成部分。机器学习的关键在于学习的过程,意味着可以使用不特定于特定任务的算法。例如,您不需要为脓毒症检测编写一个特定的算法,而是可以使用可以通过数据进行训练的算法,从而使其调整参数,以便对脓毒症进行训练,但您也可以使用相同的技术来检测心肌梗死或其他情况。因此,机器学习为您提供了一组从数据中学习的算法,以预测可能发生的事件或情况。但是,有人可以认为机器学习是统计学的一个结果,因为在统计学中,数据累积并且变得非常复杂,以至于传统统计学模型无法处理。因此,我们需要所谓的非参数方法来应对这些背后的数据结构,这些方法不假设可以提供像平均数或复杂的回归模型之类的估计值的模型,这就是机器学习开始的时候,它是一个随机森林、分类树或卡方检验,现在还有与人工智能的联系,最简单的神经网络也是从回归模型的推广中提出的,试图保持开放性而不依赖于理论结构,这就是所谓的深度学习。
💡 深度学习与机器学习的区别
深度学习是机器学习中的一种方法,它涉及创建数据处理的多层堆叠。最著名的算法是神经网络,它大约占据了90%或95%的比例,但在理论上,您也可以使用贝叶斯网络,人们已经尝试过,因此深度贝叶斯网络、深度随机森林也是可以的。只要添加多个层,让整个数据处理过程经过多个层次,就可以称之为深度框架。但是,强化学习在哪里?
⭐️ 强化学习的原理与应用
强化学习源于这样的思想,即它也是机器学习的一部分。强化学习的基本思想是,首先要考虑代理,而不仅仅是模型,代理有一种状态和一种策略,这些是重要的术语,基本思想是,就像人类一样当你学习时,比如说,如果你把手放在火上你会学到它很痛,那么你下次可能就不再想做这个了,对吧,因为你的环境,你觉得这是痛苦的环境,所以你的策略就会包括这样的规则,即不要碰火。这模仿了人类学习过程的基本思想,你基本上创建了一个代理,它根据环境状态的变化来执行或建议行动,因此它是一种特定类型的机器学习,是一种非常具体的机器学习方法。
🎯 机器学习与传统统计学的区别及应用场景
对于这个问题,一个数据科学家可能会告诉你,没有使用传统统计学的情况。从某种程度上来说,因为数据科学正在逐渐代替统计学的思维方式,进入这个机器学习的世界。实际上,统计学的原则大多已经应用到新的算法和新的方法中,但当然还有一个非常有名的论文,2000年的"Two Cultures",一种是算法文化,只试图产生预测和一些建模文化,这来自统计学的传统,尝试定义描述你所看到的东西并试图理解背后的机理,虽然这种不同现在在机器学习中也是可能的,这种机械思维,统计模型有时可以提供的理解机制,我们现在也可以在机器学习中实现,后来可以被称为能够解释的人工智能或能够解释的机器学习。
💼 机器学习在垃圾邮件检测中的应用
每个邮件程序都采用了一些机器学习算法来发现垃圾邮件并将其分类。即使是简单的文字翻译也是机器学习,即使你驾驶一辆汽车,你也需要一个可以区分是车祸还是撞到路边的算法,所以你还需要一些分类算法来判断你的汽车所处的情况。你还可以思考所有生成的AI,即使统计学没有开发出来,例如,你告诉算法你想要一个30岁女性的照片,它会为你生成一个,你可以使用它来生成合成的病人等等,这类事情就是创意或者生成性能力,这是统计学并不直接进行的事情。
🚗 机器学习在自动驾驶中的应用
尤其是在自动驾驶领域,机器学习可以发挥重要的作用。自动驾驶汽车需要能够区分不同的情况,你可以使用机器学习中的分类算法来实现这一点。当然,这些是非常实际的应用,有非常大的商业潜力。
🖼️ 机器学习中的生成模型及应用
生成模型是机器学习中的一种重要算法,用于根据给定条件创建新的数据。这在传统统计学中是没有直接设计用于做的,你可以告诉算法你想要一个30岁女性的照片,它会为你生成一个。你可以将其用于创建合成的病人数据,等等。这类发散思维或生成性任务是传统统计学无法直接处理的。
🔍 机器学习的优势与限制
机器学习相对于传统统计学具有一些优势,但也有一些限制。机器学习可以处理复杂问题,并为您的特定子集可能提供更好的预测能力。但是,如果不进行良好的校准,它可能在稍有不同的分布中不起作用。另外,机器学习需要大量的数据进行训练,并且如果参数过多,会造成过拟合的风险。相比之下,传统统计学在我们熟悉的范围内,使用起来更加简单,人们已经使用它数百年了,因此对于您想要的结论以及如何使用它以及如何使用它派生结论,人们早已熟悉。此外,它还可以实现更快的实施,例如,如果我想要预测脓毒症,我只需要使用逻辑回归来开发一个能够为临床医生提供相关信息的评分,就可以立即使用该评分。此外,我对于组成评分的每个变量的重要性有一定的理解。另外,我还可以将其应用于实践中,例如,在街上使用,而无需计算机等任何设备。但是,如果我使用一种拥有2000或100000个变量参数的深度神经网络方法,例如,从动脉波形中获取数据,等等,即使我使其可解释,如果我有200000个变量,对于我的大脑来说,理解这些算法是非常困难的,它是如何得出结论的。此外,即使我使其可解释,由于存在200000个变量,实施也将非常困难,因为根据数据的训练情况,我需要估计算法错误的风险等等,我们目前只能最终理解如何开发工具,以实现此目标,随着实施的困难,会不断出现不同的法律问题。即使问题不仅仅是责任问题,还涉及到道德责任和伦理问题。