时间:2022-07-24 13:00:52来源:网络整理
作者:Robbie Allen
编译:BigQuant
无论您如何看待数据科学这门学科,数据的重要性以及我们分析、组织和理解数据的能力都不容忽视。 Glassdoor 收集了大量雇主和雇员的反馈数据,发现在美国“25 个最佳工作榜单”中排名第一的位置是数据科学家。尽管有排名,但毫无疑问,数据科学家研究的特定工作的数量将继续增长。随着机器学习等技术变得越来越普遍,深度学习等新兴领域越来越受到研究人员、工程师和企业的关注有哪几种数据挖掘技术,数据科学家将继续站在创新浪潮的前沿,推动技术向前发展。成长。
虽然拥有强大的编码技能很重要,但数据科学不仅仅与软件工程有关(事实上,精通 Python 就足以胜任这项工作)。数据科学家生活在编程、统计和批判性思维的交汇处。正如 Josh Wills 所说:“数据科学家是比任何程序员都更擅长统计并且比任何统计学家都更擅长编程的人。”我个人认为,太多的软件工程师想转向数据科学家,盲目地利用一些机器学习框架,比如 TensorFlow 或 Apache Spark 来处理他们的数据,而没有深入了解其背后的统计理论。因此,统计和泛化函数领域对机器学习理论框架的不断借鉴,也不断伴随着统计研究。
为什么要学习统计学习?了解各种技术背后的想法很重要,这样我们才能掌握如何使用它们以及何时使用它们。我们要明确一点,只有先掌握较简单的方法,才能为以后掌握复杂的方法打下良好的基础。准确评估方法的性能也很重要,这样您就可以了解它的工作情况。此外,统计学是一个令人兴奋的研究领域,在科学、工业和金融领域有着重要的应用。最后,统计学习是培养现代数据科学家的基本要素。统计学习问题的应用示例包括:
在我大学的最后一个学期,我对数据挖掘进行了独立研究。本主题涵盖的大部分内容来自三本书:统计学习简介、贝叶斯数据分析和时间序列分析与应用。我们在贝叶斯分析、马尔可夫链、蒙特卡洛、分层建模、监督和无监督学习方面进行了广泛的练习。这段经历加深了我对数据挖掘这一学术领域的兴趣,也让我坚信我会继续专注于这个领域。我最近完成了斯坦福大学的 Lagunita Statistical Learning 在线课程,该课程涵盖了我读过的关于独立研究中的统计学习简介的所有内容。现在我对这部分已经很熟悉了,我想分享这本书中的 10 种统计技术,我认为任何数据科学家都应该学会更有效地处理大型数据集,这些技术正在帮助数据科学家实现这一目的。
在介绍这 10 种技术之前,我想对统计学习和机器学习做一个简单的区分。主要区别如下:
1.线性回归
在统计学中,线性回归是一种通过拟合因变量和自变量之间的最佳线性关系来预测目标变量的方法。最佳拟合是通过确保线性表达式输出图与实际观察点之间的所有距离之和尽可能小来完成的。形状的“最佳”意味着给定形状,没有其他位置会产生更少的错误。线性回归的两种主要类型是简单线性回归和多元线性回归。简单线性回归使用单个自变量通过拟合最佳线性关系来预测因变量。多元线性回归使用多个自变量通过拟合最佳线性关系来预测因变量。
选择与您日常生活相关的任意两件事。例如,我有过去三年的每月开支、每月收入和每月旅行的数据。那么我可以通过线性回归来预测以下问题:
2.类别
分类是一种数据挖掘技术,可将数据集分配到多个类别,以帮助进行更准确的预测和分析。有时称为决策树,分类是分析大型数据集的几种有效方法之一。两种最常用的分类技术是逻辑回归和判别分析。
逻辑回归分析适用于因变量为二元类别时的回归分析。与所有回归分析一样,逻辑回归是一种预测分析。逻辑回归用于描述数据并解释一个相关二元变量与一个或多个自变量(例如名义、有序、区间或比率水平)之间的关系。逻辑回归可以检查的问题类型有:
在判别分析中,可以将两个或多个已知的集合、簇或组作为先验知识进行分类,新的观测值可以根据测量的特征分类到相应的类别中。判别分析分别对每个响应类别中的预测变量 X 的分布进行建模,然后使用贝叶斯定理将它们转换为对给定 X 值将产生相应类别的概率的估计。这些模型可以是线性的或二次的。
3.重采样方法
重采样是一种从原始数据样本中抽取重复样本的方法。这是一种统计推断的非参数方法。也就是说,重采样方法不涉及使用一般分布表来计算近似概率p的值。
重采样会根据实际数据生成唯一的采样分布。它使用实验而不是分析方法来生成独特的采样分布。它基于研究人员数据的所有可能结果的无偏样本获得无偏估计。为了理解重采样的概念,你应该首先理解术语 Bootstrapping 和 cross-validation:
通常对于线性模型,普通最小二乘法是拟合数据时的主要标准。接下来的 3 种方法是可以为线性模型拟合提供更好的预测精度和模型可解释性的替代方法。
4.子集选择
这种方法首先识别出我们认为与问题最相关的 p 个预测变量的子集。然后我们使用子集特征和最小二乘来拟合模型。
5.特征缩减技术
这种方法适用于使用所有 p 个预测变量构建的模型,但是,表示预测变量重要性的系数将随着最小二乘误差缩小到零。这种收缩称为正则化,具有减少方差以防止模型过度拟合的效果。常用的降系数方法有lasso(L1正则化)和岭回归(L2正则化)。
6.降维
降维是一个简单的问题,将p+1的系数估计问题简化为M+1的系数估计,其中M
7.非线性模型
在统计学中,非线性回归是一种回归分析形式,它通过依赖一个或多个自变量的模型参数的非线性组合对观测数据进行建模。数据采用逐次逼近法拟合。以下是处理非线性模型的一些重要技术:
8.基于树的方法
基于树的方法可用于回归和分类问题。它将预测空间分层或划分为简单区域。由于用于划分预测器空间的一组分割规则可以概括为一棵树,因此这些类型的方法统称为决策树方法。下面的方法生成多棵树,然后将它们组合起来产生一个统一的预测。
9.支持向量机
支持向量机是一种分类技术,包含在机器学习的监督学习模型中。通俗地说,它涉及为两类点集(2D 空间中的线、3D 空间中的平面和更高维度的超平面,它们是 n 维空间的 n-1 维子空间)找到最优超平面这个超平面最大化两类点集的区间,本质上是一个有约束的优化问题,在一定的约束条件下最大化区间,从而实现数据的完美分类。
“支持”这个超平面的数据点称为“支持向量”。在上图中,实心蓝色圆圈和两个实心方块是支持向量。对于两类数据不能线性分离的情况有哪几种数据挖掘技术,这些点将被投影到可能发生线性分离的爆炸(高维)空间中。涉及多个类的问题可以分解为多个一对一或一对一的残差二分类问题。
10.无监督学习
到目前为止,我们只讨论了数据分类已知的监督学习技术。当数据集(类别)未知时,可以使用另一组技术。它们被称为无监督学习,它们需要自己发现数据中的模式。聚类是无监督学习的一个例子,其中数据根据相关性划分为聚类。以下是一些最常用的无监督学习算法:
对上述一些统计技术的基本介绍,可以帮助数据科学项目经理和高管更好地了解他们的数据科学团队正在做什么。事实上,一些数据科学团队纯粹通过 python 和 R 来运行算法。他们中的大多数甚至不必考虑一些底层数学。但是,能够理解统计分析的基础知识可以为您的团队带来更多好处。希望这份数据科学统计基本指南能为您带来一些新见解!
原文链接:《数据科学家需要掌握的 10 种统计技术》
本文由BigQuant《量化研究每周精选》原创推出,版权归BigQuant所有,转载请注明出处。
声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。
图文推荐
2022-07-24 11:01:18
2022-07-22 12:02:02
2022-07-22 09:02:51
2022-07-22 09:01:35
2022-07-21 13:00:24
2022-07-20 13:01:27
热点排行
精彩文章
2022-07-23 11:02:34
2022-07-23 10:01:52
2022-07-20 09:01:33
2022-07-19 12:00:24
2022-07-19 11:01:01
2022-07-17 13:00:39
热门推荐