和风网标志

十大机器学习算法的初学者指南 – KDnuggets

日期:

十大机器学习算法初学者指南
图片作者
 

支撑数据科学的领域之一是机器学习。因此,如果您想进入数据科学领域,了解机器学习是您需要采取的第一步。

但你从哪儿开始呢?您首先要了解两种主要类型的机器学习算法之间的区别。只有在那之后,我们才能讨论初学者应该优先学习的各个算法。

算法之间的主要区别在于它们的学习方式。

 

十大机器学习算法初学者指南
图片作者
 

监督学习算法 接受训练 标记数据集。该数据集充当学习的监督(因此得名),因为它包含的一些数据已经被标记为正确答案。基于此输入,算法可以学习并将该学习应用到其余数据。

另一方面, 无监督学习算法 学习在 未标记的数据集,这意味着它们可以在没有人类指导的情况下寻找数据模式。

您可以阅读更多详细信息 机器学习算法 和学习类型。

还有一些其他类型的机器学习,但不适合初学者。

每种类型的机器学习都采用算法来解决两个主要的不同问题。

同样,还有一些任务,但它们不适合初学者。

 

十大机器学习算法初学者指南
图片作者

监督学习任务

数据复原测试 是预测一个的任务 数值,被称为 连续结果变量或因变量。预测基于预测变量或自变量。

考虑预测油价或气温。

分类 用于预测 类别(类别) 输入数据的。这 结果变量 这是 分类或离散.

考虑预测邮件是否是垃圾邮件,或者患者是否会患上某种疾病。

无监督学习任务

聚类 手段 将数据划分为子集或簇。目标是尽可能自然地对数据进行分组。这意味着同一簇内的数据点彼此之间比其他簇中的数据点更相似。

降维 指减少数据集中输入变量的数量。这基本上意味着 将数据集减少到很少的变量,同时仍然捕捉其本质.

以下是我将介绍的算法的概述。

 

十大机器学习算法初学者指南
图片作者

监督学习算法

在为您的问题选择算法时,了解该算法用于什么任务非常重要。

作为一名数据科学家,您可能会使用以下方法在 Python 中应用这些算法 scikit学习库。尽管它(几乎)可以为您完成所有工作,但建议您至少了解每种算法内部工作原理的一般原理。

最后,在训练算法之后,您应该评估它的性能。为此,每种算法都有一些标准指标。

1. 线性回归

用于: 数据复原测试

描述: 线性回归画一条直线 称为变量之间的回归线。这条线大约穿过数据点的中间,从而最大限度地减少估计误差。它显示基于自变量值的因变量的预测值。

评估指标: 

  • 均方误差 (MSE):表示平方误差的平均值,该误差是实际值与预测值之间的差异。值越低,算法性能越好。
  • R-平方:表示自变量可以预测的因变量的方差百分比。对于此度量,您应该努力使其尽可能接近 1。

2.逻辑回归

用于: 分类

描述: 它使用 逻辑函数 将数据值转换为二进制类别,即 0 或 1。这是使用阈值完成的,通常设置为 0.5。二进制结果使该算法非常适合预测二进制结果,例如 YES/NO、TRUE/FALSE 或 0/1。

评估指标:

  • 准确度:正确预测与总体预测之间的比率。越接近1越好。
  • Precision:模型在积极预测中的准确性的衡量标准;显示为正确的积极预测与总预期积极结果之间的比率。越接近1越好。
  • 回想一下:它也衡量模型在积极预测中的准确性。它表示为正确的积极预测与课堂上进行的总观察之间的比率。阅读有关这些指标的更多信息 此处.
  • F1分数:模型召回率和精度的调和平均值。越接近1越好。

3. 决策树

用于: 回归与分类

描述: 决策树 是使用分层或树结构来预测值或类别的算法。根节点代表整个数据集,然后根据变量值分为决策节点、分支和叶子。

评估指标: 

  • 准确率、精确率、召回率和 F1 分数 -> 用于分类
  • MSE,R 平方 -> 用于回归

4. 朴素贝叶斯

用于: 分类

描述: 这是一系列分类算法,使用 贝叶斯定理,这意味着它们假设类内的特征之间是独立的。

评估指标:  

  • 准确性
  • 平台精度
  • 记得
  • F1分数

5.K-最近邻(KNN)

用于: 回归与分类

描述: 它计算测试数据与实际数据之间的距离 k-最近数据点的数量 从训练数据中。测试数据属于“邻居”数量较多的类别。对于回归,预测值是选择的 k 个训练点的平均值。

评估指标: 

  • 准确率、精确率、召回率和 F1 分数 -> 用于分类
  • MSE,R 平方 -> 用于回归

6. 支持向量机(SVM)

用于: 回归与分类

描述: 该算法绘制了一个 超平面 分离不同类别的数据。它位于距每个类别最近点的最大距离处。数据点与超平面的距离越远,它就越属于它的类别。对于回归,原理类似:超平面最大化预测值和实际值之间的距离。

评估指标: 

  • 准确率、精确率、召回率和 F1 分数 -> 用于分类
  • MSE,R 平方 -> 用于回归

7. 随机森林

用于: 回归与分类

描述: 随机森林算法 使用决策树集合,然后形成决策森林。该算法的预测是基于许多决策树的预测。数据将分配给获得最多票数的类别。对于回归,预测值是所有树的预测值的平均值。

评估指标: 

  • 准确率、精确率、召回率和 F1 分数 -> 用于分类
  • MSE,R 平方 -> 用于回归

8. 梯度提升

用于: 回归与分类

描述: 这些算法 使用一组弱模型,每个后续模型都会识别并纠正先前模型的错误。重复这个过程直到误差(损失函数)最小化。

评估指标: 

  • 准确率、精确率、召回率和 F1 分数 -> 用于分类
  • MSE,R 平方 -> 用于回归

无监督学习算法

9. K-Means 聚类

用于: 聚类

描述: 算法 将数据集划分为 k 个簇,每个簇由其代表 质心或几何中心。通过将数据划分为 k 个簇的迭代过程,目标是最小化数据点与其簇质心之间的距离。另一方面,它还尝试最大化这些数据点与其他簇质心的距离。简单来说,属于同一簇的数据应该与其他簇的数据尽可能相似,并且尽可能不同。

评估指标: 

  • 惯量:每个数据点到最近的簇质心的距离的平方和。惯性值越低,集群越紧凑。
  • Silhouette Score:它衡量簇的内聚性(数据在其自身簇内的相似性)和分离性(数据与其他簇的差异)。该分数的值范围为 -1 到 +1。值越高,数据与其集群的匹配程度越高,与其他集群的匹配程度越差。

10.主成分分析(PCA)

用于: 降维

描述: 算法 通过构造新变量(主成分)减少使用的变量数量,同时仍尝试最大化捕获的数据方差。换句话说,它将数据限制为其最常见的组成部分,同时又不丢失数据的本质。

评估指标: 

  • 解释方差:每个主成分覆盖的方差百分比。
  • 总解释方差:所有主成分覆盖的方差百分比。

机器学习是数据科学的重要组成部分。通过这十种算法,您将涵盖机器学习中最常见的任务。当然,本概述仅让您大致了解每种算法的工作原理。所以,这只是一个开始。

现在,你需要学习如何在Python中实现这些算法并解决实际问题。在这方面,我建议使用 scikit-learn。不仅因为它是一个相对易于使用的 ML 库,还因为它 广泛的材料 关于机器学习算法。
 
 

内特·罗西迪 是一名数据科学家,负责产品策略。他还是教授分析学的兼职教授,并且是 StrataScratch 的创始人,该平台帮助数据科学家利用顶级公司的真实面试问题准备面试。 Nate 撰写有关职业市场最新趋势的文章、提供面试建议、分享数据科学项目,并涵盖 SQL 的所有内容。

现货图片

最新情报

现货图片