什么是监督机器学习？原理、流程与常见算法详解

什么是监督机器学习？

机器学习 (ML) 使计算机能够从数据中学习模式并自行做出决策。我们可以将其视为教机器学习“从经验中学习”。我们让机器从示例中学习规则，而不是对每个规则进行硬编码。这是人工智能革命的核心概念。在本文中，我们将介绍什么是监督学习、监督学习的不同类型以及监督学习中的一些常见算法。

什么是机器学习？

从根本上说，机器学习是识别数据中模式的过程。其主要概念是创建在应用于未经测试的新数据时表现良好的模型。机器学习大致可分为三个领域：

监督学习
无监督学习
强化学习

简单示例：课堂上的学生

在监督学习中，老师会向学生提出问题和答案（例如，“2 + 2 = 4”），然后进行测验以检查他们是否记住了该模式。
在无监督学习中，学生会收到一堆数据或文章，并按主题分组；他们通过识别相似性来进行无标签学习。

现在，让我们尝试从技术角度理解监督式机器学习。

什么是监督式机器学习？

在监督式学习中，模型使用数据集中的输入-输出对，从带标签的数据中进行学习。模型会学习输入（也称为特征或自变量）和输出（也称为标签或因变量）之间的映射。其目标是利用这种学习到的关系对未知数据进行预测。监督式学习任务主要分为两类：

1. 分类

分类中的输出变量是分类变量，这意味着它属于特定的类别组。

示例：

垃圾邮件检测
- 输入：电子邮件文本
- 输出：垃圾邮件或非垃圾邮件
手写数字识别 (MNIST)
- 输入：数字图像
- 输出：0 到 9 的数字

2. 回归

回归中的输出变量是连续变量，这意味着它可以包含特定范围内的任意数量的值。

示例：

房价预测
- 输入：面积、位置、房间数量
- 输出：房价（美元）
股票价格预测
- 输入：先前价格、交易量
- 输出：次日收盘价

监督学习工作流程

Source: ResearchGate

典型的监督式机器学习算法遵循以下工作流程：

数据收集：第一步是收集带标签的数据，这需要收集正确的输出（标签）和输入（自变量或特征）。
数据预处理：训练之前，我们必须清理和准备数据，因为现实世界的数据通常是杂乱无章且非结构化的。这需要处理缺失值、标准化尺度、将文本编码为数字以及适当地格式化数据。
训练-测试拆分：为了测试模型对新数据的泛化能力，您需要将数据集拆分为两部分：一部分用于训练模型，另一部分用于测试模型。通常，数据科学家会使用大约 70% 到 80% 的数据进行训练，其余部分用于测试或验证。大多数人使用 80:20 或 70:30 的拆分比例。
模型选择：根据问题类型（分类或回归）和数据的性质，选择合适的机器学习算法，例如用于预测数字的线性回归或用于分类任务的决策树。
训练：然后使用训练数据训练所选模型。在此步骤中，模型将了解输入特征和输出标签之间的基本趋势和联系。
评估：训练完成后，使用未见过的测试数据对模型进行评估。根据任务是分类还是回归，您可以使用准确率、精确率、召回率、均方根误差 (RMSE) 或 F1 分数等指标来评估其性能。
预测：最后，训练好的模型将使用新的真实数据预测结果未知的输出。如果模型表现良好，团队可以将其用于价格预测、欺诈检测和推荐系统等应用。

常见的监督机器学习算法

现在让我们来看看一些最常用的监督机器学习算法。在这里，我们将尽量简化，并概述每种算法的作用。

1. 线性回归

从根本上讲，线性回归确定连续目标 (Y) 和输入特征 (X) 之间的最优直线关系 (Y = aX + b)。通过最小化预期值和实际值之间的平方误差之和，线性回归确定最优系数 (a, b)。由于这种闭式数学解法，它在线性趋势建模（例如根据位置或面积预测房价）方面具有计算效率。当关系大致呈线性且可解释性很重要时，线性回归的简单性就显得尤为突出。

线性回归

2. 逻辑回归

尽管名为逻辑回归，但它将线性输出转换为概率，以解决二元分类问题。它使用 S 型函数 (1 / (1 + e⁻ᶻ)) 将值压缩到 0 到 1 之间，这些值表示类别的似然值（例如，“癌症风险：87%”）。在概率阈值（通常为 0.5）处，决策边界出现。由于其基于概率，它非常适合医学诊断，因为在医学诊断中，理解不确定性与做出准确的预测同样重要。

逻辑回归

3. 决策树

决策树是一种用于分类和回归任务的简单机器学习工具。这些用户友好的“if-else”流程图使用特征阈值（例如“收入> 5万美元？”）对数据进行分层划分。诸如CART之类的算法会优化每个节点的信息增益（降低熵/方差），以区分类别或预测值。最终预测由终端叶节点生成。尽管决策树存在过度拟合噪声数据的风险，但其白盒特性有助于银行家解释贷款拒贷（“由于信用评分<600且负债率>40%而被拒绝”）。

决策树

4. 随机森林

一种集成方法，利用随机特征样本和数据子集构建多个去相关的决策树。它使用多数投票法来汇总分类预测值，并使用平均值进行回归分析。对于信用风险建模，单棵树可能会将噪声误认为模式，而随机森林通过组合多种“弱学习器”来降低方差和过拟合，因此具有极强的鲁棒性。

随机森林

5. 支持向量机 (SVM)

在高维空间中，SVM 确定最佳超平面以最大程度地划分类别。为了处理非线性边界，它们使用核函数（例如 RBF）将数据隐式映射到更高维度。在文本/基因组数据中，由于分类仅由关键特征定义，因此强调“支持向量”（关键边界情况）可以提高效率。

支持向量机 (SVM)

6. K最近邻 (KNN)

一种基于实例的惰性算法，利用特征空间内k个最近邻的多数投票对点进行分类。相似度通过距离度量（欧几里得/曼哈顿）来衡量，平滑度由k控制。该算法无需训练阶段，并能立即适应新数据，因此非常适合用于根据相似用户偏好进行电影推荐的推荐系统。

K最近邻 (KNN)

7. 朴素贝叶斯

这个概率分类器大胆地假设，特征在给定类别的情况下是条件独立的，从而应用贝叶斯定理。尽管存在这种“天真”，它还是利用频率计数来快速计算后验概率。由于 O(n) 复杂度和稀疏数据容忍度，数百万封电子邮件被实时垃圾邮件过滤器扫描。

朴素贝叶斯

8. 梯度提升 (XGBoost, LightGBM)

一种顺序集成方法，其中每个新的弱学习器（树）都会修复其前一个学习器的错误。通过使用梯度下降来优化损失函数（例如平方误差），它可以拟合残差。通过添加正则化和并行处理，XGBoost 等高级实现凭借在具有复杂交互的表格数据上实现的准确率，在 Kaggle 竞赛中占据主导地位。

梯度提升 (XGBoost, LightGBM)

实际应用

监督学习的一些应用包括：

医疗保健：监督学习彻底改变了诊断学。卷积神经网络 (CNN) 能够以超过 95% 的准确率对核磁共振扫描中的肿瘤进行分类，而回归模型则可以预测患者的寿命或药物疗效。例如，谷歌的 LYNA 比人类病理学家更快地检测到乳腺癌转移，从而能够更早地进行干预。
金融：银行使用分类器进行信用评分和欺诈检测，分析交易模式以识别违规行为。回归模型使用历史市场数据来预测贷款违约或股票趋势。通过自动化文档分析，摩根大通的 COIN 平台每年可节省 36 万个工时。
零售和市场营销：亚马逊的推荐引擎结合使用协同过滤技术进行产品推荐，使销售额提高了 35%。回归预测需求高峰以进行库存优化，而分类器则使用购买历史记录来预测客户流失。
自动驾驶系统：自动驾驶汽车依靠 YOLO（“You Only Look Once”）等实时物体分类器来识别行人和交通标志。回归模型计算碰撞风险和转向角度，从而实现动态环境中的安全导航。

关键挑战与缓解措施

挑战 1：过拟合 vs. 欠拟合

当模型记住训练噪声，导致在新数据上失败时，就会发生过拟合。解决方案包括正则化（惩罚复杂性）、交叉验证和集成方法。欠拟合源于过度简化；修复方法包括特征工程或高级算法。平衡两者可以优化泛化能力。

挑战 2：数据质量与偏差

有偏差的数据会产生歧视性模型，尤其是在抽样过程中（例如，存在性别偏见的招聘工具）。缓解措施包括合成数据生成 (SMOTE)、公平感知算法和多样化的数据来源。严格的审计和记录局限性的“模型卡”可以增强透明度和可问责性。

挑战 3：“维数灾难”

高维数据（10k 个特征）需要指数级增长的样本量来避免稀疏性。诸如 PCA（主成分分析）、LDA（线性判别分析）等降维技术能够提取这些稀疏特征，并在保留有用信息的同时进行降维，使分析师能够基于更小的样本组做出更明智的剔除决策，从而提高效率和准确性。

小结

监督式机器学习 (SML) 弥合了原始数据与智能操作之间的差距。通过从带标签的示例中学习，系统能够做出准确的预测和明智的决策，从过滤垃圾邮件和检测欺诈，到预测市场和辅助医疗保健。在本指南中，我们介绍了基础工作流程、关键类型（分类和回归）以及支持实际应用的关键算法。SML 持续塑造着我们日常所依赖的众多技术的支柱，而我们往往对此浑然不知。

学习算法机器学习

什么是监督机器学习？原理、流程与常见算法详解

什么是机器学习？

简单示例：课堂上的学生

什么是监督式机器学习？

1. 分类

2. 回归

监督学习工作流程

常见的监督机器学习算法

1. 线性回归

2. 逻辑回归

3. 决策树

4. 随机森林

5. 支持向量机 (SVM)

6. K最近邻 (KNN)

7. 朴素贝叶斯

8. 梯度提升 (XGBoost, LightGBM)

实际应用

关键挑战与缓解措施

挑战 1：过拟合 vs. 欠拟合

挑战 2：数据质量与偏差

挑战 3：“维数灾难”

小结

评论留言

取消回复

文章目录

什么是监督机器学习？原理、流程与常见算法详解

什么是机器学习？

简单示例：课堂上的学生

什么是监督式机器学习？

1. 分类

2. 回归

监督学习工作流程

常见的监督机器学习算法

1. 线性回归

2. 逻辑回归

3. 决策树

4. 随机森林

5. 支持向量机 (SVM)

6. K最近邻 (KNN)

7. 朴素贝叶斯

8. 梯度提升 (XGBoost, LightGBM)

实际应用

关键挑战与缓解措施

挑战 1：过拟合 vs. 欠拟合

挑战 2：数据质量与偏差

挑战 3：“维数灾难”

小结

相关文章

评论留言

取消回复

文章目录