什么是监督机器学习?原理、流程与常见算法详解

什么是监督机器学习?

机器学习 (ML) 使计算机能够从数据中学习模式并自行做出决策。我们可以将其视为教机器学习“从经验中学习”。我们让机器从示例中学习规则,而不是对每个规则进行硬编码。这是人工智能革命的核心概念。在本文中,我们将介绍什么是监督学习、监督学习的不同类型以及监督学习中的一些常见算法。

什么是机器学习?

从根本上说,机器学习是识别数据中模式的过程。其主要概念是创建在应用于未经测试的新数据时表现良好的模型。机器学习大致可分为三个领域:

  1. 监督学习
  2. 无监督学习
  3. 强化学习

简单示例:课堂上的学生

  • 监督学习中,老师会向学生提出问题和答案(例如,“2 + 2 = 4”),然后进行测验以检查他们是否记住了该模式。
  • 无监督学习中,学生会收到一堆数据或文章,并按主题分组;他们通过识别相似性来进行无标签学习。

现在,让我们尝试从技术角度理解监督式机器学习

什么是监督式机器学习?

在监督式学习中,模型使用数据集中的输入-输出对,从带标签的数据中进行学习。模型会学习输入(也称为特征或自变量)和输出(也称为标签或因变量)之间的映射。其目标是利用这种学习到的关系对未知数据进行预测。监督式学习任务主要分为两类:

1. 分类

分类中的输出变量是分类变量,这意味着它属于特定的类别组。

示例:

  • 垃圾邮件检测
    • 输入:电子邮件文本
    • 输出:垃圾邮件或非垃圾邮件
  • 手写数字识别 (MNIST)
    • 输入:数字图像
    • 输出:0 到 9 的数字

2. 回归

回归中的输出变量是连续变量,这意味着它可以包含特定范围内的任意数量的值。

示例:

  • 房价预测
    • 输入:面积、位置、房间数量
    • 输出:房价(美元)
  • 股票价格预测
    • 输入:先前价格、交易量
    • 输出:次日收盘价

监督学习工作流程

监督学习工作流程  

Source: ResearchGate

典型的监督式机器学习算法遵循以下工作流程:

  1. 数据收集:第一步是收集带标签的数据,这需要收集正确的输出(标签)和输入(自变量或特征)。
  2. 数据预处理:训练之前,我们必须清理和准备数据,因为现实世界的数据通常是杂乱无章且非结构化的。这需要处理缺失值、标准化尺度、将文本编码为数字以及适当地格式化数据。
  3. 训练-测试拆分:为了测试模型对新数据的泛化能力,您需要将数据集拆分为两部分:一部分用于训练模型,另一部分用于测试模型。通常,数据科学家会使用大约 70% 到 80% 的数据进行训练,其余部分用于测试或验证。大多数人使用 80:20 或 70:30 的拆分比例。
  4. 模型选择:根据问题类型(分类或回归)和数据的性质,选择合适的机器学习算法,例如用于预测数字的线性回归或用于分类任务的决策树。
  5. 训练:然后使用训练数据训练所选模型。在此步骤中,模型将了解输入特征和输出标签之间的基本趋势和联系。
  6. 评估:训练完成后,使用未见过的测试数据对模型进行评估。根据任务是分类还是回归,您可以使用准确率、精确率、召回率、均方根误差 (RMSE) 或 F1 分数等指标来评估其性能。
  7. 预测:最后,训练好的模型将使用新的真实数据预测结果未知的输出。如果模型表现良好,团队可以将其用于价格预测、欺诈检测和推荐系统等应用。

常见的监督机器学习算法

现在让我们来看看一些最常用的监督机器学习算法。在这里,我们将尽量简化,并概述每种算法的作用。

1. 线性回归

从根本上讲,线性回归确定连续目标 (Y) 和输入特征 (X) 之间的最优直线关系 (Y = aX + b)。通过最小化预期值和实际值之间的平方误差之和,线性回归确定最优系数 (a, b)。由于这种闭式数学解法,它在线性趋势建模(例如根据位置或面积预测房价)方面具有计算效率。当关系大致呈线性且可解释性很重要时,线性回归的简单性就显得尤为突出。

线性回归

2. 逻辑回归

尽管名为逻辑回归,但它将线性输出转换为概率,以解决二元分类问题。它使用 S 型函数 (1 / (1 + e⁻ᶻ)) 将值压缩到 0 到 1 之间,这些值表示类别的似然值(例如,“癌症风险:87%”)。在概率阈值(通常为 0.5)处,决策边界出现。由于其基于概率,它非常适合医学诊断,因为在医学诊断中,理解不确定性与做出准确的预测同样重要。

逻辑回归

3. 决策树

决策树是一种用于分类和回归任务的简单机器学习工具。这些用户友好的“if-else”流程图使用特征阈值(例如“收入> 5万美元?”)对数据进行分层划分。诸如CART之类的算法会优化每个节点的信息增益(降低熵/方差),以区分类别或预测值。最终预测由终端叶节点生成。尽管决策树存在过度拟合噪声数据的风险,但其白盒特性有助于银行家解释贷款拒贷(“由于信用评分<600且负债率>40%而被拒绝”)。

决策树

4. 随机森林

一种集成方法,利用随机特征样本和数据子集构建多个去相关的决策树。它使用多数投票法来汇总分类预测值,并使用平均值进行回归分析。对于信用风险建模,单棵树可能会将噪声误认为模式,而随机森林通过组合多种“弱学习器”来降低方差和过拟合,因此具有极强的鲁棒性。

随机森林

5. 支持向量机 (SVM)

在高维空间中,SVM 确定最佳超平面以最大程度地划分类别。为了处理非线性边界,它们使用核函数(例如 RBF)将数据隐式映射到更高维度。在文本/基因组数据中,由于分类仅由关键特征定义,因此强调“支持向量”(关键边界情况)可以提高效率。

支持向量机 (SVM)

6. K最近邻 (KNN)

一种基于实例的惰性算法,利用特征空间内k个最近邻的多数投票对点进行分类。相似度通过距离度量(欧几里得/曼哈顿)来衡量,平滑度由k控制。该算法无需训练阶段,并能立即适应新数据,因此非常适合用于根据相似用户偏好进行电影推荐的推荐系统。

K最近邻 (KNN) 

7. 朴素贝叶斯

这个概率分类器大胆地假设,特征在给定类别的情况下是条件独立的,从而应用贝叶斯定理。尽管存在这种“天真”,它还是利用频率计数来快速计算后验概率。由于 O(n) 复杂度和稀疏数据容忍度,数百万封电子邮件被实时垃圾邮件过滤器扫描。

朴素贝叶斯

8. 梯度提升 (XGBoost, LightGBM)

一种顺序集成方法,其中每个新的弱学习器(树)都会修复其前一个学习器的错误。通过使用梯度下降来优化损失函数(例如平方误差),它可以拟合残差。通过添加正则化和并行处理,XGBoost 等高级实现凭借在具有复杂交互的表格数据上实现的准确率,在 Kaggle 竞赛中占据主导地位。

梯度提升 (XGBoost, LightGBM)

实际应用

监督学习的一些应用包括:

  • 医疗保健:监督学习彻底改变了诊断学。卷积神经网络 (CNN) 能够以超过 95% 的准确率对核磁共振扫描中的肿瘤进行分类,而回归模型则可以预测患者的寿命或药物疗效。例如,谷歌的 LYNA 比人类病理学家更快地检测到乳腺癌转移,从而能够更早地进行干预。
  • 金融:银行使用分类器进行信用评分和欺诈检测,分析交易模式以识别违规行为。回归模型使用历史市场数据来预测贷款违约或股票趋势。通过自动化文档分析,摩根大通的 COIN 平台每年可节省 36 万个工时。
  • 零售和市场营销:亚马逊的推荐引擎结合使用协同过滤技术进行产品推荐,使销售额提高了 35%。回归预测需求高峰以进行库存优化,而分类器则使用购买历史记录来预测客户流失。
  • 自动驾驶系统:自动驾驶汽车依靠 YOLO(“You Only Look Once”)等实时物体分类器来识别行人和交通标志。回归模型计算碰撞风险和转向角度,从而实现动态环境中的安全导航。

关键挑战与缓解措施

挑战 1:过拟合 vs. 欠拟合

当模型记住训练噪声,导致在新数据上失败时,就会发生过拟合。解决方案包括正则化(惩罚复杂性)、交叉验证和集成方法。欠拟合源于过度简化;修复方法包括特征工程或高级算法。平衡两者可以优化泛化能力。

挑战 2:数据质量与偏差

有偏差的数据会产生歧视性模型,尤其是在抽样过程中(例如,存在性别偏见的招聘工具)。缓解措施包括合成数据生成 (SMOTE)、公平感知算法和多样化的数据来源。严格的审计和记录局限性的“模型卡”可以增强透明度和可问责性。

挑战 3:“维数灾难”

高维数据(10k 个特征)需要指数级增长的样本量来避免稀疏性。诸如 PCA(主成分分析)、LDA(线性判别分析)等降维技术能够提取这些稀疏特征,并在保留有用信息的同时进行降维,使分析师能够基于更小的样本组做出更明智的剔除决策,从而提高效率和准确性。

小结

监督式机器学习 (SML) 弥合了原始数据与智能操作之间的差距。通过从带标签的示例中学习,系统能够做出准确的预测和明智的决策,从过滤垃圾邮件和检测欺诈,到预测市场和辅助医疗保健。在本指南中,我们介绍了基础工作流程、关键类型(分类和回归)以及支持实际应用的关键算法。SML 持续塑造着我们日常所依赖的众多技术的支柱,而我们往往对此浑然不知。

评论留言