機器學習 (ML) 使計算機能夠從資料中學習模式並自行做出決策。我們可以將其視為教機器學習“從經驗中學習”。我們讓機器從示例中學習規則,而不是對每個規則進行硬編碼。這是人工智慧革命的核心概念。在本文中,我們將介紹什麼是監督學習、監督學習的不同型別以及監督學習中的一些常見演算法。
什麼是機器學習?
從根本上說,機器學習是識別資料中模式的過程。其主要概念是建立在應用於未經測試的新資料時表現良好的模型。機器學習大致可分為三個領域:
- 監督學習
- 無監督學習
- 強化學習
簡單示例:課堂上的學生
- 在監督學習中,老師會向學生提出問題和答案(例如,“2 + 2 = 4”),然後進行測驗以檢查他們是否記住了該模式。
- 在無監督學習中,學生會收到一堆資料或文章,並按主題分組;他們透過識別相似性來進行無標籤學習。
現在,讓我們嘗試從技術角度理解監督式機器學習。
什麼是監督式機器學習?
在監督式學習中,模型使用資料集中的輸入-輸出對,從帶標籤的資料中進行學習。模型會學習輸入(也稱為特徵或自變數)和輸出(也稱為標籤或因變數)之間的對映。其目標是利用這種學習到的關係對未知資料進行預測。監督式學習任務主要分為兩類:
1. 分類
分類中的輸出變數是分類變數,這意味著它屬於特定的類別組。
示例:
- 垃圾郵件檢測
- 輸入:電子郵件文字
- 輸出:垃圾郵件或非垃圾郵件
- 手寫數字識別 (MNIST)
- 輸入:數字影像
- 輸出:0 到 9 的數字
2. 迴歸
迴歸中的輸出變數是連續變數,這意味著它可以包含特定範圍內的任意數量的值。
示例:
- 房價預測
- 輸入:面積、位置、房間數量
- 輸出:房價(美元)
- 股票價格預測
- 輸入:先前價格、交易量
- 輸出:次日收盤價
監督學習工作流程
Source: ResearchGate
典型的監督式機器學習演算法遵循以下工作流程:
- 資料收集:第一步是收集帶標籤的資料,這需要收集正確的輸出(標籤)和輸入(自變數或特徵)。
- 資料預處理:訓練之前,我們必須清理和準備資料,因為現實世界的資料通常是雜亂無章且非結構化的。這需要處理缺失值、標準化尺度、將文字編碼為數字以及適當地格式化資料。
- 訓練-測試拆分:為了測試模型對新資料的泛化能力,您需要將資料集拆分為兩部分:一部分用於訓練模型,另一部分用於測試模型。通常,資料科學家會使用大約 70% 到 80% 的資料進行訓練,其餘部分用於測試或驗證。大多數人使用 80:20 或 70:30 的拆分比例。
- 模型選擇:根據問題型別(分類或迴歸)和資料的性質,選擇合適的機器學習演算法,例如用於預測數字的線性迴歸或用於分類任務的決策樹。
- 訓練:然後使用訓練資料訓練所選模型。在此步驟中,模型將瞭解輸入特徵和輸出標籤之間的基本趨勢和聯絡。
- 評估:訓練完成後,使用未見過的測試資料對模型進行評估。根據任務是分類還是迴歸,您可以使用準確率、精確率、召回率、均方根誤差 (RMSE) 或 F1 分數等指標來評估其效能。
- 預測:最後,訓練好的模型將使用新的真實資料預測結果未知的輸出。如果模型表現良好,團隊可以將其用於價格預測、欺詐檢測和推薦系統等應用。
常見的監督機器學習演算法
現在讓我們來看看一些最常用的監督機器學習演算法。在這裡,我們將盡量簡化,並概述每種演算法的作用。
1. 線性迴歸
從根本上講,線性迴歸確定連續目標 (Y) 和輸入特徵 (X) 之間的最優直線關係 (Y = aX + b)。透過最小化預期值和實際值之間的平方誤差之和,線性迴歸確定最優係數 (a, b)。由於這種閉式數學解法,它線上性趨勢建模(例如根據位置或面積預測房價)方面具有計算效率。當關系大致呈線性且可解釋性很重要時,線性迴歸的簡單性就顯得尤為突出。
2. 邏輯迴歸
儘管名為邏輯迴歸,但它將線性輸出轉換為機率,以解決二元分類問題。它使用 S 型函式 (1 / (1 + e⁻ᶻ)) 將值壓縮到 0 到 1 之間,這些值表示類別的似然值(例如,“癌症風險:87%”)。在機率閾值(通常為 0.5)處,決策邊界出現。由於其基於機率,它非常適合醫學診斷,因為在醫學診斷中,理解不確定性與做出準確的預測同樣重要。
3. 決策樹
決策樹是一種用於分類和迴歸任務的簡單機器學習工具。這些使用者友好的“if-else”流程圖使用特徵閾值(例如“收入> 5萬美元?”)對資料進行分層劃分。諸如CART之類的演算法會最佳化每個節點的資訊增益(降低熵/方差),以區分類別或預測值。最終預測由終端葉節點生成。儘管決策樹存在過度擬合噪聲資料的風險,但其白盒特性有助於銀行家解釋貸款拒貸(“由於信用評分<600且負債率>40%而被拒絕”)。
4. 隨機森林
一種整合方法,利用隨機特徵樣本和資料子集構建多個去相關的決策樹。它使用多數投票法來彙總分類預測值,並使用平均值進行迴歸分析。對於信用風險建模,單棵樹可能會將噪聲誤認為模式,而隨機森林透過組合多種“弱學習器”來降低方差和過擬合,因此具有極強的魯棒性。
5. 支援向量機 (SVM)
在高維空間中,SVM 確定最佳超平面以最大程度地劃分類別。為了處理非線性邊界,它們使用核函式(例如 RBF)將資料隱式對映到更高維度。在文字/基因組資料中,由於分類僅由關鍵特徵定義,因此強調“支援向量”(關鍵邊界情況)可以提高效率。
6. K最近鄰 (KNN)
一種基於例項的惰性演算法,利用特徵空間內k個最近鄰的多數投票對點進行分類。相似度透過距離度量(歐幾里得/曼哈頓)來衡量,平滑度由k控制。該演算法無需訓練階段,並能立即適應新資料,因此非常適合用於根據相似使用者偏好進行電影推薦的推薦系統。
7. 樸素貝葉斯
這個機率分類器大膽地假設,特徵在給定類別的情況下是條件獨立的,從而應用貝葉斯定理。儘管存在這種“天真”,它還是利用頻率計數來快速計算後驗機率。由於 O(n) 複雜度和稀疏資料容忍度,數百萬封電子郵件被即時垃圾郵件過濾器掃描。
8. 梯度提升 (XGBoost, LightGBM)
一種順序整合方法,其中每個新的弱學習器(樹)都會修復其前一個學習器的錯誤。透過使用梯度下降來最佳化損失函式(例如平方誤差),它可以擬合殘差。透過新增正則化和並行處理,XGBoost 等高階實現憑藉在具有複雜互動的表格資料上實現的準確率,在 Kaggle 競賽中佔據主導地位。
實際應用
監督學習的一些應用包括:
- 醫療保健:監督學習徹底改變了診斷學。卷積神經網路 (CNN) 能夠以超過 95% 的準確率對核磁共振掃描中的腫瘤進行分類,而回歸模型則可以預測患者的壽命或藥物療效。例如,谷歌的 LYNA 比人類病理學家更快地檢測到乳腺癌轉移,從而能夠更早地進行干預。
- 金融:銀行使用分類器進行信用評分和欺詐檢測,分析交易模式以識別違規行為。迴歸模型使用歷史市場資料來預測貸款違約或股票趨勢。透過自動化文件分析,摩根大通的 COIN 平臺每年可節省 36 萬個工時。
- 零售和市場營銷:亞馬遜的推薦引擎結合使用協同過濾技術進行產品推薦,使銷售額提高了 35%。迴歸預測需求高峰以進行庫存最佳化,而分類器則使用購買歷史記錄來預測客戶流失。
- 自動駕駛系統:自動駕駛汽車依靠 YOLO(“You Only Look Once”)等即時物體分類器來識別行人和交通標誌。迴歸模型計算碰撞風險和轉向角度,從而實現動態環境中的安全導航。
關鍵挑戰與緩解措施
挑戰 1:過擬合 vs. 欠擬合
當模型記住訓練噪聲,導致在新資料上失敗時,就會發生過擬合。解決方案包括正則化(懲罰複雜性)、交叉驗證和整合方法。欠擬合源於過度簡化;修復方法包括特徵工程或高階演算法。平衡兩者可以最佳化泛化能力。
挑戰 2:資料質量與偏差
有偏差的資料會產生歧視性模型,尤其是在抽樣過程中(例如,存在性別偏見的招聘工具)。緩解措施包括合成資料生成 (SMOTE)、公平感知演算法和多樣化的資料來源。嚴格的審計和記錄侷限性的“模型卡”可以增強透明度和可問責性。
挑戰 3:“維數災難”
高維資料(10k 個特徵)需要指數級增長的樣本量來避免稀疏性。諸如 PCA(主成分分析)、LDA(線性判別分析)等降維技術能夠提取這些稀疏特徵,並在保留有用資訊的同時進行降維,使分析師能夠基於更小的樣本組做出更明智的剔除決策,從而提高效率和準確性。
小結
監督式機器學習 (SML) 彌合了原始資料與智慧操作之間的差距。透過從帶標籤的示例中學習,系統能夠做出準確的預測和明智的決策,從過濾垃圾郵件和檢測欺詐,到預測市場和輔助醫療保健。在本指南中,我們介紹了基礎工作流程、關鍵型別(分類和迴歸)以及支援實際應用的關鍵演算法。SML 持續塑造著我們日常所依賴的眾多技術的支柱,而我們往往對此渾然不知。
評論留言