傳統的單模態資料方法往往會忽略跨模態關係中的重要洞察。多模態分析將多種資料來源(例如文字、影像、音訊以及更多類似資料)整合在一起,從而提供更全面的問題檢視。這種多模態資料分析稱為多模態資料分析,它透過提供對當前問題的更全面理解,同時幫助揭示跨模態資料的複雜關係,從而提高預測準確性。
由於多模態機器學習日益普及,為了提高準確性,我們必須同時分析結構化資料和非結構化資料。本文將探討什麼是多模態資料分析以及多模態分析的重要概念和工作流程。
理解多模態資料
多模態資料是指結合了來自兩個或多個不同來源或模態的資訊的資料。這可以是文字、影像、聲音、影片、數字和感測器資料的組合。例如,社交媒體上的一篇帖子可能是文字和影像的組合,或者一份包含臨床醫生筆記、X光片和生命體徵測量資料的醫療記錄,都屬於多模態資料。
多模態資料分析需要專門的方法,能夠隱式地模擬不同型別資料之間的相互依賴關係。現代人工智慧系統的關鍵在於分析融合方法,這種方法比基於單模態的方法擁有更豐富的理解和預測能力。這對於自動駕駛、醫療診斷、推薦系統等尤為重要。
什麼是多模態資料分析?
多模態資料分析是一套用於探索和解讀資料集(包含多種表示形式)的分析方法和技術。它本質上是指使用特定的分析方法處理不同型別的資料,例如文字、影像、音訊、影片和數值資料,以發現並揭示模態之間隱藏的模式或關係。與單獨分析不同型別的資料來源相比,這種方法能夠更全面地理解資料或提供更準確的描述。
其主要難點在於設計能夠高效融合和整合多種模態資訊的技術。分析師必須處理各種型別的資料、結構、尺度和格式,以揭示資料中的含義,並識別整個業務中的模式和關係。近年來,機器學習技術(尤其是深度學習模型)的進步,徹底改變了多模態分析的能力。注意力機制和Transformer模型等方法可以學習詳細的跨模態關係。
資料預處理與表徵
為了有效地分析多模態資料,首先應將資料轉換為相容且保留關鍵資訊,同時又能跨模態進行比較的數值表徵。這一預處理步驟對於良好地融合和分析異構資料來源至關重要。
特徵提取
特徵提取是將原始資料轉換為一組有意義的特徵。這些特徵可以被機器學習和深度學習模型有效利用。其目的是從資料中提取和識別最重要的特徵或模式,從而簡化模型的任務。一些最廣泛使用的特徵提取方法包括:
- 文字:將單詞轉換為數字(即向量)。如果單詞數量較少,可以使用 TF-IDF 演算法;如果要捕捉語義關係,可以使用 BERT 或 openai 等嵌入演算法。
- 影像:可以使用預訓練的 CNN 網路(例如 ResNet 或 VGG 啟用函式)來實現。這些演算法可以捕捉從影像低階邊緣到高階語義概念的層級模式。
- 音訊:藉助頻譜圖或梅爾倒譜系數 (MFCC) 計算音訊訊號。這些變換將音訊訊號的時間域從時域轉換到頻域,有助於突出最重要的部分。
- 時間序列:使用傅立葉變換或波長變換將時間訊號轉換為頻率分量,有助於揭示序列資料中的模式、週期性和時間關係。
每種模態都有其自身的固有特性,因此需要針對特定模態的技術來應對其特定特徵。文字處理包括標記和語義嵌入,而影像分析則使用卷積來查詢視覺模式。頻域表示由音訊訊號生成,時間資訊經過數學重新解釋,以揭示軌跡模式和週期。
表徵模型
表徵模型有助於建立將多模態資訊編碼為數學結構的框架,從而實現跨模態分析並進一步深入理解資料。這可以透過以下方式實現:
- 共享嵌入:在一個表徵空間中為所有模態建立一個共同的潛在空間。藉助這種方法,我們可以在同一向量空間中直接比較和組合不同型別的資料。
- 典型分析:典型分析有助於識別跨模態相關性最高的線性投影。這種統計檢驗可以識別出各種資料型別之間最佳相關的維度,從而實現跨模態理解。
- 基於圖的方法:將每種模態表示為圖結構,並學習保持相似性的嵌入。這些方法可以表示複雜的關係模式,並允許基於網路分析多模態關係。
- 擴散圖:多視角擴散結合固有幾何結構和交叉關係,實現跨模態資料降維,在保留區域性鄰域結構的同時,實現高維多模態資料的降維。
這些模型構建了統一的結構,可以在其中比較不同型別的資料並進行有意義的組合。其目標是在不同的模態之間建立語義等價關係,使系統能夠理解狗的影像、“狗”這個詞和吠叫聲都指的是同一個事物,儘管形式不同。
融合技術
在本節中,我們將深入探討融合多模態資料的主要方法。探索早期、晚期和中期融合策略及其在不同分析場景中的最佳用例。
1. 早期融合策略
早期融合在處理開始之前,將來自不同來源和不同型別的所有資料在特徵級別組合在一起。這使得演算法能夠自然地發現不同模態之間隱藏的複雜關係。
這些演算法尤其擅長於模態間共享共同模式和關係的情況。這有助於將來自不同來源的特徵連線成組合的表示。為了正常執行,此方法需要謹慎地將資料處理成不同的資料規模和格式。
2. 後期融合方法
後期融合與早期融合正好相反,它不是將所有資料來源合併在一起,而是獨立處理所有模態,然後在模型做出決策之前將它們合併。因此,最終的預測結果來自各個模態的輸出。
當模態提供關於目標變數的附加資訊時,這些演算法效果良好。因此,我們可以利用現有的單模態模型,而無需對架構進行重大改動。這種方法在測試階段靈活地處理缺失的模態值。
3. 中期融合方法
中期融合策略根據預測任務,在不同處理層面上組合模態。這些演算法平衡了早期和後期融合演算法的優勢。因此,模型可以有效地學習單個模態和跨模態的互動作用。
這些演算法擅長適應特定的分析需求和資料特徵。它們非常擅長最佳化基於融合的指標和計算約束,這種靈活性使其非常適合解決複雜的實際應用。
端到端工作流程示例
在本節中,我們將演示一個示例 SQL 工作流程,該工作流程構建了一個多模態檢索系統,並嘗試在 BigQuery 中執行語義搜尋。因此,我們假設多模態資料僅包含文字和影像。
步驟 1:建立物件表
首先,定義一個外部“Object table:- images_obj”,用於引用雲端儲存中的非結構化檔案。這使得 BigQuery 能夠透過 ObjectRef 列將檔案視為可查詢資料。
CREATE OR REPLACE EXTERNAL TABLE dataset.images_obj WITH CONNECTION `project.region.myconn` OPTIONS ( object_metadata = 'SIMPLE', uris = ['gs://bucket/images/*'] );
這裡,表 image_obj 自動獲得一個 ref 列,將每一行連結到一個 GCS 物件。這使得 BigQuery 能夠管理結構化資料的同時,也管理影像和音訊檔案等非結構化檔案。同時保留後設資料和訪問控制。
步驟 2:結構化表中的引用
這裡,我們將結構化行與 ObjectRef 結合起來,以實現多模態整合。因此,我們透過生成屬性並生成一個 ObjectRef 結構體陣列作為 image_refs 來對物件表進行分組。
CREATE OR REPLACE TABLE dataset.products AS SELECT id, name, price, ARRAY_AGG( STRUCT(uri, version, authorizer, details) ) AS image_refs FROM images_obj GROUP BY id, name, price;
此步驟將建立一個包含結構化欄位以及連結影像引用的產品表,從而支援在一行中實現多模態嵌入。
步驟 3:生成嵌入
現在,我們將使用 BigQuery 在共享語義空間中生成文字和影像嵌入。
CREATE TABLE dataset.product_embeds AS SELECT id, ML.GENERATE_EMBEDDING( MODEL `project.region.multimodal_embedding_model`, TABLE ( SELECT name AS uri, 'text/plain' AS content_type ) ).ml_generate_embedding_result AS text_emb, ML.GENERATE_EMBEDDING( MODEL `project.region.multimodal_embedding_model`, TABLE ( SELECT image_refs[OFFSET(0)].uri AS uri, 'image/jpeg' AS content_type FROM dataset.products ) ).ml_generate_embedding_result AS img_emb FROM dataset.products;
在這裡,我們將為每個產品生成兩個嵌入。一個來自相應的產品名稱,另一個來自第一張圖片。兩者都使用相同的多模態嵌入模型,以確保兩個嵌入共享相同的嵌入空間。這有助於對齊嵌入,並實現無縫的跨模態相似性。
步驟 4:語義檢索
現在,一旦我們獲得了跨模態嵌入,使用語義相似性查詢它們將得到匹配的文字和影像查詢。
SELECT id, name FROM dataset.product_embeds WHERE VECTOR_SEARCH( ml_generate_embedding_result, (SELECT ml_generate_embedding_result FROM ML.GENERATE_EMBEDDING( MODEL `project.region.multimodal_embedding_model`, TABLE ( SELECT "eco‑friendly mug" AS uri, 'text/plain' AS content_type ) ) ), top_k => 10 ) ORDER BY COSINE_SIM(img_emb, (SELECT ml_generate_embedding_result FROM ML.GENERATE_EMBEDDING( MODEL `project.region.multimodal_embedding_model`, TABLE ( SELECT "gs://user/query.jpg" AS uri, 'image/jpeg' AS content_type ) ) ) ) DESC;
此 SQL 查詢執行兩階段搜尋。首先進行基於文字到文字的語義搜尋以篩選候選結果,然後根據產品、影像與查詢之間的影像相似度對候選結果進行排序。這有助於提升搜尋能力,讓您只需輸入短語和影像,即可檢索語義匹配的產品。
多模態資料分析的優勢
多模態資料分析透過將多種資料型別整合到統一的分析結構中,正在改變組織從各種可用資料中獲取價值的方式。這種方法的價值在於融合了不同模態的優勢,如果單獨考慮,其提供的洞察效果將不如現有的標準多模態分析方法:
更深入的洞察:多模態整合揭示了單模態分析所遺漏的複雜關係和相互作用。透過同時探索不同資料型別(文字、影像、音訊和數值資料)之間的相關性,它可以識別隱藏的模式和依賴關係,並對所探索的現象形成更深刻的理解。
效能提升:多模態模型比單模態方法具有更高的準確性。這種冗餘構建了強大的分析系統,即使一個或多個模型的資料中存在一些噪聲,例如缺失條目和不完整條目,也能生成相似且準確的結果。
更快的洞察獲取速度:SQL 融合功能提高了原型設計和分析工作流的效率和速度,因為它們支援透過快速訪問快速可用的資料來源來提供洞察。這種型別的活動為智慧自動化和使用者體驗帶來了各種新的機會。
可擴充套件性:它利用原生雲功能支援 SQL 和 Python 框架,使流程能夠最大限度地減少重現問題,同時加快部署方法。該方法明確表明,即使級別提高,分析解決方案也可以適當擴充套件。
小結
多模態資料分析展現了革命性的方法,它能夠利用多種資訊源,獲得無與倫比的洞察。企業正在採用這些方法,透過全面理解單模態方法無法捕捉的複雜關係,獲得顯著的競爭優勢。
然而,成功需要戰略投資、合適的基礎設施以及強大的治理框架。隨著自動化工具和雲平臺的不斷普及,早期採用者可以在資料驅動型經濟領域獲得持久的優勢。多模態分析正迅速成為成功處理複雜資料的關鍵。
評論留言