影象識別深入淺出指南

影象識別深入淺出指南配圖

智慧手機的興起,更便宜的相機和基於深度學習方法的影象識別的改進,為影象識別開啟了一個新的時代。汽車、遊戲和電子商務等不同領域的公司正在採用這項技術。

在選擇影象識別解決方案時,其準確性是最重要的因素,然而持續學習、速度和靈活性也可以是重要的標準,這取決於應用。像亞馬遜和谷歌這樣的科技巨頭以及像Clarifai這樣的初創公司正在提供影象識別服務。

什麼是影象識別?

通過使用影象識別技術,可以區分圖片中的一個或多個特定物件。

影象識別是一套演算法和技術,對影象中的元素進行標記和分類。影象識別主要關注影象中的內容。影象識別模型經過訓練,可以接受一個輸入影象,並輸出先前分類的標籤,以定義影象。影象識別技術是對動物檢測和分類物體的技術的一種模仿。

影象識別與計算機/機器視覺有何不同?

儘管影象識別和計算機/機器視覺似乎是相互關聯的術語,但影象識別是計算機視覺的一個子集。

影象識別是一種識別影象內容的技術。

計算機視覺涉及根據應用領域獲得、描述和產生結果。影象識別可以被看作是計算機視覺軟體的一個組成部分。計算機視覺有更多的能力,如事件檢測、學習、影象重建和物體跟蹤。

機器視覺是同時涉及硬體和計算機視覺軟體的視覺系統。因此,計算機視覺和影象識別可以被看作是機器視覺軟體的組成部分。

影象識別是如何工作的?

模型訓練對於影象識別模型的工作是必要的。深度學習方法是目前訓練影象識別模型的最佳表現工具。

為了讓一個影象識別模型工作,首先必須有一個資料集。考慮到一個新生嬰兒,為了讓嬰兒識別他周圍的物體,這些物體必須首先由他的父母介紹。這個過程對機器來說是類似的,有一個資料集,使用深度學習技術,模型必須經過訓練才能執行。

一張圖片對計算機來說就是一堆畫素。為了從這些資料中得出有意義的結果,有必要從影象中提取某些特徵。這個過程被稱為特徵提取。特徵提取允許特定的模式被特定的向量所代表。深度學習方法也被用來確定這些向量的邊界範圍。在這一點上,資料集被用來訓練模型,最後,模型預測某些物件,並將新輸入的影象標記為某個類別。

 

影象識別是如何工作的?

為什麼影象識別軟體現在是相關的?

影象識別允許從影象中提取有意義的資料,因此有許多應用。然而,影象識別的準確性最近才有所提高,使影象識別在過去的~10年中具有相關性。這些因素促成了影象識別的使用增加:

  • 深度學習的有效性增加: 我們詳細解釋了深度學習在過去十年中如何變得更加強大。
  • 相機尺寸和成本的降低,加上智慧手機普及率的提高和基於影象的社交媒體: 由於智慧手機技術和照片分享的社交媒體平臺,影象正在激增。

影象識別市場

影象識別應用場景有哪些?

汽車行業

自動駕駛汽車背後的技術高度依賴於影象識別。多個攝像機和鐳射雷達創造了影象,影象識別軟體幫助計算機檢測交通燈、車輛或其他物體。

安全行業

檢測和識別人臉的能力是影象識別技術提供的一個有用選項。家庭安全系統正變得比以前更智慧、更強大。

醫療衛生

檢測腫瘤或腦卒中以及幫助視力受損的人是影象識別在醫療保健領域的一些使用案例。一項研究表明,使用影象識別,演算法檢測肺癌的準確率為97%。

零售業

得益於影象識別技術,Topshop和Timberland使用虛擬映象技術,幫助顧客在不穿衣服的情況下看到衣服的樣子。

視覺搜尋和電子商務

視覺搜尋市場預計到2023年將超過148億美元。主要原因是視覺搜尋與網上購物相結合,顧客的習慣正在以這種方式改變。

市場營銷

社交網路和其他媒體中的影象資料可以被分析以瞭解客戶的喜好。例如,這些資料可用於定製營銷。Gartner的一項調查表明,影象識別技術可以通過收集客戶資訊和檢測產品放置的趨勢來提高銷售效率。

影象識別與市場營銷

在選擇影象識別解決方案時,需要注意哪些事項?

一個影象識別解決方案最重要的標準是它的準確性,即它對影象的識別程度。在大多數應用中,像速度和靈活性這樣的標準是後來的。

我們詳細解釋了公司應該如何評估機器學習解決方案。一旦公司有了標記的資料作為測試資料集,他們就可以像我們解釋的那樣比較不同的解決方案。在大多數情況下,使用公司自己的資料進行訓練的解決方案要優於現成的預訓練解決方案。然而,如果預訓練的解決方案可以達到所需的準確度,公司可以選擇不承擔建立自定義模型的費用。

使用者也不應該急於在一次測試的基礎上進行歸納。一個在人臉識別方面表現良好的供應商可能並不是車輛識別解決方案的合適供應商,因為影象識別解決方案的有效性取決於具體的應用。

其他標準包括:

  • 持續學習: 每個人工智慧供應商都吹噓自己能持續學習,但很少有人能做到這一點。理想的解決方案應該是從其錯誤的預測中學習(機器學習術語中的推論)。
  • 速度:解決方案必須對必要的應用有足夠的速度。雖然一個面向客戶的解決方案可能需要在幾毫秒內做出反應,但一個內部使用的解決方案可以在幾小時甚至幾天內完成。
  • 對未來需求的適應性: 預見未來的限制是很重要的,解決方案對未來需求的適應性也很重要。
  • 設定和整合的簡單性: 該解決方案應該易於設定和使用。由於大多數解決方案將是API終端,它們往往易於設定。

有哪些影象識別軟體供應商?

建立一個資料集和一個神經網路模型並從頭開始訓練並不是利用影象識別技術的最有效方法。科技巨頭和一些創業公司提供API,允許任何人整合他們的影象識別軟體。還有一些開放原始碼的API,可以用來建立或改進你的影象識別系統。

還有一些特定行業的供應商。例如,Visenze為視覺搜尋、產品標籤和推薦提供解決方案。

  • Amazon Rekognition
  • Clarifai
  • Google Cloud Vision API
  • IBM Watson Visual Recognition
  •  Microsoft:Azure Face API,Emotion API,Computer Vision API和Video API
  • OpenCV
  • SimpleCV
  • Scikit-image

評論留言