TitanML:塑造神經網路壓縮的未來

TitanML:塑造神經網路壓縮的未來

最近,像支援ChatGPT的GPT-4這樣的大型語言模型,在被要求寫詩或回答問題時,表現出令人印象深刻的人類水平。這符合縮放假說,該假說認為,如果有更多的計算能力和資料,目前的機器學習模型最終將達到類似人類的智慧。

然而,執行大型神經網路是昂貴的;例如,目前執行ChatGPT的價格約為每天10萬美元。隨著最先進的模型呈指數級增長,硬體很難跟上,企業也很難將其部署到現實世界的用例中,因為其成本很高。TitanML(以前的TyTn.ai)由詹姆斯-德波林梅里埃姆-阿里克弗格斯-巴拉特於2021年成立,它正在使用受量子物理學啟發的演算法,以不降低質量的方式壓縮大型機器學習模型。

從對執行長James Dborin和營運長Meryem Arik的採訪中瞭解更多關於神經網路壓縮的未來:

你為什麼要創辦TitanML?

詹姆斯: 在計算的邊緣工作一直是我的興趣所在。這是我學術生活中反覆出現的一條線索,問自己: “你如何才能最好地利用計算資源?在固定的預算下你能做什麼?”

從量子計算的學術背景出發,我瞭解到量子計算的關鍵挑戰之一是圍繞壓縮大型量子模擬以在小型量子計算機上執行。而這一挑戰與壓縮大型人工智慧模型相類似。很奇怪的是,兩者之間有那麼密切的關係,但這正是我們最初開始的原因。

GPT-2問世時,它所生成的文字質量還不錯,但對普通使用者來說並不令人印象深刻。然而,我對它已經如此之好感到驚訝,並相信隨著技術和訓練資料的發展,它將變得更好。然而,我知道這些越來越大的NLP模型的執行難度和成本也會越來越高,量子啟發的壓縮演算法和其他既定的壓縮方法可能是一個補救措施,這導致我們在兩年後成立了TitanML。

它是如何工作的?

詹姆斯: 知道現在的自然語言處理是如何工作的,以及深度神經網路是如何建立的,是很有意義的。首先,有這些大型的基礎模型,如BERTPyTorch影象模型,它們在更多的資料上進行訓練,涉及的計算量比任何人在其一生中都能獲得的要多。

這些基礎模型又大又慢,但它們是大多數強大人工智慧應用的起點。為了使它們可用,你需要用特定於你的用例的資料對它們進行微調。但在你這樣做的時候,它們仍然帶著很多對於那個特定用例來說不再需要的能力。同一個模型可以對電子郵件進行分類,也可以模擬天氣報告,但你不需要這個模型對所有事情都有一定的能力。你需要它在解決某個特定問題上非常出色。

這就是為什麼我們在TitanML開發了一套演算法,在微調過程中,刪除了神經網路中那些編碼你不再需要的能力的部分。因此,減少了模型的大小和操作成本,同時提高了其速度。

梅里埃姆: 作為一個比喻,想想米開朗基羅的作品。一個基礎模型就像一整塊大理石。你不會把它原封不動地放在博物館裡,但你可以通過去除所有太多部分,把它變成一件獨特的藝術品,即大衛。正如安託萬-德-聖-埃克蘇佩裡的那句名言所言: “完美的實現,不是當沒有什麼可以增加的時候,而是當沒有什麼可以拿走的時候”。這正是我們的平臺在用NLP做的事情。

詹姆斯: 最後,我們的目標是獲得儘可能好的機器學習模型,同時最好地利用資源,甚至使大型模型在商品硬體上執行。有許多不同的方法來實現這一目標,從知識提煉到修剪權重,以及受量子物理學啟發的方法,如矩陣分解。我們的平臺完美地結合了所有這些方法,以產生最佳資源效率的NLP模型。

非結構化修剪涉及將神經網路的一些權重歸零。從這個意義上說,它是不合理的有效的,你可以在不顯著降低效能的情況下調零95%的權重。然而,由於記憶體訪問仍然是瓶頸,所以很難通過這種方式使深度神經網路執行得更快。你仍然需要儲存並在以後將這些零插入描述你的神經網路的矩陣中的隨機位置,這增加了一些開銷,使你無法獲得實際的速度提升。

這就是為什麼我們還應用了從根本上改變矩陣結構的方法,將較大的矩陣分解成較小的矩陣,這在GPU上執行得更快。這樣做的一個簡單而流行的方法是奇異值分解(SVD),它可以降低矩陣等級。然而,我們從量子物理學中知道,這是一種可怕的壓縮量子狀態的方法,對於深度神經網路來說也是如此。

還有其他更合理的壓縮量子態的方法,比如矩陣乘積態和張量網路,我在博士期間就探索過這些方法。深度神經網路的層和權重是大型多維張量–與描述量子力學狀態的數學物件相同。而可以壓縮量子狀態的方法也可以壓縮大型神經網路。

這些方法一直被埋沒在學術文獻中,而我們正試圖讓它們變得容易使用,為開發者的工具箱增加一個寶貴的工具。我們的方法的關鍵是將這些方法中的一些連貫地疊加起來。

我們從文獻中發現的量子啟發演算法開始,但隨著我們旅程的繼續,我們的想法和方法隨著文獻的發展而發展。最後,我們的產品將不惜一切代價使這些模型變得更快、更好!

你是如何評估你的創業想法的?

詹姆斯: 我們偶然發現了一個我們喜歡的研究領域–高效機器學習,通過各種迭代,我們確定了一個強有力的商業案例。

我們開始與邊緣計算機視覺合作,使這些模型足夠小和高效,可以在衛星或手機等電力有限的裝置上執行。雖然我們得到了奇妙的結果,打破了各種最先進的基準,但我們意識到,市場只是還沒有出現,而且發展相當緩慢,但在幾年後,這可能是TitanML的一個好用例。

然而,我們隨後研究瞭如何才能使NLP模型高效執行。當我們與美國一家主要銀行的CTO辦公室的團隊交談時,我們發現了市場機會:他們並不關心計算機視覺或邊緣ML,而是關心自然語言處理(NLP)。NLP是今天人們投資的地方: 文字是最豐富的資料來源。大型語言模型是最大的人工智慧模型。而降低雲端計算成本是他最大的痛苦。因此,我們發現壓縮大型語言模型是一個機會。我們已經在這個市場上工作了一年多,我們在NLP領域取得了出色的成績。而在過去的一年裡,我們不斷驗證了市場需求和機會。

回顧過去,我們很明顯地看到,什麼東西是有效的還是無效的: 如果你的主張是好的,每個人都會注意到,花時間和你在一起,接觸和聯絡你。如果它不好,就沒有人會關心,我們花了一年的時間反覆尋找我們的價值主張,直到我們偶然發現了我們的NLP重點。

您對深科技的創始人有什麼建議?

梅里埃姆: 如果你不確定是否進展順利,通常是不確定的。如果你一直在改變,從改變你的想法的措辭到完全改變你的想法,直到你找到正確的文字和想法的組合,構成一個偉大的演講,也是可以的。這都是在早期階段的適應性。

這也是鼓勵你繼續前進的資訊! 嘗試新的東西,直到它發揮作用。請記住,HuggingFace一開始是一個聊天機器人,然後最終轉變成ML模型的GitHub。一旦你找到了它,你就會知道,因為你會得到來自客戶、投資者和員工的明顯更多興趣。

最後,與其他創始人交朋友吧!

誰應該聯絡TitanML?

如果你正致力於建立NLP應用程式,並想弄清楚你是否將效能留在桌子上,請與TitanML聯絡。TitanML已經推出了他們的產品,並希望從事NLP的公司能與他們討論,嘗試TitanML的解決方案。

TitanML官網:https://www.titanml.co/

延伸閱讀

評論留言