TitanML:塑造神经网络压缩的未来

TitanML:塑造神经网络压缩的未来

最近,像支持ChatGPT的GPT-4这样的大型语言模型,在被要求写诗或回答问题时,表现出令人印象深刻的人类水平。这符合缩放假说,该假说认为,如果有更多的计算能力和数据,目前的机器学习模型最终将达到类似人类的智能。

然而,运行大型神经网络是昂贵的;例如,目前运行ChatGPT的价格约为每天10万美元。随着最先进的模型呈指数级增长,硬件很难跟上,企业也很难将其部署到现实世界的用例中,因为其成本很高。TitanML(以前的TyTn.ai)由詹姆斯-德波林梅里埃姆-阿里克弗格斯-巴拉特于2021年成立,它正在使用受量子物理学启发的算法,以不降低质量的方式压缩大型机器学习模型。

从对首席执行官James Dborin和首席运营官Meryem Arik的采访中了解更多关于神经网络压缩的未来:

你为什么要创办TitanML?

詹姆斯: 在计算的边缘工作一直是我的兴趣所在。这是我学术生活中反复出现的一条线索,问自己: “你如何才能最好地利用计算资源?在固定的预算下你能做什么?”

从量子计算的学术背景出发,我了解到量子计算的关键挑战之一是围绕压缩大型量子模拟以在小型量子计算机上运行。而这一挑战与压缩大型人工智能模型相类似。很奇怪的是,两者之间有那么密切的关系,但这正是我们最初开始的原因。

GPT-2问世时,它所生成的文本质量还不错,但对普通用户来说并不令人印象深刻。然而,我对它已经如此之好感到惊讶,并相信随着技术和训练数据的发展,它将变得更好。然而,我知道这些越来越大的NLP模型的运行难度和成本也会越来越高,量子启发的压缩算法和其他既定的压缩方法可能是一个补救措施,这导致我们在两年后成立了TitanML。

它是如何工作的?

詹姆斯: 知道现在的自然语言处理是如何工作的,以及深度神经网络是如何建立的,是很有意义的。首先,有这些大型的基础模型,如BERTPyTorch图像模型,它们在更多的数据上进行训练,涉及的计算量比任何人在其一生中都能获得的要多。

这些基础模型又大又慢,但它们是大多数强大人工智能应用的起点。为了使它们可用,你需要用特定于你的用例的数据对它们进行微调。但在你这样做的时候,它们仍然带着很多对于那个特定用例来说不再需要的能力。同一个模型可以对电子邮件进行分类,也可以模拟天气报告,但你不需要这个模型对所有事情都有一定的能力。你需要它在解决某个特定问题上非常出色。

这就是为什么我们在TitanML开发了一套算法,在微调过程中,删除了神经网络中那些编码你不再需要的能力的部分。因此,减少了模型的大小和操作成本,同时提高了其速度。

梅里埃姆: 作为一个比喻,想想米开朗基罗的作品。一个基础模型就像一整块大理石。你不会把它原封不动地放在博物馆里,但你可以通过去除所有太多部分,把它变成一件独特的艺术品,即大卫。正如安托万-德-圣-埃克苏佩里的那句名言所言: “完美的实现,不是当没有什么可以增加的时候,而是当没有什么可以拿走的时候”。这正是我们的平台在用NLP做的事情。

詹姆斯: 最后,我们的目标是获得尽可能好的机器学习模型,同时最好地利用资源,甚至使大型模型在商品硬件上运行。有许多不同的方法来实现这一目标,从知识提炼到修剪权重,以及受量子物理学启发的方法,如矩阵分解。我们的平台完美地结合了所有这些方法,以产生最佳资源效率的NLP模型。

非结构化修剪涉及将神经网络的一些权重归零。从这个意义上说,它是不合理的有效的,你可以在不显著降低性能的情况下调零95%的权重。然而,由于内存访问仍然是瓶颈,所以很难通过这种方式使深度神经网络运行得更快。你仍然需要存储并在以后将这些零插入描述你的神经网络的矩阵中的随机位置,这增加了一些开销,使你无法获得实际的速度提升。

这就是为什么我们还应用了从根本上改变矩阵结构的方法,将较大的矩阵分解成较小的矩阵,这在GPU上运行得更快。这样做的一个简单而流行的方法是奇异值分解(SVD),它可以降低矩阵等级。然而,我们从量子物理学中知道,这是一种可怕的压缩量子状态的方法,对于深度神经网络来说也是如此。

还有其他更合理的压缩量子态的方法,比如矩阵乘积态和张量网络,我在博士期间就探索过这些方法。深度神经网络的层和权重是大型多维张量–与描述量子力学状态的数学对象相同。而可以压缩量子状态的方法也可以压缩大型神经网络。

这些方法一直被埋没在学术文献中,而我们正试图让它们变得容易使用,为开发者的工具箱增加一个宝贵的工具。我们的方法的关键是将这些方法中的一些连贯地叠加起来。

我们从文献中发现的量子启发算法开始,但随着我们旅程的继续,我们的想法和方法随着文献的发展而发展。最后,我们的产品将不惜一切代价使这些模型变得更快、更好!

你是如何评估你的创业想法的?

詹姆斯: 我们偶然发现了一个我们喜欢的研究领域–高效机器学习,通过各种迭代,我们确定了一个强有力的商业案例。

我们开始与边缘计算机视觉合作,使这些模型足够小和高效,可以在卫星或手机等电力有限的设备上运行。虽然我们得到了奇妙的结果,打破了各种最先进的基准,但我们意识到,市场只是还没有出现,而且发展相当缓慢,但在几年后,这可能是TitanML的一个好用例。

然而,我们随后研究了如何才能使NLP模型高效运行。当我们与美国一家主要银行的CTO办公室的团队交谈时,我们发现了市场机会:他们并不关心计算机视觉或边缘ML,而是关心自然语言处理(NLP)。NLP是今天人们投资的地方: 文本是最丰富的数据源。大型语言模型是最大的人工智能模型。而降低云计算成本是他最大的痛苦。因此,我们发现压缩大型语言模型是一个机会。我们已经在这个市场上工作了一年多,我们在NLP领域取得了出色的成绩。而在过去的一年里,我们不断验证了市场需求和机会。

回顾过去,我们很明显地看到,什么东西是有效的还是无效的: 如果你的主张是好的,每个人都会注意到,花时间和你在一起,接触和联系你。如果它不好,就没有人会关心,我们花了一年的时间反复寻找我们的价值主张,直到我们偶然发现了我们的NLP重点。

您对深科技的创始人有什么建议?

梅里埃姆: 如果你不确定是否进展顺利,通常是不确定的。如果你一直在改变,从改变你的想法的措辞到完全改变你的想法,直到你找到正确的文字和想法的组合,构成一个伟大的演讲,也是可以的。这都是在早期阶段的适应性。

这也是鼓励你继续前进的信息! 尝试新的东西,直到它发挥作用。请记住,HuggingFace一开始是一个聊天机器人,然后最终转变成ML模型的GitHub。一旦你找到了它,你就会知道,因为你会得到来自客户、投资者和员工的明显更多兴趣。

最后,与其他创始人交朋友吧!

谁应该联系TitanML?

如果你正致力于建立NLP应用程序,并想弄清楚你是否将性能留在桌子上,请与TitanML联系。TitanML已经推出了他们的产品,并希望从事NLP的公司能与他们讨论,尝试TitanML的解决方案。

TitanML官网:https://www.titanml.co/

延伸阅读

评论留言