OpenAI GPT-4将于2023年3月中旬发布

OpenAI GPT-4即将发布。它是多模态的,这意味着如果谷歌不担心,那么现在就应该开始了。

OpenAI GPT-4将于2023年3月中旬发布

微软德国首席技术官安德烈亚斯-布劳恩证实,GPT-4将在2023年3月9日的一周内到来,它将是多模式的。多模态人工智能意味着它将能够在多种输入中运作,如视频、图像和声音。

多模态大型语言模型

该公告的最大收获是,GPT-4是多模态的。

模态是指(在这种情况下)一个大型语言模型所处理的输入类型。

多模态可以包括文本、语音、图像和视频。

GPT-3和GPT-3.5只在一种模式下运行,即文本。

根据德国的新闻报道,GPT-4可能至少能在四种模式下运行,即图像、声音(听觉)、文本和视频。

引述微软德国首席技术官Andreas Braun博士的话:

我们将在下周推出GPT-4,在那里我们将有多模态模型,将提供完全不同的可能性 – 例如视频……

报告缺乏对GPT-4的具体说明,因此不清楚所分享的多模态是专门针对GPT-4的还是一般的。

微软业务战略总监Holger Kenn解释了多模态,但报告不清楚他是指GPT-4多模态还是一般的多模态。

我相信他对多模态的提及是针对GPT-4的。

该新闻报道分享了:

肯恩解释了多模态人工智能的意义,它不仅可以将文字相应地翻译成图像,还可以翻译成音乐和视频。

另一个有趣的事实是,微软正在研究 “信心指标”,以便用事实来支撑他们的人工智能,使其更加可靠。

微软Kosmos-1

在美国显然没有得到充分报道的事情是,微软在2023年3月初发布了一个名为Kosmos-1的多模态语言模型。

根据德国新闻网站Heise.de的报道:

…..该团队将预先训练好的模型进行了各种测试,在图像分类、回答有关图像内容的问题、图像的自动标记、光学文本识别和语音生成任务方面取得了良好的结果。

…视觉推理,即在不使用语言作为中间步骤的情况下对图像得出结论,似乎是这里的一个关键…

Kosmos-1是一个多模态模态,它整合了文本和图像的模态。

GPT-4比Kosmos-1更进一步,因为它增加了第三种模态,即视频,而且似乎还包括了声音模态。

跨越多种语言的工作

GPT-4似乎可以在所有语言中工作。它被描述为能够接收德语的问题,并以意大利语回答。

这是个有点奇怪的例子,因为,谁会用德语问问题而想收到意大利语的答案呢?

这就是被证实的情况:

……该技术已经发展到基本上 “适用于所有语言”。你可以用德语问一个问题,得到意大利语的答案。

通过多模态,微软(-OpenAI)将’使模型变得全面'”。

我相信这一突破的重点是,该模型超越了语言,具有跨越不同语言的知识能力。因此,如果答案是意大利语,它就会知道,并且能够用提问的语言提供答案。

这将使它类似于谷歌的多模态人工智能的目标,即MUM。据说MUM能够用英语提供答案,而这些数据只存在于另一种语言中,如日语。

GPT-4应用

目前还没有宣布GPT-4将出现在哪里。但Azure-OpenAI被特别提到。

谷歌正在努力追赶微软,将一项竞争性技术整合到自己的搜索引擎中。这一发展进一步加剧了人们的看法,即谷歌在面向消费者的人工智能方面正在落后,缺乏领导力。

谷歌已经在多个产品中整合了人工智能,如谷歌镜头、谷歌地图和消费者与谷歌互动的其他领域。这种方式是将人工智能作为一种辅助技术来利用,帮助人们完成小任务。

微软实施的方式更加明显,因此,它吸引了所有的注意力,并加强了谷歌的形象,使之成为耀武扬威和奋力追赶的对象。

德国报道原文:GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany

评论留言