OpenAI GPT-4将于2023年3月中旬发布

OpenAI GPT-4即将发布。它是多模态的，这意味着如果谷歌不担心，那么现在就应该开始了。

微软德国首席技术官安德烈亚斯-布劳恩证实，GPT-4将在2023年3月9日的一周内到来，它将是多模式的。多模态人工智能意味着它将能够在多种输入中运作，如视频、图像和声音。

多模态大型语言模型

该公告的最大收获是，GPT-4是多模态的。

模态是指（在这种情况下）一个大型语言模型所处理的输入类型。

多模态可以包括文本、语音、图像和视频。

GPT-3和GPT-3.5只在一种模式下运行，即文本。

根据德国的新闻报道，GPT-4可能至少能在四种模式下运行，即图像、声音（听觉）、文本和视频。

引述微软德国首席技术官Andreas Braun博士的话：

我们将在下周推出GPT-4，在那里我们将有多模态模型，将提供完全不同的可能性 – 例如视频……

报告缺乏对GPT-4的具体说明，因此不清楚所分享的多模态是专门针对GPT-4的还是一般的。

微软业务战略总监Holger Kenn解释了多模态，但报告不清楚他是指GPT-4多模态还是一般的多模态。

我相信他对多模态的提及是针对GPT-4的。

该新闻报道分享了：

肯恩解释了多模态人工智能的意义，它不仅可以将文字相应地翻译成图像，还可以翻译成音乐和视频。

另一个有趣的事实是，微软正在研究 “信心指标”，以便用事实来支撑他们的人工智能，使其更加可靠。

微软Kosmos-1

在美国显然没有得到充分报道的事情是，微软在2023年3月初发布了一个名为Kosmos-1的多模态语言模型。

根据德国新闻网站Heise.de的报道：

…..该团队将预先训练好的模型进行了各种测试，在图像分类、回答有关图像内容的问题、图像的自动标记、光学文本识别和语音生成任务方面取得了良好的结果。

…视觉推理，即在不使用语言作为中间步骤的情况下对图像得出结论，似乎是这里的一个关键…

Kosmos-1是一个多模态模态，它整合了文本和图像的模态。

GPT-4比Kosmos-1更进一步，因为它增加了第三种模态，即视频，而且似乎还包括了声音模态。

跨越多种语言的工作

GPT-4似乎可以在所有语言中工作。它被描述为能够接收德语的问题，并以意大利语回答。

这是个有点奇怪的例子，因为，谁会用德语问问题而想收到意大利语的答案呢？

这就是被证实的情况：

……该技术已经发展到基本上 “适用于所有语言”。你可以用德语问一个问题，得到意大利语的答案。

通过多模态，微软（-OpenAI）将’使模型变得全面'”。

我相信这一突破的重点是，该模型超越了语言，具有跨越不同语言的知识能力。因此，如果答案是意大利语，它就会知道，并且能够用提问的语言提供答案。

这将使它类似于谷歌的多模态人工智能的目标，即MUM。据说MUM能够用英语提供答案，而这些数据只存在于另一种语言中，如日语。

GPT-4应用

目前还没有宣布GPT-4将出现在哪里。但Azure-OpenAI被特别提到。

谷歌正在努力追赶微软，将一项竞争性技术整合到自己的搜索引擎中。这一发展进一步加剧了人们的看法，即谷歌在面向消费者的人工智能方面正在落后，缺乏领导力。

谷歌已经在多个产品中整合了人工智能，如谷歌镜头、谷歌地图和消费者与谷歌互动的其他领域。这种方式是将人工智能作为一种辅助技术来利用，帮助人们完成小任务。

微软实施的方式更加明显，因此，它吸引了所有的注意力，并加强了谷歌的形象，使之成为耀武扬威和奋力追赶的对象。

德国报道原文：GPT-4 is coming next week – and it will be multimodal, says Microsoft Germany

OpenAI GPT-4将于2023年3月中旬发布

文章目录

多模态大型语言模型

微软Kosmos-1

跨越多种语言的工作

GPT-4应用

评论留言

取消回复

OpenAI GPT-4将于2023年3月中旬发布

文章目录

多模态大型语言模型

微软Kosmos-1

跨越多种语言的工作

GPT-4应用

相关文章

评论留言

取消回复