谷歌发布Gemini 2.0系列大模型,Gemini 2.0 Pro在Chatbot Arena排名第一

admin

在DeepSeek的强烈进攻下,这次轮到Google静止不动了。

周三,该公司完全发布了Gemini 2.0 Flash,Gemini 2.0 Flash-Lite和下一代旗舰型Gemini 2.0 Pro的实验版本,并在Gemini App中启动了推理模型Gemini 2.0 Flash Thinker。

googleplay刷榜__谷歌刷入包

下图显示了多场任务中三个模型的性能指标,例如通用,代码,推理,事实,多语言,数学,长上下文,图像,音频和视频。

谷歌刷入包_googleplay刷榜_

在大型模型排名中,Gemini 2.0-Pro在聊天机器人体育馆的所有类别中排名第一。 Pro版本在复杂的任务(例如代码)中非常出色,Gemini高级用户现在可以在应用程序上尝试。

_谷歌刷入包_googleplay刷榜

同时,Gemini-2.0-Flash并列第三,开发人员通过Google AI Studio和Vertex AI(价格为0.1美元/m代币)广泛使用,而Flash-Lite也以较低的成本进入了前十名。 。 Google还在Gemini应用程序中启动了其“推理”模型,Gemini 2.0 Flash Thinky。

Gemini 2.0的新版本可以做很多以前从未做过的事情。 Google首席科学家Jeff Dean说,Gemini 2.0 Pro模型可以编写完整的代码,包括所有正确的数据结构和搜索算法,您可以一次尝试获得正确的数据结构。

谷歌刷入包_googleplay刷榜_

_googleplay刷榜_谷歌刷入包

第三方试验的更多结果也在社交网络上接一个地出现。可以看出,Gemini 2.0的性能得到了显着改进,并且可以生成代码以实现模拟物理定律的某些效果。

提示:创建一个自主动作的裸声蛇游戏,其中100条蛇相互竞争。 (一次尝试)

_googleplay刷榜_谷歌刷入包

提示词:写一个脚本,显示一个在旋转六角形内弹跳的球。球应受重力和摩擦的影响,必须从旋转的墙壁上实际反弹,并在p5.js中实施。 (一次尝试)

_谷歌刷入包_googleplay刷榜

提示:编写一个P5.js脚本,该脚本在圆柱容器的真空空间中模拟25个粒子,该尺寸在容器边界内弹跳。为每个球使用不同的颜色,并确保它们留下轨迹显示运动。添加容器的缓慢旋转,以更好地查看场景中发生的事情。确保创建适当的碰撞检测和物理规则,以确保粒子保留在容器中。添加外部球容器。在整个场景中添加慢速放大效果。

谷歌刷入包__googleplay刷榜

所有迹象都表明,进入2025年后,全球大型模型领域的竞争强度已达到新的水平。在Google正式发布Gemini 2系列的同时,OpenAI立即做出回应,向所有自由用户宣布其AI搜索功能。

_谷歌刷入包_googleplay刷榜

googleplay刷榜__谷歌刷入包

值得注意的是,一些媒体报道说,随着Google发布一种新模式,技术界的重点仍在DeepSeek上。 DeepSeek的模型可与美国技术公司提供的绩效相媲美甚至超过美国技术公司提供的领先的AI模型。同时,企业可以通过DeepSeek的API以相对较低的价格使用其模型。

Google和DeepSeek去年12月都发布了AI推理模型,但DeepSeek的R1模型引起了更多关注。现在,Google可能正在尝试使用其流行的Gemini应用程序将更多的人带入其Gemini 2.0 Flash Thinky模型。

至于Gemini 2.0 Pro,Google的Gemini 1.5 Pro模型于去年2月推出,Google说这是Gemini AI模型家族的领先模型。

在价格方面,Google将继续使用Gemini 2.0 Flash和2.0 Flash-Lite降低成本。两者都采用单个输入类型的定价模型,消除了Gemini 1.5 Flash中短上下文请求之间的区别。这意味着,虽然2.0 Flash和Flash-Lite的性能提高了,但在混合上下文工作负载下,两者的成本可能低于Gemini 1.5闪存。

googleplay刷榜_谷歌刷入包_

Google Gemini 2.0三个主要型号:综合增强

Gemini 2.0 Pro实验版本

首先是新一代旗舰Gemini 2.0 Pro的实验版本,该版本是Google迄今为止用于编码和复杂指令任务的最佳模型。

在Gemini 2.0的早期实验版本(例如Gemini-Exp-1206)中,开发人员发现了这些模型的优点和最佳用例,例如编码,复杂的说明。

googleplay刷榜_谷歌刷入包_

这次,Gemini 2.0 Pro的实验版本进一步增强了这些功能,具有最强大的编码性能和处理复杂说明的能力,并且比Google先前发布的任何模型具有更好理解和推理世界知识的能力。

据报道,该模型支持Google最长的200万代币上下文窗口,该窗口可以处理2个小时的视频,22小时的音频,60,000多行的代码和140万+单词,从而可以进行全面的分析和了解大量信息。同时,该模型还支持诸如Google搜索和代码执行之类的呼叫工具。

目前,Gemini 2.0 Pro可作为Google AI Studio和Vertex AI开发人员的实验模型,并且Gemini高级用户还可以在台式机和移动设备上体验它。

谷歌刷入包_googleplay刷榜_

双子座2.0闪光灯

接下来,让我们看一下Gemini 2.0 Flash,这是Google Flash系列模型的最新“成​​员”。

Gemini 2.0 Flash(实验版)在2024年的Google I/O会议上首次亮相,此后受到开发人员的喜爱。它最适合大规模处理高容量,高频任务,并且可以通过100万个代币上下文窗口进行大规模信息的多模式推理。

目前,Gemini 2.0 Flash已向Google AI产品中的更多人完全开放。据报道,该模型提供了包括本机工具在内的全面功能。目前支持文本输出,图像生成和文本到语音功能将很快启动,并且在接下来的几个月中也将提供多模式的实时API。

当前,用户可以在Gemini应用程序中尝试该模型,也可以在Google AI Studio和Vertex AI中使用Gemini API。

谷歌刷入包_googleplay刷榜_

双子座2.0闪光灯

googleplay刷榜_谷歌刷入包_

最后,有Gemini 2.0 Flash-Lite,这是Google到目前为止最具成本效益的模型。对于大规模文本输出用例,此模型的成本优化。

_googleplay刷榜_谷歌刷入包

谷歌表示,他们收到了双子双子座1.5 Flash的价格和速度的积极反馈,并希望在保持其成本和速度优势的同时,继续提高模型的质量。因此,Gemini 2.0 Flash-Lite的性能更强大,大多数基准测试中的闪光灯都比1.5闪存,并且速度和成本相当。

此外,像2.0 Flash一样,Gemini 2.0 Flash-Lite支持100万个令牌上下文窗口和多模式输入。例如,该模型可以以大约40,000个不同的照片生成相关的单线字幕(或标题),在Google AI Studio付费的软件包上花费少于$ 1。

当前,Gemini 2.0 Flash-Lite在Google AI Studio和Vertex AI的公共预览中可用。

下图是三个模型的某些参数的摘要。可以看出,图像和音频功能将很快启动。

_googleplay刷榜_谷歌刷入包

更改游戏?

_googleplay刷榜_谷歌刷入包

Gemini 2.0完全打开后,在机器学习社区中对其领先能力进行了热烈讨论。一些评论员认为,在这一代模型推出之后,在OCR等领域中的游戏规则已更改。

googleplay刷榜__谷歌刷入包

在处理真实文档时,Gemin 2.0已经可以达到极高的精度和低成本,并且实际测量很少会导致特定值误读。除桌子解析外,双子座始终可以在PDF的所有其他方面提供几乎完美的精度,以降低转换。所有功能都是合并的,您将获得一个非常简单,可扩展和廉价的索引过程。

googleplay刷榜_谷歌刷入包_

我们一直在等待的大型技术革命在许多领域都出现了。

参考链接: