Google: gemini-2.0-flash-exp

发布日期：12/12/2024

模型代号：gemini-2.0-flash-exp

提供方： Google

模型价格：￥12/1M input - ￥48/1M output tokens

来源分类：官转

模型介绍

Gemini 2.0 Flash 提供了下一代功能和改进的能力，包括卓越的速度、原生工具使用、多模态生成以及 100 万个 token 的上下文窗口。

Tokens限制：

最大输入：100k tokens

最大输出：8k tokens

能力：

支持结构化输出；支持Function calling函数调用；

官方介绍：

Gemini 2.0 Flash现在可以通过Gemini开发者API和Google AI Studio以实验性预览版的形式使用啦！这个模型引入了许多新功能，并增强了核心能力。同时，为了让开发者有更好的体验，我们还推出了全新的SDK。想了解Gemini 2.0的技术细节，欢迎查看Gemini模型。

Google Gen AI SDK（实验性）

全新的Google Gen AI SDK通过Gemini开发者API和Vertex AI上的Gemini API，提供了统一的接口。除了少数例外，在一个平台上运行的代码，可以在另一个平台上直接运行。这意味着您可以使用开发者API来原型化应用程序，然后无需重写代码，就能将应用程序迁移到Vertex AI。Gen AI SDK还支持Gemini 1.5模型。新的SDK现在可以在Python和Go中使用，Java和JavaScript也即将上线。您可以按照以下步骤开始使用SDK。

（可选）设置环境变量

您也可以使用环境变量来初始化客户端。首先，设置适当的值并导出变量：然后您可以在不传递任何参数的情况下初始化客户端。Python开发者也可以在Cookbook的“入门”笔记本中尝试。

多模态实时API

多模态实时API使得与Gemini进行低延迟的双向语音和视频交互成为可能。通过多模态实时API，您可以为最终用户提供自然、人性化的语音对话体验，并且能够在模型响应时通过语音命令进行打断。该模型可以处理文本、音频和视频输入，并能够提供文本和音频输出。多模态实时API作为Gemini API的一部分，采用BidiGenerateContent方法，并基于WebSocket构建。

关键功能：

低延迟的双向语音和视频交互
支持文本、音频和视频输入
能够输出文本和音频
限制：

目前为实验性版本，功能可能有所变动
需要在支持WebSocket的环境下运行
要了解API的功能和限制，请参见多模态实时API参考指南。您可以在Google AI Studio中尝试多模态实时API。要开始开发，您可以尝试Web控制台（使用React编写）。对于Python开发者，请尝试入门代码（笔记本和.py文件）。您或许会发现，笔记本是入门的最佳方式，但实时API在您的终端中运行效果更佳。

搜索作为工具

通过与Google搜索的结合，您可以提高模型响应的准确性和时效性。从Gemini 2.0开始，Google搜索作为工具可供使用。这意味着模型可以决定何时使用Google搜索。以下示例展示了如何将搜索配置为工具。搜索作为工具的功能还支持多轮搜索和多工具查询（例如，将Google搜索和代码执行结合使用）。

搜索作为工具使得复杂的提示和需要规划、推理和思考的工作流程成为可能。您可以通过尝试搜索工具笔记本开始。

改进的工具

Gemini 2.0引入了对功能调用和工具的改进，以更好地支持代理体验。

组合函数调用

Gemini 2.0支持一种新的函数调用能力：组合函数调用。组合函数调用使得Gemini API能够在生成响应的过程中自动调用多个用户定义的函数。例如，响应提示“获取我当前地点的温度”时，Gemini API可能会调用get_current_location()函数和get_weather()函数，该函数以位置作为参数。

组合函数调用和代码执行需要双向流式传输，并且仅由新的多模态实时API支持。以下是一个示例，展示了如何将组合函数调用、代码执行和多模态实时API结合使用。Python开发者可以在实时API工具使用笔记本中尝试此操作。

多工具使用

在Gemini 2.0中，您可以同时启用多个工具，模型将自行决定何时调用它们。以下示例展示了如何在请求中使用多模态实时API启用两个工具，Google搜索的基础与代码执行。

Python开发者可以在实时API工具使用笔记本中尝试此操作。

边界框检测

在此次实验性发布中，我们为开发者提供了一种强大的对象检测和定位工具，可以在图像和视频中准确识别和标记对象。通过边界框解锁广泛的应用，并增强项目的智能。

主要优势：

准确的对象检测和定位
支持图像和视频
易于集成到现有项目中
技术细节：

基于先进的机器学习算法
支持实时检测
可处理多种输入格式
对于Python开发者，请尝试2D空间理解笔记本或实验性的3D指向笔记本。

语音生成（早期访问/白名单）

Gemini 2.0支持一种新的多模态生成能力：文本转语音。使用文本转语音功能，您可以提示模型生成听起来像人类声音的高质量音频输出（例如“大家好”），并且您可以进一步调整输出的语调。

图像生成（早期访问/白名单）

Gemini 2.0支持输出带有内联图像的文本。这使您可以使用Gemini进行对话式图像编辑或生成多模态输出（例如，在一次传输中生成带有文本和图像的博客文章）。之前这需要串联多个模型才能实现。

图像生成作为私有实验性发布可用。它支持以下模态和能力：

输入文本，输出图像
支持图像编辑和生成
与文本生成无缝集成
限制：

目前仅限早期访问用户
功能可能有所变动
图像质量可能受限

Google: gemini-2.0-flash-exp

模型介绍

聚合AI

常用工具

推荐模型

AI应用