Google: gemini-2.0-flash-exp

模型介绍

Gemini 2.0 Flash 提供了下一代功能和改进的能力,包括卓越的速度、原生工具使用、多模态生成以及 100 万个 token 的上下文窗口。

Tokens限制:

最大输入:100k tokens

最大输出:8k tokens

能力:

支持结构化输出;支持Function calling函数调用;

官方介绍:

Gemini 2.0 Flash现在可以通过Gemini开发者API和Google AI Studio以实验性预览版的形式使用啦!这个模型引入了许多新功能,并增强了核心能力。同时,为了让开发者有更好的体验,我们还推出了全新的SDK。想了解Gemini 2.0的技术细节,欢迎查看Gemini模型。

Google Gen AI SDK(实验性)

全新的Google Gen AI SDK通过Gemini开发者API和Vertex AI上的Gemini API,提供了统一的接口。除了少数例外,在一个平台上运行的代码,可以在另一个平台上直接运行。这意味着您可以使用开发者API来原型化应用程序,然后无需重写代码,就能将应用程序迁移到Vertex AI。Gen AI SDK还支持Gemini 1.5模型。新的SDK现在可以在Python和Go中使用,Java和JavaScript也即将上线。您可以按照以下步骤开始使用SDK。

(可选)设置环境变量

您也可以使用环境变量来初始化客户端。首先,设置适当的值并导出变量:然后您可以在不传递任何参数的情况下初始化客户端。Python开发者也可以在Cookbook的“入门”笔记本中尝试。

多模态实时API

多模态实时API使得与Gemini进行低延迟的双向语音和视频交互成为可能。通过多模态实时API,您可以为最终用户提供自然、人性化的语音对话体验,并且能够在模型响应时通过语音命令进行打断。该模型可以处理文本、音频和视频输入,并能够提供文本和音频输出。多模态实时API作为Gemini API的一部分,采用BidiGenerateContent方法,并基于WebSocket构建。

关键功能:

低延迟的双向语音和视频交互
支持文本、音频和视频输入
能够输出文本和音频
限制:

目前为实验性版本,功能可能有所变动
需要在支持WebSocket的环境下运行
要了解API的功能和限制,请参见多模态实时API参考指南。您可以在Google AI Studio中尝试多模态实时API。要开始开发,您可以尝试Web控制台(使用React编写)。对于Python开发者,请尝试入门代码(笔记本和.py文件)。您或许会发现,笔记本是入门的最佳方式,但实时API在您的终端中运行效果更佳。

搜索作为工具

通过与Google搜索的结合,您可以提高模型响应的准确性和时效性。从Gemini 2.0开始,Google搜索作为工具可供使用。这意味着模型可以决定何时使用Google搜索。以下示例展示了如何将搜索配置为工具。搜索作为工具的功能还支持多轮搜索和多工具查询(例如,将Google搜索和代码执行结合使用)。

搜索作为工具使得复杂的提示和需要规划、推理和思考的工作流程成为可能。您可以通过尝试搜索工具笔记本开始。

改进的工具

Gemini 2.0引入了对功能调用和工具的改进,以更好地支持代理体验。

组合函数调用

Gemini 2.0支持一种新的函数调用能力:组合函数调用。组合函数调用使得Gemini API能够在生成响应的过程中自动调用多个用户定义的函数。例如,响应提示“获取我当前地点的温度”时,Gemini API可能会调用get_current_location()函数和get_weather()函数,该函数以位置作为参数。

组合函数调用和代码执行需要双向流式传输,并且仅由新的多模态实时API支持。以下是一个示例,展示了如何将组合函数调用、代码执行和多模态实时API结合使用。Python开发者可以在实时API工具使用笔记本中尝试此操作。

多工具使用

在Gemini 2.0中,您可以同时启用多个工具,模型将自行决定何时调用它们。以下示例展示了如何在请求中使用多模态实时API启用两个工具,Google搜索的基础与代码执行。

Python开发者可以在实时API工具使用笔记本中尝试此操作。

边界框检测

在此次实验性发布中,我们为开发者提供了一种强大的对象检测和定位工具,可以在图像和视频中准确识别和标记对象。通过边界框解锁广泛的应用,并增强项目的智能。

主要优势:

准确的对象检测和定位
支持图像和视频
易于集成到现有项目中
技术细节:

基于先进的机器学习算法
支持实时检测
可处理多种输入格式
对于Python开发者,请尝试2D空间理解笔记本或实验性的3D指向笔记本。

语音生成(早期访问/白名单)

Gemini 2.0支持一种新的多模态生成能力:文本转语音。使用文本转语音功能,您可以提示模型生成听起来像人类声音的高质量音频输出(例如“大家好”),并且您可以进一步调整输出的语调。

图像生成(早期访问/白名单)

Gemini 2.0支持输出带有内联图像的文本。这使您可以使用Gemini进行对话式图像编辑或生成多模态输出(例如,在一次传输中生成带有文本和图像的博客文章)。之前这需要串联多个模型才能实现。

图像生成作为私有实验性发布可用。它支持以下模态和能力:

输入文本,输出图像
支持图像编辑和生成
与文本生成无缝集成
限制:

目前仅限早期访问用户
功能可能有所变动
图像质量可能受限

滚动至顶部
申请收录
请填写您的推荐网站,我们将尽快收录