XiaoHu.AI学院

No Result

View All Result

Login

XiaoHu.AI学院

No Result

View All Result

Home XiaoHu.AI日报

Google升级Gemini 1.5 Pro和即将推出新的 Gemini 1.5 Flash 模型以及Gemma 2

by 小互

2024年5月16日

in XiaoHu.AI日报

Google升级Gemini 1.5 Pro和即将推出新的 Gemini 1.5 Flash 模型以及Gemma 2

0

SHARES

96

VIEWS

Share on Facebook Share on Twitter

Google 在I/O大会上发布了一系列更新，包括对 Gemini 1.5 Pro 的改进、新的 Gemini 1.5 Flash 模型、Gemma 系列的新模型以及 Gemini API 的新功能和定价选项。

Gemini 1.5 Pro 改进和 1.5 Flash 模型

Gemini 1.5 Pro

质量提升：针对翻译、编程、推理等关键用例进行了质量改进，使其能够处理更广泛和复杂的任务。
100 万标记上下文窗口：支持长上下文的输入，允许在单个请求中处理更多的信息。
多模态支持：能够处理文本、图像、音频和视频等多种输入形式。
200 万标记上下文窗口：在私人预览中提供，用户可以通过 Google AI Studio 或 Vertex AI 加入候补名单获取访问权限。

Gemini 1.5 Flash

简介：Gemini 1.5 Flash是一个轻量级模型，旨在优化速度和效率。它适用于高频、大量任务，并在API中是最快的Gemini模型。
特点：
- 具备突破性的长上下文窗口（1百万个令牌），适用于多模态推理。
- 通过“蒸馏”过程从1.5 Pro中提取最重要的知识和技能，转移到更小、更高效的模型中。
应用：摘要生成、聊天应用、图像和视频字幕生成、长文档和表格的数据提取等。

优化响应时间：适用于需要快速响应的高频任务。
100 万标记上下文窗口：与 1.5 Pro 相同，支持长上下文的输入。
多模态支持：同样支持文本、图像、音频和视频等多种输入形式。
全球可用：这两个模型已经在 200 多个国家和地区提供预览，将于 6 月正式推出。

Gemini Nano

多模态输入：Gemini Nano现在不仅支持文本输入，还支持图像输入。这意味着模型可以通过文字、图像、声音和口语来理解世界。
平台支持：首先在Pixel设备上推出，利用设备的多模态能力提升用户体验。

以下是关于Google AI在Android上的新功能和改进的详细介绍。

Circle to Search 和作业帮助

功能：Circle to Search通过简单的手势，可以帮助用户搜索手机上的任何内容，而无需切换应用。
新能力：现在可以帮助学生解决作业问题，提供逐步解决物理和数学问题的指导。未来将扩展到更复杂的问题，包括符号公式、图表等。
现状：Circle to Search已在超过1亿台设备上使用，计划到年底将覆盖量翻倍。

Gemini on Android 更新

功能：Gemini是一个新的AI助手，利用生成式AI帮助用户提升创造力和生产力。
改进：增强了对屏幕内容和应用上下文的理解。用户可以在使用应用时直接调用Gemini，如拖放生成的图像到Gmail或Google Messages，或在YouTube视频中查找特定信息。
高级功能：Gemini Advanced允许用户在PDF中快速找到答案，无需滚动多页。

Gemini Nano的全多模态能力

功能：Android是第一个内置设备基础模型的移动操作系统。Gemini Nano的多模态功能即将推出，首先在Pixel设备上应用。
能力：不仅能处理文本输入，还能理解图像、声音和口语等上下文信息。

TalkBack的更清晰描述

更新：Gemini Nano的多模态功能将帮助视觉障碍用户获得更清晰的图像描述，无论是家庭照片还是网购的衣物细节。
优势：这些描述快速且无需网络连接。

电话诈骗检测警报

功能：通过Gemini Nano在通话过程中检测常见的诈骗对话模式，实时发出警报，如银行代表要求紧急转账或提供个人信息。
隐私：此功能在设备上进行处理，确保对话隐私。

新的开发者功能和定价选项

新开发者功能

视频帧提取：允许从视频中提取帧，用于进一步的分析和处理。
并行函数调用：支持同时返回多个函数调用结果，提高处理效率。
上下文缓存：从 6 月起，开发者可以将大文件或长提示仅发送一次给模型，提高长上下文的使用效率和经济性。

定价选项

免费访问：在符合条件的地区，通过 Google AI Studio 免费提供 Gemini API 访问。
按需付费服务：推出新的按需付费服务，支持更高的速率限制，使得开发者可以根据需要灵活使用。
详细价格情况

Gemma 系列的新增模型

视觉语言开放模型：优化用于图像字幕生成、视觉问答和其他图像标注任务。
预训练变体：加入了 CodeGemma 和 RecurrentGemma 等预训练的 Gemma 变体，提供更多选择。

Gemma 2

下一代 Gemma 模型：采用全新架构设计，提供突破性的性能和效率，27亿参数的Gemma 2在性能上可与Llama 3 70B媲美。
高效运行：能够在在NVIDIA的GPU或单个TPU主机上高效运行，使更多用户能够以更低的成本部署，适用于开发者和研究人员。
6 月推出：将于 6 月正式发布，满足开发者对更大且易用模型的需求。

详细：https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

AI 工具

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

AI 论文

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

2024年12月23日

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

AI 项目

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

2024年12月22日

No Result

View All Result

Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?

Unlock left : 0

Are you sure want to cancel subscription?