Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Google升级Gemini 1.5 Pro和即将推出新的 Gemini 1.5 Flash 模型以及Gemma 2

by 小互
2024年5月16日
in XiaoHu.AI日报
0 0
0
Google升级Gemini 1.5 Pro和即将推出新的 Gemini 1.5 Flash 模型以及Gemma 2
0
SHARES
96
VIEWS
Share on FacebookShare on Twitter

Google 在I/O大会上发布了一系列更新,包括对 Gemini 1.5 Pro 的改进、新的 Gemini 1.5 Flash 模型、Gemma 系列的新模型以及 Gemini API 的新功能和定价选项。

Gemini 1.5 Pro 改进和 1.5 Flash 模型

Gemini 1.5 Pro

  • 质量提升:针对翻译、编程、推理等关键用例进行了质量改进,使其能够处理更广泛和复杂的任务。
  • 100 万标记上下文窗口:支持长上下文的输入,允许在单个请求中处理更多的信息。
  • 多模态支持:能够处理文本、图像、音频和视频等多种输入形式。
  • 200 万标记上下文窗口:在私人预览中提供,用户可以通过 Google AI Studio 或 Vertex AI 加入候补名单获取访问权限。

Gemini 1.5 Flash

  • 简介:Gemini 1.5 Flash是一个轻量级模型,旨在优化速度和效率。它适用于高频、大量任务,并在API中是最快的Gemini模型。
  • 特点:
    • 具备突破性的长上下文窗口(1百万个令牌),适用于多模态推理。
    • 通过“蒸馏”过程从1.5 Pro中提取最重要的知识和技能,转移到更小、更高效的模型中。
  • 应用:摘要生成、聊天应用、图像和视频字幕生成、长文档和表格的数据提取等。
  • 优化响应时间:适用于需要快速响应的高频任务。
  • 100 万标记上下文窗口:与 1.5 Pro 相同,支持长上下文的输入。
  • 多模态支持:同样支持文本、图像、音频和视频等多种输入形式。
  • 全球可用:这两个模型已经在 200 多个国家和地区提供预览,将于 6 月正式推出。

Gemini Nano

  • 多模态输入:Gemini Nano现在不仅支持文本输入,还支持图像输入。这意味着模型可以通过文字、图像、声音和口语来理解世界。
  • 平台支持:首先在Pixel设备上推出,利用设备的多模态能力提升用户体验。

以下是关于Google AI在Android上的新功能和改进的详细介绍。

Circle to Search 和作业帮助

  • 功能:Circle to Search通过简单的手势,可以帮助用户搜索手机上的任何内容,而无需切换应用。
  • 新能力:现在可以帮助学生解决作业问题,提供逐步解决物理和数学问题的指导。未来将扩展到更复杂的问题,包括符号公式、图表等。
  • 现状:Circle to Search已在超过1亿台设备上使用,计划到年底将覆盖量翻倍。

    5月16日 (3)(5)

Gemini on Android 更新

  • 功能:Gemini是一个新的AI助手,利用生成式AI帮助用户提升创造力和生产力。
  • 改进:增强了对屏幕内容和应用上下文的理解。用户可以在使用应用时直接调用Gemini,如拖放生成的图像到Gmail或Google Messages,或在YouTube视频中查找特定信息。
  • 高级功能:Gemini Advanced允许用户在PDF中快速找到答案,无需滚动多页。

Gemini Nano的全多模态能力

  • 功能:Android是第一个内置设备基础模型的移动操作系统。Gemini Nano的多模态功能即将推出,首先在Pixel设备上应用。
  • 能力:不仅能处理文本输入,还能理解图像、声音和口语等上下文信息。

TalkBack的更清晰描述

  • 更新:Gemini Nano的多模态功能将帮助视觉障碍用户获得更清晰的图像描述,无论是家庭照片还是网购的衣物细节。
  • 优势:这些描述快速且无需网络连接。

    5月16日 (3)(4)

电话诈骗检测警报

  • 功能:通过Gemini Nano在通话过程中检测常见的诈骗对话模式,实时发出警报,如银行代表要求紧急转账或提供个人信息。
  • 隐私:此功能在设备上进行处理,确保对话隐私。

新的开发者功能和定价选项

新开发者功能

  • 视频帧提取:允许从视频中提取帧,用于进一步的分析和处理。
  • 并行函数调用:支持同时返回多个函数调用结果,提高处理效率。
  • 上下文缓存:从 6 月起,开发者可以将大文件或长提示仅发送一次给模型,提高长上下文的使用效率和经济性。

定价选项

  • 免费访问:在符合条件的地区,通过 Google AI Studio 免费提供 Gemini API 访问。
  • 按需付费服务:推出新的按需付费服务,支持更高的速率限制,使得开发者可以根据需要灵活使用。
  • 详细价格情况

Gemma 系列的新增模型

PaliGemma

  • 视觉语言开放模型:优化用于图像字幕生成、视觉问答和其他图像标注任务。
  • 预训练变体:加入了 CodeGemma 和 RecurrentGemma 等预训练的 Gemma 变体,提供更多选择。

Gemma 2

  • 下一代 Gemma 模型:采用全新架构设计,提供突破性的性能和效率,27亿参数的Gemma 2在性能上可与Llama 3 70B媲美。
  • 高效运行:能够在在NVIDIA的GPU或单个TPU主机上高效运行,使更多用户能够以更低的成本部署,适用于开发者和研究人员。
  • 6 月推出:将于 6 月正式发布,满足开发者对更大且易用模型的需求。

详细:https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

DriveVLM:自动驾驶与视觉语言模型的融合 增强智能汽车场景理解和规划能力

DriveVLM:自动驾驶与视觉语言模型的融合 增强智能汽车场景理解和规划能力

174 VIEWS
2024年6月24日
阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音

阿里巴巴发布语音处理模型 FunAudioLLM 能理解和生成各种人类语音

886 VIEWS
2024年7月8日
Parler-TTS :一个完全开源的的高质量TTS模型

Parler-TTS :一个完全开源的的高质量TTS模型

1.5k VIEWS
2024年4月11日
Interactive3D:用户可以直接通过交互操作指导3D模型生成

Interactive3D:用户可以直接通过交互操作指导3D模型生成

105 VIEWS
2024年4月26日
APIGen:生成多样化且可靠的函数调用数据,通过语言指令即可执行功能性API调用

APIGen:生成多样化且可靠的函数调用数据,通过语言指令即可执行功能性API调用

309 VIEWS
2024年7月11日
面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来

面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来

343 VIEWS
2024年9月6日
Runway推出其视频生成模型的API 方便开发者集成到应用中 但是有一些特殊要求

Runway推出其视频生成模型的API 方便开发者集成到应用中 但是有一些特殊要求

199 VIEWS
2024年9月18日
苹果推出Swift开发教程 无需编码知识也能学

苹果推出Swift开发教程 无需编码知识也能学

172 VIEWS
2024年3月31日
PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像

PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像

24 VIEWS
2024年3月11日
环球音乐与 AI音乐初创公司 SoundLabs合作 将为歌手定制自己语音克隆模型

环球音乐与 AI音乐初创公司 SoundLabs合作 将为歌手定制自己语音克隆模型

182 VIEWS
2024年7月28日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版