Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Google升级Gemini 1.5 Pro和即将推出新的 Gemini 1.5 Flash 模型以及Gemma 2

by 小互
2024年5月16日
in XiaoHu.AI日报
0 0
0
Google升级Gemini 1.5 Pro和即将推出新的 Gemini 1.5 Flash 模型以及Gemma 2
0
SHARES
96
VIEWS
Share on FacebookShare on Twitter

Google 在I/O大会上发布了一系列更新,包括对 Gemini 1.5 Pro 的改进、新的 Gemini 1.5 Flash 模型、Gemma 系列的新模型以及 Gemini API 的新功能和定价选项。

Gemini 1.5 Pro 改进和 1.5 Flash 模型

Gemini 1.5 Pro

  • 质量提升:针对翻译、编程、推理等关键用例进行了质量改进,使其能够处理更广泛和复杂的任务。
  • 100 万标记上下文窗口:支持长上下文的输入,允许在单个请求中处理更多的信息。
  • 多模态支持:能够处理文本、图像、音频和视频等多种输入形式。
  • 200 万标记上下文窗口:在私人预览中提供,用户可以通过 Google AI Studio 或 Vertex AI 加入候补名单获取访问权限。

Gemini 1.5 Flash

  • 简介:Gemini 1.5 Flash是一个轻量级模型,旨在优化速度和效率。它适用于高频、大量任务,并在API中是最快的Gemini模型。
  • 特点:
    • 具备突破性的长上下文窗口(1百万个令牌),适用于多模态推理。
    • 通过“蒸馏”过程从1.5 Pro中提取最重要的知识和技能,转移到更小、更高效的模型中。
  • 应用:摘要生成、聊天应用、图像和视频字幕生成、长文档和表格的数据提取等。
  • 优化响应时间:适用于需要快速响应的高频任务。
  • 100 万标记上下文窗口:与 1.5 Pro 相同,支持长上下文的输入。
  • 多模态支持:同样支持文本、图像、音频和视频等多种输入形式。
  • 全球可用:这两个模型已经在 200 多个国家和地区提供预览,将于 6 月正式推出。

Gemini Nano

  • 多模态输入:Gemini Nano现在不仅支持文本输入,还支持图像输入。这意味着模型可以通过文字、图像、声音和口语来理解世界。
  • 平台支持:首先在Pixel设备上推出,利用设备的多模态能力提升用户体验。

以下是关于Google AI在Android上的新功能和改进的详细介绍。

Circle to Search 和作业帮助

  • 功能:Circle to Search通过简单的手势,可以帮助用户搜索手机上的任何内容,而无需切换应用。
  • 新能力:现在可以帮助学生解决作业问题,提供逐步解决物理和数学问题的指导。未来将扩展到更复杂的问题,包括符号公式、图表等。
  • 现状:Circle to Search已在超过1亿台设备上使用,计划到年底将覆盖量翻倍。

    5月16日 (3)(5)

Gemini on Android 更新

  • 功能:Gemini是一个新的AI助手,利用生成式AI帮助用户提升创造力和生产力。
  • 改进:增强了对屏幕内容和应用上下文的理解。用户可以在使用应用时直接调用Gemini,如拖放生成的图像到Gmail或Google Messages,或在YouTube视频中查找特定信息。
  • 高级功能:Gemini Advanced允许用户在PDF中快速找到答案,无需滚动多页。

Gemini Nano的全多模态能力

  • 功能:Android是第一个内置设备基础模型的移动操作系统。Gemini Nano的多模态功能即将推出,首先在Pixel设备上应用。
  • 能力:不仅能处理文本输入,还能理解图像、声音和口语等上下文信息。

TalkBack的更清晰描述

  • 更新:Gemini Nano的多模态功能将帮助视觉障碍用户获得更清晰的图像描述,无论是家庭照片还是网购的衣物细节。
  • 优势:这些描述快速且无需网络连接。

    5月16日 (3)(4)

电话诈骗检测警报

  • 功能:通过Gemini Nano在通话过程中检测常见的诈骗对话模式,实时发出警报,如银行代表要求紧急转账或提供个人信息。
  • 隐私:此功能在设备上进行处理,确保对话隐私。

新的开发者功能和定价选项

新开发者功能

  • 视频帧提取:允许从视频中提取帧,用于进一步的分析和处理。
  • 并行函数调用:支持同时返回多个函数调用结果,提高处理效率。
  • 上下文缓存:从 6 月起,开发者可以将大文件或长提示仅发送一次给模型,提高长上下文的使用效率和经济性。

定价选项

  • 免费访问:在符合条件的地区,通过 Google AI Studio 免费提供 Gemini API 访问。
  • 按需付费服务:推出新的按需付费服务,支持更高的速率限制,使得开发者可以根据需要灵活使用。
  • 详细价格情况

Gemma 系列的新增模型

PaliGemma

  • 视觉语言开放模型:优化用于图像字幕生成、视觉问答和其他图像标注任务。
  • 预训练变体:加入了 CodeGemma 和 RecurrentGemma 等预训练的 Gemma 变体,提供更多选择。

Gemma 2

  • 下一代 Gemma 模型:采用全新架构设计,提供突破性的性能和效率,27亿参数的Gemma 2在性能上可与Llama 3 70B媲美。
  • 高效运行:能够在在NVIDIA的GPU或单个TPU主机上高效运行,使更多用户能够以更低的成本部署,适用于开发者和研究人员。
  • 6 月推出:将于 6 月正式发布,满足开发者对更大且易用模型的需求。

详细:https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
478
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
332
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
277
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
608
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

Google 发布根据视频生成音频技术:V2A 也就是给视频自动配音、配乐

Google 发布根据视频生成音频技术:V2A 也就是给视频自动配音、配乐

739 VIEWS
2024年6月18日
通过Midjourney的角色的一致性功能来制作产品海报的方法

通过Midjourney的角色的一致性功能来制作产品海报的方法

117 VIEWS
2024年3月24日
超200位知名音乐人签署公开信 呼吁阻止AI对人类创造力的攻击

超200位知名音乐人签署公开信 呼吁阻止AI对人类创造力的攻击

255 VIEWS
2024年4月3日
D-ID推出D-ID Agent功能:克隆自己的数字分身

D-ID推出D-ID Agent功能:克隆自己的数字分身

97 VIEWS
2024年3月4日
Anthropic 推出 企业版Claude   500K上下文 可以将 GitHub 仓库与 Claude 集成

Anthropic 推出 企业版Claude 500K上下文 可以将 GitHub 仓库与 Claude 集成

204 VIEWS
2024年9月5日
Follow-Your-Click:能够根据用户的点击和提示,使图像特定区域动起来

Follow-Your-Click:能够根据用户的点击和提示,使图像特定区域动起来

38 VIEWS
2024年3月14日
OpenAI CTO Mira Murati 母校访谈实录 博士级别的人工智能有望在一年半的时间内发布

OpenAI CTO Mira Murati 母校访谈实录 博士级别的人工智能有望在一年半的时间内发布

97 VIEWS
2024年6月22日
DisTrO:用你的家用电脑完成的去中心化人工智能训练

DisTrO:用你的家用电脑完成的去中心化人工智能训练

118 VIEWS
2024年9月3日
DBRX:  132B参数的 新开源大语言模型  细粒度混合专家架构

DBRX: 132B参数的 新开源大语言模型 细粒度混合专家架构

35 VIEWS
2024年3月28日
教程:使用 E2F5工具实现文本转语音和唇同步视频制作

教程:使用 E2F5工具实现文本转语音和唇同步视频制作

373 VIEWS
2024年11月7日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版