Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Google将推出Ask Photos 用户能够通过自然语言搜索本机里照片和视频

by 小互
2024年5月16日
in XiaoHu.AI日报
0 0
0
Google将推出Ask Photos 用户能够通过自然语言搜索本机里照片和视频
0
SHARES
107
VIEWS
Share on FacebookShare on Twitter

Ask Photos 是 Google Photos 即将推出的实验性功能,利用 AI 模型 Gemini,使用户能够通过自然语言问题搜索照片和视频,并辅助完成相关任务。

  • Ask Photos 允许用户使用自然语言问题来搜索照片和视频。
  • 例如,用户可以询问“去年在哪里露营”或“我的代金券什么时候过期”,Ask Photos 会找到相关的照片和信息。
5月16日 (3)(1)

Ask Photos 的主要功能:

  1. 自然语言搜索:Ask Photos 允许用户使用自然语言问题来搜索照片和视频。无需记住具体的关键词或拍摄日期,用户可以直接询问:“去年我们在哪个国家露营?”或“我的孩子第一次生日是什么时候?”Ask Photos 会根据这些问题找到相关的照片。
  2. 上下文理解和细节提取:Gemini AI 模型能够理解照片的上下文和主题,提取其中的细节信息。例如,用户可以问:“我们过去几年的圣诞节装饰是什么样的?”Ask Photos 会分析照片中的背景装饰、场景和其他细节,并提供相关的结果。
  3. 任务辅助:Ask Photos 不仅帮助用户搜索照片,还能辅助完成各种任务:
    • 创建旅行亮点:用户可以让 Ask Photos 帮助创建旅行照片集锦,只需简单地询问即可得到精选照片和个性化的分享文字。
    • 撰写个性化的社交媒体分享内容:Ask Photos 可以根据照片内容生成个性化的描述,方便用户在社交媒体上分享。
  4. 多模态能力:Gemini 的多模态能力使其能够处理和理解照片中的复杂信息,包括文字、场景和人物。例如,用户可以询问:“Lena 的生日派对有哪些主题?”Ask Photos 会分析生日蛋糕、装饰和其他背景细节来回答这个问题。
  5. 动态调整和学习:Ask Photos 可以根据用户的反馈进行动态调整和学习。如果用户纠正或提供了额外的信息,Ask Photos 会记住这些细节,以便在未来的搜索和任务中提供更准确的结果。
5月16日 (3)

Ask Photos 的工作原理

Ask Photos 功能背后的工作机制可以分为三个主要步骤:理解问题、生成响应以及确保安全和记忆修正。以下是详细解释:

1. 理解问题

Ask Photos 首先会理解用户的查询,并形成一个找到答案的计划。

  • 解析查询:利用自然语言处理技术,Ask Photos 能够解析用户输入的自然语言问题,识别相关的关键词,如地点、人物和日期,以及自然语言概念,如“主题生日派对”。
  • 形成搜索计划:根据解析结果,Ask Photos 生成一个搜索计划,确定需要查找的具体信息。
2. 生成响应

理解问题后,Ask Photos 通过多步骤生成一个响应:

  • 分析搜索结果:对搜索结果进行分析,确定哪些照片和视频最相关,哪些看起来最符合用户的查询。
  • 多模态能力:利用 Gemini 的多模态能力,Ask Photos 可以理解每张照片中具体发生的情况,甚至可以读取图像中的文字(如果需要)。
  • 构建响应:根据分析结果,Ask Photos 生成一个详细且有用的响应,选择并返回最符合用户需求的照片和视频。
3. 确保安全和记忆修正

在整个过程中,Ask Photos 采取了多层次的措施,确保响应的安全性和适当性,并能记住用户的修正。

  • 安全保障:尽管 Ask Photos 是实验性功能,并不能保证所有响应都是完全正确的,Google 依然采用了多层次的安全措施和 AI 模型,确保响应是安全和合适的。
  • 记忆修正:如果用户纠正了一个答案或提供了额外的信息,Ask Photos 可以记住这些细节,以便在未来的查询中提供更准确的响应。
工作示意图
  1. 用户输入问题:
    • 用户:去年我在哪里露营?
  2. 理解问题:
    • 解析查询,识别关键词“去年”和“露营”。
    • 形成搜索计划,查找相关照片。
  3. 生成响应:
    • 分析搜索结果,选择最相关的露营照片。
    • 使用 Gemini 的多模态能力理解照片中的场景和细节。
    • 构建并返回一个详细的响应,包含最符合查询的照片和信息。
  4. 确保安全和记忆修正:
    • 采用安全措施,确保响应的适当性。
    • 记住用户的反馈和修正,以改进未来的响应准确性。

原帖:https://blog.google/products/photos/ask-photos-google-io-2024/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
615
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

JetMoE-8B:不到10万美元的训练成本 性能却超越LLaMA2-7B

JetMoE-8B:不到10万美元的训练成本 性能却超越LLaMA2-7B

104 VIEWS
2024年4月16日
微软对Azure AI语音服务升级 发布9种更真实的AI语音

微软对Azure AI语音服务升级 发布9种更真实的AI语音

5.4k VIEWS
2024年4月1日
Google发布全球185个各大企业的生成式AI实际应用落地案例

Google发布全球185个各大企业的生成式AI实际应用落地案例

1.9k VIEWS
2024年9月27日
Canva推出了一系列新功能和工具 16 项重要更新介绍

Canva推出了一系列新功能和工具 16 项重要更新介绍

322 VIEWS
2024年5月27日
Poe 推出Previews 的新功能 可在聊天窗口直接生成Web应用程序并进行互动

Poe 推出Previews 的新功能 可在聊天窗口直接生成Web应用程序并进行互动

405 VIEWS
2024年7月9日
Fish Speech:完美支持中英日语言的开源TTS模型 接近人类水平

Fish Speech:完美支持中英日语言的开源TTS模型 接近人类水平

1.5k VIEWS
2024年7月3日
E5-V:多模态大语言模型的通用嵌入 统一不同模态的“嵌入表示”

E5-V:多模态大语言模型的通用嵌入 统一不同模态的“嵌入表示”

79 VIEWS
2024年7月22日
AnchorCrafter:自动生成具有主播风格的产品宣传视频 解决了人-物交互控制

AnchorCrafter:自动生成具有主播风格的产品宣传视频 解决了人-物交互控制

602 VIEWS
2024年12月1日
Puter:一个高级的开源浏览器内桌面环境

Puter:一个高级的开源浏览器内桌面环境

41 VIEWS
2024年3月5日

苹果收购法国初创公司Datakalab 专注于AI和计算机视觉技术

42 VIEWS
2024年4月23日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版