Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Meta AI 公布了多项新的研究成果 包括4个可用的AI模型和2个额外的研究成果

by 小互
2024年6月19日
in XiaoHu.AI日报
0 0
0
Meta AI 公布了多项新的研究成果 包括4个可用的AI模型和2个额外的研究成果
0
SHARES
236
VIEWS
Share on FacebookShare on Twitter

Meta FAIR公开发布了多项新的研究成果、模型和数据集,旨在通过开放、合作和卓越的原则,推动AI领域的创新和应用。这些发布的内容包括图像到文本和文本到音乐生成模型、多令牌预测模型以及AI生成语音检测技术等。

更新内容包括4个新公开可用的AI模型和2个额外的研究成果。

1、Meta Chameleon:能同时理解和生成文本与图像的混合模态模型

  • 能够结合文本和图像输入,并输出任意组合的文本和图像。
  • 公布了Chameleon 7B和34B模型的关键组件,供研究使用。

Chameleon 是由Meta的FAIR团队开发的一系列早期融合的基于令牌的混合模态模型。它可以同时处理图像和文本,并且可以理解和生成这两种类型的数据。换句话说,它可以阅读文字和图片,也可以创作新的文字和图片。Chameleon 可以在处理过程中无缝地在不同的数据类型之间切换。这意味着它可以在生成一段文字后,接着生成一张相关的图片,或者在描述一张图片的同时生成相关的文字。

它通过把图像和文字分解成小块(令牌),然后在一个统一的系统(transformer架构)中处理这些小块,实现了在图像和文字之间的无缝转换和理解。这使得它在许多需要同时处理图像和文字的应用中表现非常出色。

An_LX71-jgAsdPRBadNxUjUGNaLoVts_pCskTay9WdjNJV8nU6Am-OoszOWP2sDcBK5BCMx_yIHuTgIXRwYqs7c

详细介绍:https://xiaohu.ai/p/8364

论文:https://arxiv.org/pdf/2405.09818

2、多令牌预测模型:

  • 提出了新的训练方法,可以同时预测多个未来词汇,提升模型能力和训练效率。
  • 发布了预训练模型供研究使用。

这是一种新的训练大型语言模型的方法,即通过预测多个未来标记来提高模型的效率和性能。这里的“标记”指的是词或者词组成分,而传统的模型通常只预测下一个标记。研究发现,让模型同时预测接下来的多个标记,可以帮助模型更好地学习和理解语言,从而在各种任务,特别是编程和自然语言处理任务上表现更好。

主要的改进点包括:

  • 更高的样本效率:模型通过预测多个标记,而不仅仅是下一个标记,可以更有效地学习数据,提高了训练的效率。
  • 推理速度快:在实际使用中,这种方法可以使模型的推理速度提高三倍,这对于需要快速响应的应用尤为重要。
  • 更好的性能:在编程和自然语言的基准测试中,这种方法训练的模型能解决更多的问题,表现出更强的性能。

简而言之,这项研究通过改变训练语言模型的方式,显著提升了模型处理大规模数据的能力和效率。

详细介绍:https://xiaohu.ai/p/7760

论文:https://arxiv.org/pdf/2404.19737

模型下载:https://huggingface.co/facebook/multi-token-prediction

3、JASCO 音乐生成模型

  • 一种新的文本到音乐生成模型,能够接受多种输入条件(如特定和弦或节拍)来改进生成音乐的控制。
  • 研究论文和示例页面已发布,推后将发布推理代码和预训练模型。

JASCO是一个可以将文本转换为音乐的生成模型。它由希伯来大学和Meta AI的研究人员共同开发,旨在通过结合符号(如和弦、旋律)和音频(如鼓音轨、混音)条件来生成高质量的音乐。

功能介绍

  1. 文本描述生成音乐:JASCO可以根据用户输入的文本描述生成对应风格的音乐。例如,输入“80年代驾驶流行歌曲,电子鼓和合成器垫在背景中”,它会生成符合这种描述的音乐。
  2. 局部和全局控制:该模型允许对音乐进行细粒度的控制,比如指定和弦、旋律或者鼓音轨。同时,它也可以根据全局的文本描述生成音乐,使得音乐的生成既有整体风格的把握,又有具体元素的精准控制。
  3. 多种条件组合:ASCO可以处理多种条件组合,比如同时控制和弦和鼓音轨,以生成更复杂、更符合用户需求的音乐。

例如:你可以告诉JASCO你想要什么样的音乐,比如“一首有电子鼓和合成器垫背景的80年代流行歌曲”。然后,JASCO会根据你的描述生成一段符合这种风格的音乐。

不仅如此,你还可以对音乐的细节进行控制,比如指定某段时间内的和弦变化或者添加特定的鼓点。这样,你不仅能得到一段符合整体描述的音乐,还能在音乐的具体细节上达到你的要求。

项目地址:https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/

4、AudioSeal:音频水印模型

  • 一种专门用于检测AI生成语音的音频水印技术,提升了检测速度和效率。
  • 发布了模型和训练代码。

AudioSeal是一种为AI生成的语音添加水印的技术。旨在确保生成的语音在经过编辑后仍能被检测到水印。它的主要特点是高鲁棒性和极快的检测速度,非常适合大规模和实时应用。

功能介绍

  1. 水印生成:AudioSeal生成器可以在音频信号中嵌入水印。这些水印不仅能标识音频来源,还能包含一个16位的秘密消息。
  2. 水印检测:AudioSeal检测器可以检测音频中的水印,并在每个样本(每1/16k秒)中输出水印存在的概率。即使音频经过多种编辑(如剪切、混音),它仍能可靠地检测到水印。
  3. 鲁棒性和速度:AudioSeal在信号质量变化不大的情况下,对多种类型的音频编辑具有高度的鲁棒性。其检测速度比现有的同类模型快两个数量级,适合大规模和实时应用。

例如:你使用AI生成了一段语音或音乐。你希望确保这段作品不会被未经授权的使用或篡改。AudioSeal可以帮助你在作品中嵌入一个看不见的“签名”(水印)。即使有人对你的作品进行编辑,AudioSeal的检测器仍能迅速识别出这个“签名”,并确认作品的来源和完整性。这不仅保护了你的版权,还能跟踪作品的传播和使用情况。

项目地址:https://github.com/facebookresearch/audioseal

5、PRISM数据集:

  • 包含来自75个国家的1500名参与者的社会人口统计数据和偏好反馈,旨在提高LLM的反馈多样性和包容性。
  • 研究报告展示了PRISM在对话多样性、偏好多样性和福利结果方面的应用。

PRISM Alignment Project 是一个研究项目,旨在通过人类反馈来改进大型语言模型(LLMs)的对齐方式。该项目通过收集来自不同国家和文化背景的参与者对LLMs的反馈,来了解这些模型在主观和多文化背景下的表现。

主要功能

  1. 广泛的地理和人口参与:PRISM 收集了来自75个国家的1500名参与者的反馈,这些参与者在8,011次对话中与21个LLMs互动。这些反馈帮助研究人员了解不同背景的人对LLMs的不同期望和偏好。
  2. 细化的个性化反馈:每个参与者的反馈都链接到详细的个人档案,这样研究人员可以探索个性化和样本特征的影响。这有助于研究个体化和文化背景如何影响对LLMs的反馈。
  3. 多样化和有争议的话题:PRISM 专注于收集关于价值观和有争议话题的对话,这些话题通常在不同人群和文化间存在较大分歧。通过这种方式,研究人员可以更好地理解和改进LLMs在处理复杂和敏感话题时的表现。
  4. 实证案例研究:项目通过三种案例研究展示了PRISM的实用性:对话多样性、偏好多样性和福利结果。这些研究表明,参与反馈的人的背景和观点对LLMs的对齐标准有显著影响。

PRISM 项目就像一个全球性的意见收集平台,收集来自世界各地的人们对AI聊天机器人的看法和反馈。通过让不同背景的人与这些AI模型对话,PRISM 可以了解到哪些模型表现得更好,以及哪些方面需要改进。

数据集组成

  • Conversations(8.01k行):记录了用户与LLMs的对话,每次对话包含多个回合的交互,详细描述了对话内容和模型提供的响应。
  • Metadata:包括对话的元数据,如对话ID、用户ID、对话类型等。
  • Survey(1.5k行):包含用户对对话的反馈和评分,用于评估模型的表现。
  • Utterances(68.4k行):具体的对话轮次,包括用户和模型的每次发言内容。

论文:https://arxiv.org/pdf/2404.16019

数据集:https://huggingface.co/datasets/HannahRoseKirk/prism-alignment

6、衡量和改善文本到图像生成系统中的地理差异

  • 开发了“DIG In”自动指标来评估文本到图像模型的地理差异。
  • 探索了提高文本到图像生成模型输出多样性的方法。

这项研究的核心目的是确保AI生成的图像能真实反映不同地区的文化和地理特征。为此,专门开发了一个名为“DIG In”的工具,可以自动评估图像生成的地理差异。进行了大规模调查,了解不同地区的人们如何看待这些图像。

  1. DIG In自动指标:
    • 开发了一种名为“DIG In”的自动指标,用于评估文本到图像模型可能存在的地理差异。这些指标帮助识别不同地理区域在图像生成质量上的差异。
  2. 大规模注释研究:
    • 为了理解不同地区的人们对地理表示的感知差异,进行了大规模的注释研究。收集了超过65,000条注释,每个示例收集了超过20条调查回应,涵盖了吸引力、相似性、一致性等方面,并为改进文本到图像模型的自动和人工评估提供了共享建议。

什么是DIG-In?

DIG-In是一个用于评估生成图像在地理区域之间质量、多样性和一致性差异的库。该库由Facebook Research开发,旨在通过使用GeoDE和DollarStreet作为参考数据集,测量文本到图像生成模型的差异。

主要功能

  1. 生成图像评估:通过一系列脚本生成与特定提示对应的图像,并对这些图像进行评估,以确定不同地理区域间的差异。
  2. 特征提取:使用InceptionV3和CLIPScore模型提取生成图像的特征,并将这些特征保存为Pickle文件。
  3. 计算指标:使用提取的特征计算一系列指标,包括精度、召回率、覆盖率和密度(PRDC),以及CLIPScore指标。这些指标用于评估图像生成模型在不同地理区域间的表现。

使用方法

  1. 生成图像:使用CSV文件中的提示生成图像,每个CSV文件对应一个文件夹,文件夹中的每张图像按照指定的命名方案保存。
  2. 提取特征:将生成的图像传入脚本中,提取图像特征并保存为Pickle文件。
  3. 计算指标:使用保存的特征文件计算指标,并生成包含精度、召回率、覆盖率和密度等指标的CSV文件。

想象你有一个AI模型,可以根据描述生成图像。你想知道这个模型在不同国家生成的图像是否有差异,DIG-In可以帮你完成这个任务。它会生成图像、提取图像特征,并计算出图像质量和一致性的指标,帮助你评估和改进模型。

论文:https://arxiv.org/pdf/2405.04457

GitHub:https://github.com/facebookresearch/DIG-In

 

Meta 官方介绍:https://ai.meta.com/blog/meta-fair-research-new-releases/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

IncarnaMind:通过AI模型与多个文档同时聊天 并能精确查询信息

IncarnaMind:通过AI模型与多个文档同时聊天 并能精确查询信息

182 VIEWS
2024年8月12日
Responder 无人机 对接911报警系统 可70秒抵达案发现场实时监控

Responder 无人机 对接911报警系统 可70秒抵达案发现场实时监控

104 VIEWS
2024年5月26日
Udio 进行重大升级 大幅提升音乐音质和控制 同时优化了中文语言支持

Udio 进行重大升级 大幅提升音乐音质和控制 同时优化了中文语言支持

221 VIEWS
2024年7月25日
浦语灵笔 IXC-2.5:能看懂视频,完整书写文章、自动生成网站的多模态模型

浦语灵笔 IXC-2.5:能看懂视频,完整书写文章、自动生成网站的多模态模型

338 VIEWS
2024年7月7日
吴恩达AI课程:AI Python 初学者课程 每节课5分钟 1小时学会AI Python编程

吴恩达AI课程:AI Python 初学者课程 每节课5分钟 1小时学会AI Python编程

2k VIEWS
2024年9月11日
Google Shopping API :抓取商品详情、评论、规格、优惠信息等

Google Shopping API :抓取商品详情、评论、规格、优惠信息等

51 VIEWS
2024年3月11日
对标NotebookLM Play AI推出了PlayDialog:可生成自然对话播客、旁白以及自然交互

对标NotebookLM Play AI推出了PlayDialog:可生成自然对话播客、旁白以及自然交互

434 VIEWS
2024年11月13日
TurboEdit:基于文本提示实现亚秒级实时图像编辑  相比传统方法实现了 6到630倍的速度提升

TurboEdit:基于文本提示实现亚秒级实时图像编辑 相比传统方法实现了 6到630倍的速度提升

113 VIEWS
2024年9月22日
全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 自然采光

全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 艺术光照

128 VIEWS
2024年4月26日
只需要4个摄像头视角和3D骨骼姿势 实现全息角色传送

只需要4个摄像头视角和3D骨骼姿势 实现全息角色传送

238 VIEWS
2024年5月7日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版