Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Reka Core:和GPT 4性能不相上下的多模态语言模型

by 小互
2024年4月17日
in XiaoHu.AI日报
0 0
0
0
SHARES
365
VIEWS
Share on FacebookShare on Twitter

Reka AI推出了其最大、最强大的多模态语言模型——Reka Core。Core能够处理文本、图像、视频和音频输入。该模型在数月内利用数千个GPU从零开始高效训练。

各种性能测试显示,在 MMMU 方面,Core 可与 GPT-4V 相媲美;在由独立第三方进行的多模态人类评估中,Core 优于 Claude-3 Opus;在视频任务方面,Core 超越了 Gemini Ultra。在语言任务方面,Core 在成熟的基准测试中可与其他前沿模型媲美。

Reka提供三种不同规模的模型——Reka Core, Flash和Edge,以满足不同的业务需求。

  • Edge:7B 轻量级/本地模型
  • Flash:21B,速度快,功能强
  • Core:最大的模型,能胜任复杂任务
    所有模型都是多模态的

模型架构

Reka 模型系列(Reka Core, Reka Flash, 和 Reka Edge)基于广泛使用的 Transformer 架构变种之一,称为 Noam 架构,该架构通过自注意力(Self-attention)机制处理序列数据。采用的是一个模块化的编码器-解码器架构,这一架构支持多模态输入,如图像、文本、视频和音频。

模型基于以下几个核心技术构建:

  • SwiGLU:一种激活函数,用于提高模型训练过程中的效率和效果。
  • 分组查询注意力(Grouped Query Attention):这是一种优化的注意力机制,可以提高处理多种输入类型时的性能。
  • 旋转位置嵌入(Rotary Positional Embeddings):增强模型对序列位置的敏感度,改善长文本和多模态数据的处理能力。
  • RMSNorm:一种归一化技术,有助于模型在训练过程中的稳定性。

此外,这些模型使用基于句子片段(sentencepiece)的词汇表,并且在训练中加入了特殊的标记(如 <extra_id_0>)以支持更复杂的任务处理。

Reka Core的主要能力

Reka Core是一个前沿的多模态语言模型,具备以下核心能力:

  1. 多模态理解:

    • Reka 模型能处理包括文本、图像、视频和音频在内的多种数据类型,使其能够在多种应用场景中发挥作用,例如自动内容生成、多媒体信息检索和高级交互系统。
    • 它是市场上少数能够全面处理多种模态输入的解决方案之一。
  2. 128K上下文窗口:

    • Reka Core 和 Reka Flash 模型具备高达 128K 的上下文窗口,使其能够处理和理解大量的输入数据,适合需要长文本理解和记忆的应用。
    • 该模型能够摄取并精确、准确地回忆大量信息,极大地扩展了处理复杂文档和数据流的能力。
  3. 推理能力:

    • Reka Core在语言和数学方面具有出色的推理能力,适合执行需要复杂分析和推理的任务。
  4. 高级推理和编码能力:

    • 模型不仅在语言理解方面表现出色,还具备进行复杂推理和编码的能力,可以支持复杂的代理工作流,自动化各种复杂的工作任务。
  5. 多语言能力:

    • 模型在预训练阶段处理了包括中文、日文、法文、韩文和西班牙文在内的 32 种语言,具备强大的跨语言处理能力。
  6. 部署灵活性:

    • Reka Core支持多种部署选项,包括通过API、现场部署或设备上部署,以满足不同客户和合作伙伴的具体需求。

性能表现

  • Reka Core 在自动化评估和盲测试的人类评价中均表现出色,其性能接近或优于业界顶尖模型,如 OpenAI 的 GPT-4V 和 Google 的 Gemini Ultra。
  • 在特定的基准测试中,如图像问答(MMMU, VQAv2)和视频问答任务,Reka Core 的表现超过了多个竞争模型。
  • Reka Edge 和 Flash 虽然参数量较少,但在它们的计算类别中常常超越更大的模型,提供了超常的价值。
  1. 多模态任务性能:

    • 图像问答:Reka Core 在图像问答基准(如 MMMU 和 VQA v2)中展现了竞争力,与当前最先进的模型(如 GPT-4V 和 Claude 3)相比具有可比性。
    • 视频问答:在 Perception-Test 基准上,Reka Flash 和 Reka Core 显著超过了同类模型如 Gemini Ultra,显示了其在理解和回答基于视频内容的问题上的优势。
    • 多模态交流:在多模态聊天的盲评中,Reka Core 在人类评估中排名靠前,显示了其在处理图像和文本结合的交互任务中的能力。
  2. 语言处理任务性能:

    • 语言基准测试:Reka Core 在广泛的语言理解和问答任务(如 MMLU, GSM8K 和 HumanEval)中与前沿模型竞争,甚至在某些指标上超过了 GPT-4。
    • 长文本处理:在长文本问答任务中,Reka Core 和 Reka Flash 处理能力强,能够有效地处理并回答基于长文档的问题,这在法律和科技领域的应用中尤为重要。
  3. 基准评估和人类评价:

    • 盲人评估:在第三方盲人评估中,Reka Core 在多模态和纯文本聊天任务中都表现出色,证明了其在自然语言理解和生成方面的能力。
    • ELO 评分系统:在使用 ELO 评分系统的比较中,Reka Core 在多模态和纯文本聊天设置中通常胜过其他模型,如 Claude 3 和 Gemini Pro。
  4. 多语言和跨语言任务:

    • 多语言性能:Reka 模型显示了在处理多种语言的能力,这得益于其训练数据的多样性和包容性,使其在全球多语言应用中具有实际的应用潜力。
  5. 特定领域的应用:

    • 医学推理:在专门的医学推理任务中,Reka Core 和 Reka Flash 显示出与领域特化模型(如 Meditron 和 Med-PaLM-2)竞争的性能,特别是在 MedMCQA 和 PubMedQA 基准上。

Reka API 定价

Reka AI 提供了一系列多模态模型的 API 接入服务,这些服务旨在支持企业和开发者轻松部署和使用 Reka 的高级模型。以下是 Reka API 的主要信息:

模型及定价:

  • Reka Core:适用于复杂任务的高级模型,定价为每百万输入令牌 $10,每百万输出令牌 $25。
  • Reka Flash:快速且成本效益高的模型,适合大多数任务,定价为每百万输入令牌 $0.8,每百万输出令牌 $2。
  • Reka Edge:轻量级模型,适用于本地或对延迟敏感的应用,定价为每百万输入令牌 $0.4,每百万输出令牌 $1。

部署选项:

  • On-Device:Reka Edge 可以高效地部署在各种设备上。
  • On-Premise:Reka 模型是少数可以安全部署并可在本地扩展的商业解决方案之一。

一些案例

这是什么动物?

这张照片是在哪里拍摄的?

哪个股票代码在投资组合中的权重最高?
根据绿色标志,最左侧的两条车道通往哪些城市?

这里有多少乐队成员?每个人在演奏什么吗?从左到右,列举出他们使用的乐器

视频演示:

关于 Reka AI

公司简介: Reka AI 是一家全球性的基础模型初创企业,总部位于加利福尼亚州的森尼维尔,采用远程优先的工作模式,团队成员遍布加利福尼亚、西雅图、伦敦、苏黎世、香港和新加坡等地。Reka AI 的使命是构建有用的多模态人工智能技术,并利用这些技术赋能各种组织和企业。

团队背景: Reka AI 的创始团队由来自 DeepMind、Google Brain 和 FAIR 的研究科学家和工程师组成。这个团队在过去十年中为 AI 领域的多项突破性成就作出了贡献。

核心团队成员:

  • Dani Yogatama:CEO & Co-Founder,前 DeepMind 员工(2016-2022),博士(2015年获得)。Dani Yogatama:CEO & Co-Founder,前 DeepMind 员工(2016-2022),博士(2015年获得)。
  • Yi Tay:首席科学家 & Co-Founder,前 Google Brain 员工(2019-2023),博士(2019年获得)。
  • Mikel Artetxe:Co-Founder,前 FAIR 员工(2020-2023),博士(2020年获得)。
  • Cyprien de Masson d’Autume:CTO & Co-Founder,前 DeepMind 员工。Cyprien de Masson d’Autume:CTO & Co-Founder,前 DeepMind 员工。
  • Qi Liu:Co-Founder,前 FAIR 和 DeepMind 员工,博士(2022年获得)。

官网:https://www.reka.ai/

介绍:https://www.reka.ai/news/reka-core-our-frontier-class-multimodal-language-model

技术报告:https://publications.reka.ai/reka-core-tech-report.pdf

在线体验:https://chat.reka.ai/chat

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
476
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
331
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
276
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
607
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

Mistral AI 发布最新一代开源模型:Mistral Large 2 1230亿参数

Mistral AI 发布最新一代开源模型:Mistral Large 2 1230亿参数

275 VIEWS
2024年7月25日
Podcastfy:将任何网页、PDF和文本内容自动生成播客音频内容

Podcastfy:将任何网页、PDF和文本内容自动生成播客音频内容

482 VIEWS
2024年10月9日
斯坦福大学人工智能研究院发布《2024 年人工智能指数报告》

斯坦福大学人工智能研究院发布《2024 年人工智能指数报告》

547 VIEWS
2024年4月16日
微软开发出数据驱动的AI天气预测模型 能准确预报未来 30 天天气情况

微软开发出数据驱动的AI天气预测模型 能准确预报未来 30 天天气情况

322 VIEWS
2024年5月5日
Screenpipe:24小时不间断记录你的屏幕和音频数据 帮你自动干活

Screenpipe:24小时不间断记录你的屏幕和音频数据 帮你自动干活

599 VIEWS
2024年9月29日
PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像

PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像

24 VIEWS
2024年3月11日
TTT:一种新型的语言模型架构 能处理更长文本 性能优于Transformer模型

TTT:一种新型的语言模型架构 能处理更长文本 性能优于Transformer模型

692 VIEWS
2024年7月10日
OpenAI 推出了 GPT-4o 微调功能,每天免费送100万Token

OpenAI 推出了 GPT-4o 微调功能,每天免费送100万Token

215 VIEWS
2024年8月21日
F5-TTS :支持多语言切换、速度控制、情感表达 具有零样本生成能力的TTS系统

F5-TTS :支持多语言切换、速度控制、情感表达 具有零样本生成能力的TTS系统

603 VIEWS
2024年10月14日
DiffusionGPT:由LLM驱动的文本到图像生成系统 集成多个专家图像生成模型

DiffusionGPT:由LLM驱动的文本到图像生成系统 集成多个专家图像生成模型

28 VIEWS
2024年3月6日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版