Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

OLMo:真正的完全开源大模型

by 小互
2024年3月2日
in AI 项目
0 0
0
OLMo:真正的完全开源大模型
0
SHARES
77
VIEWS
Share on FacebookShare on Twitter
OLMo(Open Language Model)与其他开源语言模型的不同之处在于其“完全开放的框架”。
 
OLMo不仅100%开放了其完整的预训练数据——3万亿token的Dolma数据集
 
还提供了其训练代码、模型权重、推理代码、训练指标和完整日志等全部原始数据。
 
真正做到完全开源,100%开源!
 
这种程度的开放使研究人员能够完全复现模型训练过程,理解模型的性能表现,以及根据需要对模型进行微调。
OLMo(Open Language Model)是由AI2(Allen Institute for AI)推出的一系列开放语言模型,旨在推进语言模型的科学研究。

OLMo框架包括:

  • 完整的预训练数据:OLMo项目提供了完整的预训练数据——AI2的Dolma数据集,这是一个包含三万亿token的开放语料库,用于语言模型的预训练。这意味着研究人员不仅可以访问模型本身,还能够获得用于训练这些模型的原始数据,从而允许他们深入理解模型的学习基础,甚至重新训练或调整模型以适应特定的研究需求。
  • 训练代码和模型权重:OLMo框架提供了四种不同变体模型的完整模型权重,每种模型都至少训练到2万亿令牌。除了数据,OLMo还提供了训练代码、模型权重、推理代码、训练指标和日志。这种程度的开放性使研究人员能够完全复现模型训练过程,理解模型的性能表现,以及根据需要对模型进行微调。
  • 评估工具的提供:项目包含了开发过程中使用的评估套件,以及500多个模型的检查点,每1000步训练过程中的每一个都有,还有评估代码,这些都属于Catwalk项目的一部分。这使得研究人员可以使用相同的工具来评估自己的模型或对OLMo模型进行进一步的分析。

模型参数和架构

OLMo提供了不同规模的模型变体,具体包括:

  • 1B(10亿参数)模型:具有16层,每层2048个隐藏单元,16个注意力头,训练了至少2万亿个令牌。
  • 7B(70亿参数)模型:包含32层,每层有4086个隐藏单元,32个注意力头,训练了约2.46万亿个令牌。
  • 65B(650亿参数)模型:(文章撰写时仍在训练中),计划包含80层,每层8192个隐藏单元,64个注意力头。

这些模型采用了基于Vaswani等(2017年)的解码器仅Transformer架构,并进行了多项改进,例如:

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

BlenderAlchemy:集成GPT-4V 通过聊天形式来进行3D图形编辑

BlenderAlchemy:集成GPT-4V 通过聊天形式来进行3D图形编辑

81 VIEWS
2024年4月30日
Diffree:通过文本描述能自动在图像中找到合适的位置并添加对象

Diffree:通过文本描述能自动在图像中找到合适的位置并添加对象

154 VIEWS
2024年7月28日

Prompt 学习地图 28 | 理论&实践 – 让模型自己评价提示词的设计缺陷,提出优化方案

801 VIEWS
2024年5月20日
ViPer:为Stable Diffusion 提供个性化图像生成方法 记住你的艺术喜好

ViPer:为Stable Diffusion 提供个性化图像生成方法 记住你的艺术喜好

172 VIEWS
2024年7月29日
分析了1400万篇论文发现 2024年发布的研究论文中 至少有10%使用了ChatGPT

分析了1400万篇论文发现 2024年发布的研究论文中 至少有10%使用了ChatGPT

256 VIEWS
2024年6月24日
阿里巴巴发布语音模型:Qwen2-Audio 可与模型直接语音对话和分析转录各种声音

阿里巴巴发布语音模型:Qwen2-Audio 可与模型直接语音对话和分析转录各种声音

590 VIEWS
2024年8月10日
福布斯人工智能 50 强榜单发布 附完整榜单

福布斯人工智能 50 强榜单发布 附完整榜单

272 VIEWS
2024年4月12日
SaulLM-7B:一款专为法律领域定制的大语言模型

SaulLM-7B:一款专为法律领域定制的大语言模型

66 VIEWS
2024年3月7日
g1: 在 Groq 上使用 Llama-3.1 70b 创建类似OpenAI o1 的推理链

g1: 在 Groq 上使用 Llama-3.1 70b 创建类似OpenAI o1 的推理链

266 VIEWS
2024年9月16日
OpenAI 分享了5位专业作家利用 ChatGPT 写作的案例方法和技巧

OpenAI 分享了5位专业作家利用 ChatGPT 写作的案例方法和技巧

575 VIEWS
2024年9月11日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版