Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

OLMo:真正的完全开源大模型

by 小互
2024年3月2日
in AI 项目
0 0
0
OLMo:真正的完全开源大模型
0
SHARES
77
VIEWS
Share on FacebookShare on Twitter
OLMo(Open Language Model)与其他开源语言模型的不同之处在于其“完全开放的框架”。
 
OLMo不仅100%开放了其完整的预训练数据——3万亿token的Dolma数据集
 
还提供了其训练代码、模型权重、推理代码、训练指标和完整日志等全部原始数据。
 
真正做到完全开源,100%开源!
 
这种程度的开放使研究人员能够完全复现模型训练过程,理解模型的性能表现,以及根据需要对模型进行微调。
OLMo(Open Language Model)是由AI2(Allen Institute for AI)推出的一系列开放语言模型,旨在推进语言模型的科学研究。

OLMo框架包括:

  • 完整的预训练数据:OLMo项目提供了完整的预训练数据——AI2的Dolma数据集,这是一个包含三万亿token的开放语料库,用于语言模型的预训练。这意味着研究人员不仅可以访问模型本身,还能够获得用于训练这些模型的原始数据,从而允许他们深入理解模型的学习基础,甚至重新训练或调整模型以适应特定的研究需求。
  • 训练代码和模型权重:OLMo框架提供了四种不同变体模型的完整模型权重,每种模型都至少训练到2万亿令牌。除了数据,OLMo还提供了训练代码、模型权重、推理代码、训练指标和日志。这种程度的开放性使研究人员能够完全复现模型训练过程,理解模型的性能表现,以及根据需要对模型进行微调。
  • 评估工具的提供:项目包含了开发过程中使用的评估套件,以及500多个模型的检查点,每1000步训练过程中的每一个都有,还有评估代码,这些都属于Catwalk项目的一部分。这使得研究人员可以使用相同的工具来评估自己的模型或对OLMo模型进行进一步的分析。

模型参数和架构

OLMo提供了不同规模的模型变体,具体包括:

  • 1B(10亿参数)模型:具有16层,每层2048个隐藏单元,16个注意力头,训练了至少2万亿个令牌。
  • 7B(70亿参数)模型:包含32层,每层有4086个隐藏单元,32个注意力头,训练了约2.46万亿个令牌。
  • 65B(650亿参数)模型:(文章撰写时仍在训练中),计划包含80层,每层8192个隐藏单元,64个注意力头。

这些模型采用了基于Vaswani等(2017年)的解码器仅Transformer架构,并进行了多项改进,例如:

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
476
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
331
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
276
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
607
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

直接生成答案网页 Perplexity 竞争对手出现 一个新的 AI 驱动搜索引擎登场

直接生成答案网页 Perplexity 竞争对手出现 一个新的 AI 驱动搜索引擎登场

570 VIEWS
2024年6月20日
Dolphin Mixtral 1x22b:去除对齐和偏见 没有任何审查和道德限制的模型

Dolphin Mixtral 1x22b:去除对齐和偏见 没有任何审查和道德限制的模型

447 VIEWS
2024年5月23日
ACE Studio :AI人声合成引擎 制作像真人一样歌唱的AI歌手

ACE Studio :AI人声合成引擎 制作像真人一样歌唱的AI歌手

1.8k VIEWS
2024年4月2日
Extropic 发布一种全新的热力学计算机  利用物质随机波动驱动计算

Extropic 发布一种全新的热力学计算机 利用物质随机波动驱动计算

340 VIEWS
2024年4月28日
特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

306 VIEWS
2024年10月11日
全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 自然采光

全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 自然采光

112 VIEWS
2024年4月26日
全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 自然采光

全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 特殊效果

256 VIEWS
2024年4月26日
YouTubeVeo 引入Google DeepMind 的 Veo 模型 创作者可使用Veo创作视频

YouTubeVeo 引入Google DeepMind 的 Veo 模型 创作者可使用Veo创作视频

176 VIEWS
2024年9月19日
教程:使用Runway Gen-3 将真人视频与AI生成的视觉特效相结合

教程:使用Runway Gen-3 将真人视频与AI生成的视觉特效相结合

461 VIEWS
2024年8月8日
OpenAI发布了全新的 o1 推理模型 工作原理及技术报告详解

OpenAI发布了全新的 o1 推理模型 工作原理及技术报告详解

2.3k VIEWS
2024年9月13日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版