Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

OLMo:真正的完全开源大模型

by 小互
2024年3月2日
in AI 项目
0 0
0
OLMo:真正的完全开源大模型
0
SHARES
77
VIEWS
Share on FacebookShare on Twitter
OLMo(Open Language Model)与其他开源语言模型的不同之处在于其“完全开放的框架”。
 
OLMo不仅100%开放了其完整的预训练数据——3万亿token的Dolma数据集
 
还提供了其训练代码、模型权重、推理代码、训练指标和完整日志等全部原始数据。
 
真正做到完全开源,100%开源!
 
这种程度的开放使研究人员能够完全复现模型训练过程,理解模型的性能表现,以及根据需要对模型进行微调。
OLMo(Open Language Model)是由AI2(Allen Institute for AI)推出的一系列开放语言模型,旨在推进语言模型的科学研究。

OLMo框架包括:

  • 完整的预训练数据:OLMo项目提供了完整的预训练数据——AI2的Dolma数据集,这是一个包含三万亿token的开放语料库,用于语言模型的预训练。这意味着研究人员不仅可以访问模型本身,还能够获得用于训练这些模型的原始数据,从而允许他们深入理解模型的学习基础,甚至重新训练或调整模型以适应特定的研究需求。
  • 训练代码和模型权重:OLMo框架提供了四种不同变体模型的完整模型权重,每种模型都至少训练到2万亿令牌。除了数据,OLMo还提供了训练代码、模型权重、推理代码、训练指标和日志。这种程度的开放性使研究人员能够完全复现模型训练过程,理解模型的性能表现,以及根据需要对模型进行微调。
  • 评估工具的提供:项目包含了开发过程中使用的评估套件,以及500多个模型的检查点,每1000步训练过程中的每一个都有,还有评估代码,这些都属于Catwalk项目的一部分。这使得研究人员可以使用相同的工具来评估自己的模型或对OLMo模型进行进一步的分析。

模型参数和架构

OLMo提供了不同规模的模型变体,具体包括:

  • 1B(10亿参数)模型:具有16层,每层2048个隐藏单元,16个注意力头,训练了至少2万亿个令牌。
  • 7B(70亿参数)模型:包含32层,每层有4086个隐藏单元,32个注意力头,训练了约2.46万亿个令牌。
  • 65B(650亿参数)模型:(文章撰写时仍在训练中),计划包含80层,每层8192个隐藏单元,64个注意力头。

这些模型采用了基于Vaswani等(2017年)的解码器仅Transformer架构,并进行了多项改进,例如:

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Hugging Face发布了一个完全开源的端侧模型SmolLM 可在手机上运行

Hugging Face发布了一个完全开源的端侧模型SmolLM 可在手机上运行

164 VIEWS
2024年7月18日
电影配音工种集体失业 全球第一部由 AI 完全翻译配音的电影即将上映

电影配音工种集体失业 全球第一部由 AI 完全翻译配音的电影即将上映

347 VIEWS
2024年7月18日
Playground 发布 V3 版本 可以轻松创建和编辑各种图像和文本设计

Playground 发布 V3 版本 可以轻松创建和编辑各种图像和文本设计

307 VIEWS
2024年9月23日
微软正式推出 Microsoft Designer 与 Microsoft 产品无缝集成 随时随地进行图像设计

微软正式推出 Microsoft Designer 与 Microsoft 产品无缝集成 随时随地进行图像设计

396 VIEWS
2024年7月22日
HiDiffusion:将扩散模型的图像生成质量提升到4096×4096 速度提高6倍

HiDiffusion:将扩散模型的图像生成质量提升到4096×4096 速度提高6倍

75 VIEWS
2024年4月25日
苹果对 Siri 进行全面改造 具有屏幕感知能力以及跨应用执行各种任务

苹果对 Siri 进行全面改造 具有屏幕感知能力以及跨应用执行各种任务

609 VIEWS
2024年6月11日
OpenAI发布其语音生成模型:Voice Engine 15秒克隆你的声音

OpenAI发布其语音生成模型:Voice Engine 15秒克隆你的声音

160 VIEWS
2024年3月30日
Creatie AI:AI驱动的产品设计工具 几分钟之内设计出一个网站或程序

Creatie AI:AI驱动的产品设计工具 几分钟之内设计出一个网站或程序

151 VIEWS
2024年3月27日
Transformer Debugger:OpenAI开源专门研究模型工作原理的工具

Transformer Debugger:OpenAI开源专门研究模型工作原理的工具

18 VIEWS
2024年3月13日
字节跳动发布AI开发工具:豆包MarsCode 无需配置环境实现云端编码开发

字节跳动发布AI开发工具:豆包MarsCode 无需配置环境实现云端编码开发

591 VIEWS
2024年6月27日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版