Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型

by 小互
2024年4月8日
in AI 项目
0 0
0
Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型
0
SHARES
682
VIEWS
Share on FacebookShare on Twitter
Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型
 
CT-LLM是针对中文设计的首个大语言模型,拥有20亿参数,并在12000亿中文语料库上进行预训练。
 
他们还弄了了新的中文对齐基准测试:CHC-Bench,测试LLMs对中文文化、历史、传统、人文、地理和STEM的深入理解。
 
测试结果与一些同参数模型性能相当。
 
他们开放了整个数据过滤过程、训练动态、训练和评估数据,以及模型的中间检查点等所有相关信息。这样的做法使得其他研究者、开发者能够访问这些资源,利用这些资料进行自己的研究或进一步改进模型。

主要功能特点

  1. 中文处理能力强大:CT-LLM专注于提高对中文语言的理解和生成能力,利用大规模的中文数据预训练,实现对中文文本的高效处理。
  2. 跨语言适应性:虽然重点优化了中文处理,CT-LLM也展示了对英文和编程代码的良好处理能力,体现了模型的多语言适应性。
  3. 高性能的中文任务表现:在中文语言任务的基准测试CHC-Bench上,CT-LLM展现了出色的性能,证明了其在理解和应用中文方面的高效能力。
  4. 从零开始的预训练:不同于以英文为主的预训练方法,CT-LLM从头开始,主要使用中文数据进行预训练,这让模型在理解中文方面有了质的飞跃。
  5. 细致的数据处理:通过精细的数据处理过程,创建了专门的中文预训练语料库MAP-CC,确保了数据的高质量和适用性。
  6. 开放资源:研究团队开源了模型训练的完整过程和所用的数据处理细节,包括MAP-CC语料库和CHC-Bench基准测试,促进了学术界和工业界的进一步研究和应用。
 
CT-LLM从零开始,与传统方法不同,主要集成了12000亿中文文本数据,利用了包含8000亿中文令牌、3000亿英文令牌和1000亿代码令牌的广泛语料库。这种策略构成使模型在理解和处理中文方面表现出色,并通过对齐技术进一步增强了这一能力。CT-LLM在CHC-Bench上表现出色,在中文语言任务上表现出色,并通过SFT在英语中展现了其熟练程度。

数据去重策略

  • 编辑距离去重:为了减少数据中的重复内容,研究团队使用编辑距离来判断两行文本是否相似。如果两行文本之间的编辑距离小于较短行长度的十分之一,则认为这两行是相似的。此外,通过计算两行文本字符重叠的比例,如果重叠比例小于三分之一,则认为这两行不相似。这些方法帮助去除或减少数据集中的重复内容。

模型架构

  1. 基于Transformer的解码器架构:CT-LLM采用了Transformer架构,特别是其解码器部分,以支持大规模文本的理解和生成。
  2. 大规模参数:模型具有20亿参数,这使得它能够捕捉和学习从庞大数据集中提取的复杂语言模式和结构。
  3. 多头注意力机制:通过多头注意力机制(Multi-Head Attention),模型能够从不同的表示子空间中并行地学习信息,提高了处理效率和理解深度。
  4. RoPE位置嵌入:采用旋转式位置编码(Rotary Positional Embedding, RoPE)而非绝对位置编码,增强了模型对序列位置信息的捕捉能力。
  5. SwiGLU激活函数:替换标准ReLU激活函数为SwiGLU,以提升模型的非线性处理能力和训练效果。
  6. RMSNorm标准化:使用RMSNorm对Transformer的各个子层输入进行标准化,有助于模型训练的稳定性和性能提升。
  7. 细致的数据预处理和去重:模型采用了一系列的数据清洗和去重策略,确保了训练数据的质量,为模型训练提供了高质量的输入。
中间检查点的详细评估动态
以 2B 左右模型的综合基准评估对齐模式
使用 GPT4 评分器对 CHC-BENCH 的中文能力进行基准测试
CHC-Bench基准测试: 一个类似于 MTbench 的基准,用于评估模型对中国文化、历史、传统、人文、地理和科学、技术和工程八大类的理解。
800B 中文预训练语料库(MAP-CC): https://huggingface.co/datasets/m-a-p/MAP-CC…
CHC-Bench:https://huggingface.co/datasets/m-a-p/CHC-Bench…
中级 CKPT: https://huggingface.co/m-a-p/CT-LLM-intermediate-ckpts…
基本型号: https://huggingface.co/m-a-p/CT-LLM-Base…
SFT 型号: https://huggingface.co/m-a-p/CT-LLM-SFT…
DPO 型号: https://huggingface.co/m-a-p/CT-LLM-SFT-DPO…
论文: https://arxiv.org/pdf/2404.04167.pdf…

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
478
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
332
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
277
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
608
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

Voice-Pro:支持超过 100 种语言、400 多种声音的语音视频转录、翻译工具

Voice-Pro:支持超过 100 种语言、400 多种声音的语音视频转录、翻译工具

374 VIEWS
2024年10月7日
Transfusion:一种可生成文本和图像的统一多模态模型

Transfusion:一种可生成文本和图像的统一多模态模型

150 VIEWS
2024年8月24日
ChatGPT 帮我制定护肤方案   两个月让我的皮肤变成了这样…

ChatGPT 帮我制定护肤方案 两个月让我的皮肤变成了这样…

741 VIEWS
2024年11月12日
微软团队研究出一种新的方  可以让大语言模型更好地理解和处理电子表格数据

微软团队研究出一种新的方 可以让大语言模型更好地理解和处理电子表格数据

160 VIEWS
2024年7月16日
德克萨斯大学开发出可拉伸的电子皮肤 可以赋予机器人人类级触感灵敏度

德克萨斯大学开发出可拉伸的电子皮肤 可以赋予机器人人类级触感灵敏度

145 VIEWS
2024年5月8日
STORM:利用LLMs自动化生成像维基百科一样的深度长篇内容

STORM:利用LLMs自动化生成像维基百科一样的深度长篇内容

395 VIEWS
2024年4月29日
Prompt 提示词学习手册:必看⽬录 ⼿册内容汇总 学习地图

Prompt 提示词学习手册:必看⽬录 ⼿册内容汇总 学习地图

650 VIEWS
2024年3月25日
Pika 推出根据视频内容自动生成音效功能 可以给视频自动配音

Pika 推出根据视频内容自动生成音效功能 可以给视频自动配音

47 VIEWS
2024年3月11日
DETECT-2B :音频深度伪造检测工具 可以在只200毫秒内检测30多种语言的音频

DETECT-2B :音频深度伪造检测工具 可以在只200毫秒内检测30多种语言的音频

177 VIEWS
2024年7月18日
Claude 3 加入了性格训练 让 AI 保持好奇心和交谈时更有人情味

Claude 3 加入了性格训练 让 AI 保持好奇心和交谈时更有人情味

210 VIEWS
2024年6月9日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版