Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型

by 小互
2024年4月8日
in AI 项目
0 0
0
Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型
0
SHARES
682
VIEWS
Share on FacebookShare on Twitter
Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型
 
CT-LLM是针对中文设计的首个大语言模型,拥有20亿参数,并在12000亿中文语料库上进行预训练。
 
他们还弄了了新的中文对齐基准测试:CHC-Bench,测试LLMs对中文文化、历史、传统、人文、地理和STEM的深入理解。
 
测试结果与一些同参数模型性能相当。
 
他们开放了整个数据过滤过程、训练动态、训练和评估数据,以及模型的中间检查点等所有相关信息。这样的做法使得其他研究者、开发者能够访问这些资源,利用这些资料进行自己的研究或进一步改进模型。

主要功能特点

  1. 中文处理能力强大:CT-LLM专注于提高对中文语言的理解和生成能力,利用大规模的中文数据预训练,实现对中文文本的高效处理。
  2. 跨语言适应性:虽然重点优化了中文处理,CT-LLM也展示了对英文和编程代码的良好处理能力,体现了模型的多语言适应性。
  3. 高性能的中文任务表现:在中文语言任务的基准测试CHC-Bench上,CT-LLM展现了出色的性能,证明了其在理解和应用中文方面的高效能力。
  4. 从零开始的预训练:不同于以英文为主的预训练方法,CT-LLM从头开始,主要使用中文数据进行预训练,这让模型在理解中文方面有了质的飞跃。
  5. 细致的数据处理:通过精细的数据处理过程,创建了专门的中文预训练语料库MAP-CC,确保了数据的高质量和适用性。
  6. 开放资源:研究团队开源了模型训练的完整过程和所用的数据处理细节,包括MAP-CC语料库和CHC-Bench基准测试,促进了学术界和工业界的进一步研究和应用。
 
CT-LLM从零开始,与传统方法不同,主要集成了12000亿中文文本数据,利用了包含8000亿中文令牌、3000亿英文令牌和1000亿代码令牌的广泛语料库。这种策略构成使模型在理解和处理中文方面表现出色,并通过对齐技术进一步增强了这一能力。CT-LLM在CHC-Bench上表现出色,在中文语言任务上表现出色,并通过SFT在英语中展现了其熟练程度。

数据去重策略

  • 编辑距离去重:为了减少数据中的重复内容,研究团队使用编辑距离来判断两行文本是否相似。如果两行文本之间的编辑距离小于较短行长度的十分之一,则认为这两行是相似的。此外,通过计算两行文本字符重叠的比例,如果重叠比例小于三分之一,则认为这两行不相似。这些方法帮助去除或减少数据集中的重复内容。

模型架构

  1. 基于Transformer的解码器架构:CT-LLM采用了Transformer架构,特别是其解码器部分,以支持大规模文本的理解和生成。
  2. 大规模参数:模型具有20亿参数,这使得它能够捕捉和学习从庞大数据集中提取的复杂语言模式和结构。
  3. 多头注意力机制:通过多头注意力机制(Multi-Head Attention),模型能够从不同的表示子空间中并行地学习信息,提高了处理效率和理解深度。
  4. RoPE位置嵌入:采用旋转式位置编码(Rotary Positional Embedding, RoPE)而非绝对位置编码,增强了模型对序列位置信息的捕捉能力。
  5. SwiGLU激活函数:替换标准ReLU激活函数为SwiGLU,以提升模型的非线性处理能力和训练效果。
  6. RMSNorm标准化:使用RMSNorm对Transformer的各个子层输入进行标准化,有助于模型训练的稳定性和性能提升。
  7. 细致的数据预处理和去重:模型采用了一系列的数据清洗和去重策略,确保了训练数据的质量,为模型训练提供了高质量的输入。
中间检查点的详细评估动态
以 2B 左右模型的综合基准评估对齐模式
使用 GPT4 评分器对 CHC-BENCH 的中文能力进行基准测试
CHC-Bench基准测试: 一个类似于 MTbench 的基准,用于评估模型对中国文化、历史、传统、人文、地理和科学、技术和工程八大类的理解。
800B 中文预训练语料库(MAP-CC): https://huggingface.co/datasets/m-a-p/MAP-CC…
CHC-Bench:https://huggingface.co/datasets/m-a-p/CHC-Bench…
中级 CKPT: https://huggingface.co/m-a-p/CT-LLM-intermediate-ckpts…
基本型号: https://huggingface.co/m-a-p/CT-LLM-Base…
SFT 型号: https://huggingface.co/m-a-p/CT-LLM-SFT…
DPO 型号: https://huggingface.co/m-a-p/CT-LLM-SFT-DPO…
论文: https://arxiv.org/pdf/2404.04167.pdf…

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

RayDINO :能够对胸部X光片进行全面分析并识别常见疾病的视觉模型

RayDINO :能够对胸部X光片进行全面分析并识别常见疾病的视觉模型

356 VIEWS
2024年5月11日
吴恩达AI课程:AI Python 初学者课程 每节课5分钟 1小时学会AI Python编程

吴恩达AI课程:AI Python 初学者课程 每节课5分钟 1小时学会AI Python编程

2k VIEWS
2024年9月11日
结合解剖学精确的模型 人工智能赋予虚拟果蝇生命

结合解剖学精确的模型 人工智能赋予虚拟果蝇生命

32 VIEWS
2024年3月17日
苹果开发出一种方法 解决了模型每次更新后出现的结果不一致问题

苹果开发出一种方法 解决了模型每次更新后出现的结果不一致问题

171 VIEWS
2024年7月21日
Google:个人健康大语言模型和智能体研究 利用可穿戴设备数据进行健康监测

Google:个人健康大语言模型和智能体研究 利用可穿戴设备数据进行健康监测

266 VIEWS
2024年6月18日
Higgsfield AI:仅需一张照片生成逼真可控制的视频

Higgsfield AI:仅需一张照片生成逼真可控制的视频

364 VIEWS
2024年4月6日
Spacetop:世界上首款 AR(增强现实) 电脑 100 英寸大屏幕

Spacetop:世界上首款 AR(增强现实) 电脑 100 英寸大屏幕

412 VIEWS
2024年6月2日
乌克兰外交部引入人工智能新闻发言人 即时更新战争信息

乌克兰外交部引入人工智能新闻发言人 即时更新战争信息

137 VIEWS
2024年5月2日
Aurora:微软发布首个大气基础大模型 不到1分钟生成10天的高分辨率天气预报

Aurora:微软发布首个大气基础大模型 不到1分钟生成10天的高分辨率天气预报

122 VIEWS
2024年6月11日
科学家发现 AI 正在学习撒谎和欺骗 似乎越来越擅长故意撒谎了

科学家发现 AI 正在学习撒谎和欺骗 似乎越来越擅长故意撒谎了

138 VIEWS
2024年6月10日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版