RedPajama

https://www.together.xyz/blog/redpajama
https://github.com/togethercomputer/RedPajama-Data
RedPajama 基础数据集是一个 1.2 万亿token的完全开放数据集,被称为“重现 LLaMA 训练数据集的开源配方”。
数据集下载:huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

Previous:

Next:

Leave a Reply

Please Login to Comment