RedPajama-Data

https://github.com/togethercomputer/RedPajama-Data

该仓库提供了一个可复现的 RedPajama 数据集的数据处理方法,包括 Commoncrawl、C4、GitHub、Books、ArXiv、Wikipedia 和 StackExchange 数据集,总共包含 1.2 万亿个 token。在 data_prep 中提供了所有预处理脚本和指南,在 tokenization 中提供了使用 GPT-NeoX tokenizer 对数据集进行标记化的示例,在 viz 中提供了使用 Meerkat 探索数据子集的仪表板。该仓库的代码采用 Apache 2.0 许可证,数据集本身的许可证请参考使用的数据子集的许可证。

Previous:

Next:

Leave a Reply

Please Login to Comment