大模型数据集收集

在本文中，记录了我从不同来源出收集到的大模型语料。

维基百科

pleisto/wikipedia-cn-20230720-filtered

本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作，本数据集仅保留了 254,547条 质量较高的词条内容。524MB。

百度百科

563w_baidubaike.json.7z（4.35GB）：

下载地址参见Baby-Llama2-Chinese

C4_zh 语料库

C4是可用的最大语言数据集之一，收集了来自互联网上超过3.65亿个域的超过1560亿个token。C4_zh是其中的一部分

Baby-Llama2-Chinese提供下载地址，包括3个Part：

Part1 c4-zh 9.76GB
Part2 c4-zh-part2 7.77GB
Part3 clue-part3 3.33GB

WuDaoCorpora

中文悟道开源的200G数据：Data Hub。登陆后直接在网页中下载，压缩包为63.8GB。

shibing624/alpaca-zh

本数据集是参考Alpaca方法基于GPT4得到的self-instruct数据，约5万条。

GitHub

Instruction-Tuning-with-GPT-4/GPT-4-LLM

This is the repo for the GPT-4-LLM, which aims to share data generated by GPT-4 for building an instruction-following LLMs with supervised learning and reinforcement learning.

其他

本文作者：Maeiee

本文链接：大模型数据集收集

版权声明：如无特别声明，本文即为原创文章，版权归 Maeiee 所有，未经允许不得转载！

喜欢我文章的朋友请随缘打赏，鼓励我创作更多更好的作品！