大模型数据集收集

在本文中,记录了我从不同来源出收集到的大模型语料。


维基百科

pleisto/wikipedia-cn-20230720-filtered


百度百科

563w_baidubaike.json.7z(4.35GB):


C4_zh 语料库

C4是可用的最大语言数据集之一,收集了来自互联网上超过3.65亿个域的超过1560亿个token。C4_zh是其中的一部分

Baby-Llama2-Chinese提供下载地址,包括3个Part:


WuDaoCorpora

中文悟道开源的200G数据:Data Hub。登陆后直接在网页中下载,压缩包为63.8GB。


本数据集是参考Alpaca方法基于GPT4得到的self-instruct数据,约5万条。

GitHub

This is the repo for the GPT-4-LLM, which aims to share data generated by GPT-4 for building an instruction-following LLMs with supervised learning and reinforcement learning.

其他


本文作者:Maeiee

本文链接:大模型数据集收集

版权声明:如无特别声明,本文即为原创文章,版权归 Maeiee 所有,未经允许不得转载!


喜欢我文章的朋友请随缘打赏,鼓励我创作更多更好的作品!