大模型数据集收集
在本文中,记录了我从不同来源出收集到的大模型语料。
维基百科
pleisto/wikipedia-cn-20230720-filtered
- 本数据集基于中文维基2023年7月20日的dump存档。作为一项以数据为中心的工作,本数据集仅保留了
254,547条
质量较高的词条内容。524MB。
百度百科
563w_baidubaike.json.7z(4.35GB):
- 下载地址参见Baby-Llama2-Chinese
C4_zh 语料库
C4是可用的最大语言数据集之一,收集了来自互联网上超过3.65亿个域的超过1560亿个token。C4_zh是其中的一部分
Baby-Llama2-Chinese提供下载地址,包括3个Part:
- Part1 c4-zh 9.76GB
- Part2 c4-zh-part2 7.77GB
- Part3 clue-part3 3.33GB
WuDaoCorpora
中文悟道开源的200G数据:Data Hub。登陆后直接在网页中下载,压缩包为63.8GB。
shibing624/alpaca-zh
本数据集是参考Alpaca方法基于GPT4得到的self-instruct数据,约5万条。
GitHub
Instruction-Tuning-with-GPT-4/GPT-4-LLM
This is the repo for the GPT-4-LLM, which aims to share data generated by GPT-4 for building an instruction-following LLMs with supervised learning and reinforcement learning.
其他
本文作者:Maeiee
本文链接:大模型数据集收集
版权声明:如无特别声明,本文即为原创文章,版权归 Maeiee 所有,未经允许不得转载!
喜欢我文章的朋友请随缘打赏,鼓励我创作更多更好的作品!