沧海拾珍之LLM、GPT
综述文章
- 一站式 LLM底层技术原理入门指南:详尽文档,对 LLM 全面介绍,推荐。
- 关于LLM我们所知的一切:长文综述,有价值
- Large language models, explained with a minimum of math and jargon
LLM
- LLaMA
- 本地运行:
- Llama 2本地运行指南:多种方案,llama.cpp、Ollama、MLC LLM
- soulteary/docker-llama2-chat:GPU 部署、CPU 部署,中文、英文多种模型
- 微调:
- A simple guide to fine-tuning Llama 2:简明,用samsum数据集微调
- 大型框架:
- LLaMA2-Accessory:套件,预训练、微调、部署、多模态
- 本地运行:
- 其他 LLM
知识库
- PDF 问答系统
- postor/chatpdf-minimal-demo:chatpdf 的最小实现,和文章对话
- 知识库
- khoj-ai/khoj:An AI personal assistant for your digital brain
Transformer
算法演进:
-
首个线性注意力Transformer大模型:1750亿参数,速度精度更优,TransNormerLLM
-
Training Transformers with 4-bit Integers
- ChatPaper综述:文章介绍了一种使用4位整数进行transformers训练的方法,该方法可以加速神经网络训练,而且可以在当前的GPU上实现。
- Training Transformers with 4-bit Integers - AMiner
-
《从零开始编写Transformers(pytorch)》
-
Transformer:一种强大且适用于自然语言处理的模型_禅与计算机程序设计艺术的博客-CSDN博客(Transformer:一种强大且适用于自然语言处理的模型)
-
- 该项目集成了基于 transformers 库实现的多种 NLP 任务。
- 在该项目中我们集成了一些主流的NLP任务,你可以找到对应的任务,将代码中的
训练数据集
更换成你自己任务下的数据集
从而训练一个符合你自己任务下的模型。
高质量开源项目
- Chinese-LLaMA-Alpaca:中文LLaMA模型、指令精调的Alpaca大模型、扩充了中文词表,整套方案,价值很高
向量数据库
-
向量数据库Pinecone,治疗ChatGPT幻觉的药方? - 后厂村思维导图馆 - 博客园 (cnblogs.com)
-
【GPT】llama_index(三)改用langchain+向量数据库,灵活实现GPT外部数据检索 - 掘金 (juejin.cn)
-
一个技术人“误入歧途”,做了个向量数据库新物种 - OSCHINA编辑部的个人空间 - OSCHINA - 中文开源技术交流社区
-
向量数据库入坑指南:初识 Faiss,如何将数据转换为向量(一) - Zilliz的个人空间 - OSCHINA - 中文开源技术交流社区
-
C#使用词嵌入向量与向量数据库为大语言模型(LLM)赋能长期记忆实现私域问答机器人落地 - a1010 - 博客园 (cnblogs.com)
Embedding
课程
- Google Generative AI learning path
- Google Cloud Skills Boost
- 生成式AI学习1——生成式人工智能简介 - YouTube
- 生成式AI学习6——... - @宝玉xp的微博 - 微博 (weibo.com) - 《面向开发者的ChatGPT提示工程》
- 《基于LangChain的大语言模型应用开发》
ChatGPT
- 黑客曝ChatGPT三大新功能
- #黑客曝ChatGP... - @量子位的微博 - 微博 (weibo.com)
- My profile(我的简介)、My files(我的文件)、“Workspace” (工作区)
- 陶哲轩甩出调教 GPT-4 聊天记录,点击领取大佬的研究助理 - IT之家 (ithome.com)
Azure OpenAI
- 使用 Azure OpenAI 打造自己的 ChatGPT - 晓晨Master - 博客园
- 申请使用微软中国区 Azure OpenAI API打造自己的 ChatGPT - EVLIT
- Azure OpenAI Service 注册申请与配置心得
- 个人用户申请Azure OpenAI - justtest1 - 博客园
- Chatgpt4中国申请,Chatgpt3.5中国区免费1年使用攻略,微软Azure云openai详细api注册申请图文教程,整合odoo AiCenter - | odoo软件开发实施_广州欧度智能,服装生鲜家具外贸供应链开源ERP专业实施
算法
注意力机制
FlashAttention
大语言模型排行榜
- lmsys发布了新一期的大预言模型排行
- 第一的肯定还是GPT-4
- 开源但不可商用的最高的是的新发布的vicuna-33b:
- lmsys发布了新一... - @蚁工厂的微博 - 微博 (weibo.com)
微调
- SpongebBob/Finetune-ChatGLM2-6B: ChatGLM2-6B 全参数微调,支持多轮对话的高效微调。
- ChatGLM2-6B 全参数微调,支持多轮对话的高效微调。
LoRA & # QLoRA
LLaMA
- Extending Context is Hard…but not Impossible†
- 只需要改2行代码,即可以将llama上下文长度扩大到8K!
- Llama模型在发布... - @斌叔NextEdu的微博 - 微博 (weibo.com)
- LLaMA Server:将 LLaMA C++ 和 Chatbot UI 结合的 LLaMA 服务
- 复旦大学新论文,使用单台8片24G的RTX 3090,全参数微调Llama 65B模型。
- 代码地址:github.com/OpenLMLab/LOMO
- 论文地址:arxiv.org/abs/2306.09782
llama.cpp
- 3w+星标项目大佬创业:树莓派即可运行大模型,已获GitHub前CEO投资
- 资深开发大佬,终于忍不住自己出来创业了。Georgi Gerganov,今年三月曾开源了llama.cpp项目,GitHub上已破三万星标。
- 可能由于反响太好,这位大哥决定把背后核心纯C语言框架ggml拿出来创业:原本是几月前的副业项目。
- 在官宣前这家公司就已经获得来自GitHub前CEO Nat Friedman、Y Combinator合伙人Daniel Gross的种子前投资。
Vicuna
RWKV
- nanoRWKV:RWKV语言模可能由于反响太好,这位大哥决定把背后核心纯C语言框架ggml拿出来创业:原本是几月前的副业项目。
- minimal implementation of RWKV language model following nanoGPT
- GitHub - Hannibal046/nanoRWKV: minimal implementation of RWKV language model following nanoGPT
开源框架
- embedchain:用来简单创建LLM聊天机器人的框架,加载数据、分块、创建嵌入向量全自动处理。支持各种格式,快速运行,一分钟内拥有自己的聊天机器人
本地部署
text-generation-webui
- oobabooga/text-generation-webui: A gradio web UI for running Large Language Models like LLaMA, llama.cpp, GPT-J, Pythia, OPT, and GALACTICA.
- 开源大语言模型 WebUI整合包 ChatGLM2-6B 和 WizardCoder-15B 中文对话和写代码模型_哔哩哔哩_bilibili
- 这个博主的程序是定制过的,支持 ChatGLM2-6B
- 演示了 ChatGLM2-6B 和 WizardCoder-15B
- 介绍了参数设置的经验
- 开源大语言模型 WebUI整合包 ChatGLM2-6B 和 WizardCoder-15B 中文对话和写代码模型_哔哩哔哩_bilibili
专题学习资源
- LLM-Reading-List:LLM 必读论文集
- LLM Learning Lab 🐎
- 关于训练、微调、优化和部署 LLM 的最新技术的学习资源
- LLM Learning Lab - Lightning AI
- 内含大量 LLM 学习文章
- LLM 全景图
- 一份专业又全面的 LLM 学习路径
- LLM 的大火给我们的学习和职业领域都提出了新的课题。作者整理了这份「LLM 全景图」,帮助你快速通关大语言模型、俯瞰当前 LLM 领域。
- 作者还贴心分享了 100M 的资料包,包括论文、演讲、报告、测评和数据集等资源。下载方式见底部~
- LLM 全景图(The Landscape of LLM) - 知乎 (zhihu.com)
- UP主高薪裸辞转型独立开发者;LLM权威学习路线图;游戏开发最全AI工具盘点;LOGO制作保姆教程 | ShowMeAI日报 (qq.com)
论文、深入学术文章
发展史
-
【Transformer发展文献综述,涵盖了22种模型、11种架构变化、7种预训练后技术和3种训练技术。模型包括GPT-3、GPT-4、Gopher、AlphaCode、RETRO、GPT-3.5、Chinchilla、Flamingo等。一些重要的架构变化包括多查询注意力、稀疏注意力、专家混合等。同时还介绍了RLHF、CAI、Minerva等后预训练技术以及超参数设置和采样技术等。这份文档对于了解AI发展的最新进展很有帮助】Transformer Taxonomy (the last lit review) | kipply's blog
-
LLM训练和推理提速技巧:ALiBi位置嵌入、稀疏注意力、FlashAttention、多查询注意力、条件计算和80GB A100 GPU,优化训练和推理过程的速度可以使用更大的文本窗口
- 《The Secret Sauce behind 100K context window in LLMs: all tricks in one place | by Galina Alperovich | May, 2023 | GoPenAI》
- The Secret Sauce behind 100K context window in LLMs: all tricks in one place | by Galina Alperovich | May, 2023 | GoPenAI
国产大模型
本文作者:Maeiee
本文链接:沧海拾珍之LLM、GPT
版权声明:如无特别声明,本文即为原创文章,版权归 Maeiee 所有,未经允许不得转载!
喜欢我文章的朋友请随缘打赏,鼓励我创作更多更好的作品!