Arch Linux 部署运行 llama.cpp

编译 llama.cpp

clone llama.cpp 项目：

git clone https://github.com/ggerganov/llama.cpp

安装 cuda：

pacman -S cuda

以 LLAMA_CUBLAS Flag 编译：

make LLAMA_CUBLAS=1

下载预训练模型

在这篇文章《Another new llama.cpp / GGML breaking change, affecting q4_0, q4_1 and q8_0 models.》中提到，GGML 引入了一个 Breaking Change 导致老模型会加载失败。

新模型文件的文件名中将包含 ggmlv3 ，例如 model-name.ggmlv3.q4_0.bin 。

参见GGML 文件。

运行模型

启动模型：

./main -t 10 -ngl 24  -m /home/maxiee/Code/LLM预训练模型/TheBloke/Vicuna-7B-CoT-GGML/vicuna-7B-cot.ggmlv3.q2_K.bin  --color -c 2048 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Instruction: How to write a quick sort in Racket?\n### Response:"

-t 10 指的是物理 CPU 的核心数量。比如 8 核/16 线程，这里填 8。
-ngl 32 指将多少层放在 GPU 上运行，如果不使用 GPU,则无需传这个参数
-m 或 --model：用于指定模型文件的路径。
-n 或 --n-tokens：用于指定生成的令牌数量。
-p 或 --prompt：用于指定输入提示。
-t 或 --temperature：用于指定生成的温度（影响生成文本的随机性）。
-k 或 --top-k：用于指定在生成时考虑的最高排名令牌的数量。
-P 或 --top-p：用于指定在生成时考虑的累积概率阈值。
-r 或 --repeat-penalty：用于指定重复令牌的惩罚。
-i 或 --interactive：用于指定是否使用交互模式。
-f 或 --prompt-file：用于指定包含提示的文件的路径。
-c 或 --color：用于指定是否在交互模式下使用颜色输出。
-R 或 --repeat-penalty：用于指定重复令牌的惩罚。
-N 或 --n-threads：用于指定用于推理的线程数。
-ngl 或 --gpu-layers：用于指定在 GPU 上执行的层的数量（仅在构建时启用 Metal 支持时可用）。
-b 或 --batch-size：用于指定批处理大小（仅在构建时启用 BLAS 支持时可用）。

如果希望对话式交互，将 -p <PROMPT> 参数替换为 -i -ins。

请注意，这些参数可能会随着项目的更新而更改。

网络资源

「Manual」How to install Large Language Model Vicuna 7B + llama.ccp on Steam Deck (ChatGPT at home)

llama.cpp 使用GPU进行量化部署 #490

本文作者：Maeiee

本文链接：Arch Linux 部署运行 llama.cpp

版权声明：如无特别声明，本文即为原创文章，版权归 Maeiee 所有，未经允许不得转载！

喜欢我文章的朋友请随缘打赏，鼓励我创作更多更好的作品！