一、安装
curl -fsSL https://ollama.com/install.sh | sh
二、下载模型
ollama pull llama3:8b
三、运行
运行 server
export OLLAMA_HOST=0.0.0.0
OLLAMA_MODELS=/data/ollma/models
ollama serve
运行模型
ollama run llama3:8b
ollama 运行一段时间后会自动退出模型的加载,释放 GPU,可以使用下面的命令保持模型的加载
保持加载状态
curl http://localhost:11434/api/generate -d '{"model": "recall704/qwen:7b-moe-q4_k_m", "keep_alive": -1}'
取消加载状态
curl http://localhost:11434/api/generate -d '{"model": "recall704/qwen:7b-moe-q4_k_m", "keep_alive": 0}'
四、制作模型
4.1、下载 GGUF 文件
https://modelscope.cn/models/qwen/Qwen1.5-7B-Chat-GGUF/files
4.2 创建 Modelfile 文件
cat > Modelfile << \EOF
FROM ./qwen1_5-7b-chat-q4_k_m.gguf
# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 0.5
TEMPLATE """{{ if and .First .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
{{ .Response }}"""
# set the system message
SYSTEM """
You are a helpful assistant.
"""
EOF
4.3、制作自己的模型
ollama create recall704/qwen:7b-moe-q4_k_m -f Modelfile