一、安装

curl -fsSL https://ollama.com/install.sh | sh

二、下载模型

ollama pull llama3:8b

三、运行

运行 server

export OLLAMA_HOST=0.0.0.0
OLLAMA_MODELS=/data/ollma/models
ollama serve

运行模型

ollama run llama3:8b

ollama 运行一段时间后会自动退出模型的加载,释放 GPU,可以使用下面的命令保持模型的加载

保持加载状态

curl http://localhost:11434/api/generate -d '{"model": "recall704/qwen:7b-moe-q4_k_m", "keep_alive": -1}'

取消加载状态

curl http://localhost:11434/api/generate -d '{"model": "recall704/qwen:7b-moe-q4_k_m", "keep_alive": 0}'

四、制作模型

4.1、下载 GGUF 文件

https://modelscope.cn/models/qwen/Qwen1.5-7B-Chat-GGUF/files

4.2 创建 Modelfile 文件

cat > Modelfile << \EOF
FROM ./qwen1_5-7b-chat-q4_k_m.gguf

# set the temperature to 1 [higher is more creative, lower is more coherent]
PARAMETER temperature 0.5

TEMPLATE """{{ if and .First .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
{{ .Response }}"""

# set the system message
SYSTEM """
You are a helpful assistant.
"""
EOF

4.3、制作自己的模型

ollama create recall704/qwen:7b-moe-q4_k_m -f Modelfile