ollama如何保持模型加载在内存（显存）中或立即卸载

多党制 · 发表于 2024-9-4 00:33:03

一、ollama如何保持模型加载在内存中或立即卸载？默认情况下，模型在生成响应后会在内存中保留5分钟。这允许在您多次请求LLM时获得更快的响应时间。然而，您可能希望在5分钟内释放内存，或者希望模型无限期地保留在内存中。使用keep_alive参数与/api/generate或/api/chatAPI端点，可以控制模型在内存中保留的时间。keep_alive参数可以设置为：一个持续时间字符串（例如“10m”或“24h”）一个以秒为单位的数字（例如3600）任何负数，这将使模型无限期地保留在内存中（例如-1或“-1m”）‘0’这将使模型在生成响应后立即卸载例如，要预加载模型并使其保留在内存中，请使用：curlhttp://localhost:11434/api/generate-d'{"model":"llama3","keep_alive":-1}'1要卸载模型并释放内存，请使用：curlhttp://localhost:11434/api/generate-d'{"model":"llama3","keep_alive":0}'1或者，可以通过在启动Ollama服务器时设置环境变量OLLAMA_KEEP_ALIVE来更改所有模型在内存中保留的时间。OLLAMA_KEEP_ALIVE变量使用与上述keep_alive参数相同的参数类型。如果希望覆盖OLLAMA_KEEP_ALIVE设置，请使用keep_aliveAPI参数与/api/generate或/api/chatAPI端点。二、在启动时添加OLLAMA_KEEP_ALIVE环境参数1.停止ollama服务dockerstopollama12.移除ollama服务dockerrmollama13.加上参数进行启动dockerrun-d--gpus=all-eOLLAMA_KEEP_ALIVE=-1--restart=always-v/home/docker/ollama:/root/.ollama-p11434:11434--nameollamaollama/ollama1三、查看是否设置成功dockerexec-itollamaenv1

		自动登录	找回密码
密码			会员注册