|
一、ollama如何保持模型加载在内存中或立即卸载?默认情况下,模型在生成响应后会在内存中保留5分钟。这允许在您多次请求LLM时获得更快的响应时间。然而,您可能希望在5分钟内释放内存,或者希望模型无限期地保留在内存中。使用keep_alive参数与/api/generate或/api/chatAPI端点,可以控制模型在内存中保留的时间。keep_alive参数可以设置为:一个持续时间字符串(例如“10m”或“24h”)一个以秒为单位的数字(例如3600)任何负数,这将使模型无限期地保留在内存中(例如-1或“-1m”)‘0’这将使模型在生成响应后立即卸载例如,要预加载模型并使其保留在内存中,请使用:curlhttp://localhost:11434/api/generate-d'{"model":"llama3","keep_alive":-1}'1要卸载模型并释放内存,请使用:curlhttp://localhost:11434/api/generate-d'{"model":"llama3","keep_alive":0}'1或者,可以通过在启动Ollama服务器时设置环境变量OLLAMA_KEEP_ALIVE来更改所有模型在内存中保留的时间。OLLAMA_KEEP_ALIVE变量使用与上述keep_alive参数相同的参数类型。如果希望覆盖OLLAMA_KEEP_ALIVE设置,请使用keep_aliveAPI参数与/api/generate或/api/chatAPI端点。二、在启动时添加OLLAMA_KEEP_ALIVE环境参数1.停止ollama服务dockerstopollama12.移除ollama服务dockerrmollama13.加上参数进行启动dockerrun-d--gpus=all-eOLLAMA_KEEP_ALIVE=-1--restart=always-v/home/docker/ollama:/root/.ollama-p11434:11434--nameollamaollama/ollama1三、查看是否设置成功dockerexec-itollamaenv1
|
|