找回密码
 会员注册
查看: 40|回复: 0

ollama如何保持模型加载在内存(显存)中或立即卸载

[复制链接]

4

主题

0

回帖

13

积分

新手上路

积分
13
发表于 2024-9-4 00:33:03 | 显示全部楼层 |阅读模式
一、ollama如何保持模型加载在内存中或立即卸载?默认情况下,模型在生成响应后会在内存中保留5分钟。这允许在您多次请求LLM时获得更快的响应时间。然而,您可能希望在5分钟内释放内存,或者希望模型无限期地保留在内存中。使用keep_alive参数与/api/generate或/api/chatAPI端点,可以控制模型在内存中保留的时间。keep_alive参数可以设置为:一个持续时间字符串(例如“10m”或“24h”)一个以秒为单位的数字(例如3600)任何负数,这将使模型无限期地保留在内存中(例如-1或“-1m”)‘0’这将使模型在生成响应后立即卸载例如,要预加载模型并使其保留在内存中,请使用:curlhttp://localhost:11434/api/generate-d'{"model":"llama3","keep_alive":-1}'1要卸载模型并释放内存,请使用:curlhttp://localhost:11434/api/generate-d'{"model":"llama3","keep_alive":0}'1或者,可以通过在启动Ollama服务器时设置环境变量OLLAMA_KEEP_ALIVE来更改所有模型在内存中保留的时间。OLLAMA_KEEP_ALIVE变量使用与上述keep_alive参数相同的参数类型。如果希望覆盖OLLAMA_KEEP_ALIVE设置,请使用keep_aliveAPI参数与/api/generate或/api/chatAPI端点。二、在启动时添加OLLAMA_KEEP_ALIVE环境参数1.停止ollama服务dockerstopollama12.移除ollama服务dockerrmollama13.加上参数进行启动dockerrun-d--gpus=all-eOLLAMA_KEEP_ALIVE=-1--restart=always-v/home/docker/ollama:/root/.ollama-p11434:11434--nameollamaollama/ollama1三、查看是否设置成功dockerexec-itollamaenv1
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 会员注册

本版积分规则

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-28 21:42 , Processed in 0.949491 second(s), 25 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表