知识
[大模型]离线更新本地ollama模型,拷贝ollama模型到离线电脑中安装使用deepseekR1模型更新增量更新update models
[大模型]使用chatbox和open-webui同时调用ollama管理器cs模式和bs模式同时使用,调用ollama:11434端口连接被对方重设关联deepseek
[大模型]ollama工具升级docker中升级ollama下载速度很慢的解决方案
[大模型]ollama容器离线升级ollama手动升级0.6.8
[大模型]Ollama pull拉取大模型时速度很慢slow download model file
[大模型]llama.cpp容器运行的方法docker run
[大模型]llama.cpp运行大模型容器的方案不能调用GPU的问题
本站点使用 MrDoc 构建
-
+
[大模型]llama.cpp运行大模型容器的方案不能调用GPU的问题
# 说明 llama.cpp正常运行gguf模型的方式,以下是已经测试的方案。 # 方案 ``` docker run -d -p 29900:8080 --privileged-true --gpus-all -v /nfsdata/server/llama.cpp/models:/models -v /nfsdata/server/llama.cpp/app:/app \ --name LLamacpp --restart always \ ghcr.io/ggerganov/llama.cpp:server-cuda-b4719 \ -m /models/Gemma-4-31B-JANG_4M-CRACK-GGUF/gemma-4-31b-jang-crack-08_0-00001-of-00009.gguf --ctx-size 32768 --host 0.0.0.0 --port 8080 ``` 其中,app目录的映射是为了方便更新llama.cpp程序,这样在新模型时,不需要进入容器即可快速更新; models的目录映射,是模型存放的目录,其实llama.cpp可以实现自动扫描gguf文件; -m是指定加载模型,在运行时加载该模型进行运行。 运行成功后,可以通过192.168.1.30:29900访问网页版的llama大模型... # 问题,不能调用GPU 从官方github上下载的Ubuntu环境运行的llamacpp,没有cuda版。只提供了vulkan或者intel或者amd的显卡版,对于NVIDIA显卡则没有cuda版。提供了Windows的cuda版。下载的其他版本都不能调用起GPU。 需要在github上搜索llamacpp_cuda,例如 https://github.com/ai-dock/llama.cpp-cuda/releases/download/b9803/llama.cpp-b9803-cuda-12.8-amd64.tar.gz 就有人提供最新的cuda版,但是需要注意cuda版对显卡cuda组件向下兼容。cuda环境需要大于等于该版本。
虚拟世界
2026年6月28日 14:12
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档(打印)
分享
链接
类型
密码
更新密码