Ollama - 在本地快速启动并运行大语言模型-轻识

大家好！我又回来了，今天给大家介绍一个非常棒的工具，它可以让我们使用简单的 Docker 命令在终端上直接运行 Llama 2、 Code Llama 等，这个工具就是 Ollama，这是一个 AI 聊天程序，他可以使与 LLM 的交互变得非常简单，就像启动一个 docker 容器一样。

什么是 Ollama？

Ollama 是一个命令行聊天机器人，它使得几乎可以在任何地方使用大型语言模型变得简单，现在有了一个 Docker 镜像，使用起来更加方便。

Ollama 提供了一系列开源模型，您可以在 ollama.ai/library 找到。看看以下可以下载的模型示例：

要运行 3B 模型，请确保至少有 8 GB 的内存。对于 7B 模型，需要 16GB，对于 13B 模型，需要 32 GB 的内存。

Ollama 可以利用 Nvidia GPU 设计的 Docker 容器的 GPU 加速。我这里没有使用 GPU 选项进行测试，也运行非常顺利！

只需确保你的计算机安装有 Linux 和 Docker，然后使用以下命令将 Ollama 镜像下载到您的计算机中。

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

请注意，这是在 CPU 上运行，而不是在 GPU 上。如果想要额外的 GPU 支持，可以查看Ollama博客文章，了解支持 Nvidia GPU 的 Docker 镜像。

docker exec -it ollama ollama run llama2

这将在你的系统中下载 Llama 2 模型。如果使用 ollama run 命令，且模型尚未下载，它将执行下载操作。要获取模型而不运行它，只需使用 ollama pull llama2 命令。

一旦模型被下载，您可以启动聊天并开始对话。可以通过按 Ctrl+D 来退出或开始新的对话。如果您退出，您将需要重新运行上述命令来再次启动聊天。

性能完全取决于您系统的硬件和资源。我在一个具有 15GB 内存和 4个 CPU 核心的 LXC 容器上运行了 llama2 的 7B 版本。

可以看到 LXC 容器中的响应速度还是非常快的...

如果将 CPU 核心数量调整至3个以下，几乎无法使用，导致频繁卡顿。请记住，这只是为了测试目的。AI 聊天机器人在专用系统或裸金属上运行效果更好。

另外，Ollama 也提供了适用于 MacOS 和 Linux 的桌面应用程序，也在开发Windows版本，大家需要的可以前往官网 https://ollama.ai/download 下载。

Ollama 在这个测试环境中的表现非常棒👍，对用户非常友好，在 Ollama 网站上，下载模型非常简单也有很好的文档说明。尽管像这样的命令行工具可能没有网页界面提供的便利和炫酷，但在终端中快速创建一个聊天机器人确实有一种满足感。当您看到它运行时，会有一种成就感。

我们这里只是一个使用 Docker 设置 Ollama 的基本示例，还有很多东西没有涵盖到，比如自定义自己的模型、Prompts 甚至是Rest API。要了解更多关于这些Ollama功能的信息，请访问以下链接：

Ollama website: https://ollama.ai

Ollama Github: https://github.com/jmorganca/ollama

Ollama Discord: https://discord.com/invite/ollama