2025 年,调用 GPT-4 或 Claude API 依然是大多数人的首选,但越来越多开发者和隐私敏感用户开始把目光转向本地大模型。原因很简单:数据不出本机、无需按 Token 付费、可离线使用、完全可控。Ollama 正是这一切的入口——它是目前最简单易用的本地大模型运行工具。

什么是 Ollama?为什么选它?

Ollama 是一个开源的本地大模型运行框架,它将模型下载、环境配置、API 服务封装成一个极简的命令行工具。你不需要理解 CUDA、Python 虚拟环境或模型格式转换——装好 Ollama,一条命令就能跑起一个 7B 参数的 Llama 3 模型。

选择本地 LLM 的核心理由有三:隐私——你的对话数据永远不会离开本机,适合处理敏感文档;成本——一次性的硬件投入,没有按 Token 计费的后顾之忧;离线——没有网络也能用,飞机上、偏远地区不受影响。当然,本地模型的能力目前还无法完全媲美 GPT-4,但在代码辅助、文档分析、翻译等场景中已经足够好用。

安装 Ollama

Ollama 支持三大操作系统,安装过程都非常简单:

  • macOS:ollama.com 下载 DMG 安装包,拖入 Applications 文件夹即可。首次运行会要求授予权限。
  • Windows: 下载官方安装程序(.exe),一路下一步。安装完成后 Ollama 会在后台运行,托盘图标可管理。
  • Linux: 一行命令 curl -fsSL https://ollama.com/install.sh | sh,脚本会自动配置 systemd 服务和 NVIDIA 驱动检测。

安装完成后在终端运行 ollama --version 验证是否成功。

下载并运行模型

Ollama 的核心操作只有一条命令。以下载并运行 Meta 最新开源的 Llama 3.1 8B 为例:

ollama run llama3.1

这条命令会自动下载模型(约 4.7GB 的量化版本),然后进入交互式对话模式。你可以直接打字提问,就像在跟 ChatGPT 聊天一样。

以下是几个推荐入门的模型:

模型 参数规模 磁盘占用 推荐内存 特点
Llama 3.1 8B 8B ~4.7GB 8GB+ 通用对话,综合能力均衡
Mistral 7B 7B ~4.1GB 8GB+ 英文能力强,代码能力出色
Qwen2.5 7B 7B ~4.3GB 8GB+ 中文能力最强,数学推理好
Codestral 22B 22B ~12GB 16GB+ 代码专用,Mistral 出品

Ollama CLI 常用命令

除了 ollama run,还有几个命令非常常用:

  • ollama pull <模型名> — 仅下载模型不运行,适合提前准备好需要的模型。
  • ollama list — 查看本地已下载的所有模型及其大小。
  • ollama rm <模型名> — 删除不再需要的模型,释放磁盘空间。
  • ollama serve — 启动 Ollama 的 REST API 服务(默认端口 11434),供其他应用调用。
  • ollama ps — 查看当前正在运行的模型进程。

Ollama 还内置了 REST API。启动服务后,你可以用 curl 或者其他 HTTP 客户端调用模型:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.1",
  "prompt": "用 Python 写一个快速排序",
  "stream": false
}'

搭配 Open WebUI:获得 ChatGPT 般的体验

命令行虽然够用,但大多数人还是喜欢图形界面。Open WebUI(原 Ollama WebUI)是一个开源的 Web 前端,界面设计向 ChatGPT 致敬,功能却更丰富。

安装方式也极其简单:

docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

启动后访问 http://localhost:3000,注册一个本地账号即可。Open WebUI 自动发现本机的 Ollama 实例,你可以直接在浏览器中切换不同模型、管理对话历史、上传文件做 RAG、甚至设置系统提示词。对于想要把本地模型当成主力助手的人来说,这是必备组件。

硬件要求与性能调优

这是最受关注的问题。简单来说:

  • 7B 模型(Q4 量化): 最低 8GB 内存即可运行,CPU 模式能用但较慢。M1/M2/M3 Mac 的 8GB 版本足够流畅运行。
  • 13B 模型(Q4 量化): 推荐 16GB 内存。Apple Silicon 统一内存架构表现最好。
  • 33B-70B 模型(Q4 量化): 需要 32GB-48GB 内存。除非有专用 GPU(24GB+ VRAM),否则 CPU 推理会很慢。

如果你的 Mac 有 16GB 以上统一内存,Ollama + Qwen2.5 7B 的组合可以稳定输出每秒 30-50 个 Token,日常使用完全够用。Windows 用户如果有 NVIDIA 显卡(6GB+ VRAM),开启 CUDA 加速后速度会快很多。

实战:本地编码助手

我的日常使用场景是 Ollama + Continue(VS Code 插件)。Continue 是一款开源的 AI 编码插件,支持接入本地 Ollama 模型。配置完成后,在 VS Code 中选中代码按 Cmd+I 就能让本地模型帮你解释、重构或生成代码。数据全程不离开电脑,公司敏感项目也能放心使用。

本地大模型的时代已经到来。Ollama 极大地降低了门槛,让每个人都能在自己的电脑上拥有一个私有 AI。试试看吧——从 ollama run llama3.1 开始。