内存(RAM):
最低:16GB(纯CPU运行,但速度较慢)
推荐:32GB(流畅运行)
显存(GPU):
最低:8GB(如NVIDIA RTX 3060/3070)可加载量化版(如4-bit量化)。
推荐:12GB+(如RTX 3080/4080)运行原生模型更流畅。
存储:至少10GB空间(模型文件约5-8GB)。
CPU:4核以上(若依赖CPU推理)。
内存(RAM):
最低:32GB(CPU模式可能需更多交换空间)。
推荐:64GB(避免频繁交换)。
显存(GPU):
最低:16GB(如RTX 4090)运行量化版。
推荐:24GB+(如A5000/A6000)运行原生模型。
存储:20GB+空间(模型文件约15GB)。
CPU:8核以上(CPU推理需求较高)。
内存(RAM):
最低:64GB(CPU模式极慢)。
推荐:128GB+(GPU模式需大内存支持)。
显存(GPU):
最低:2x24GB(如双A6000/A100,需模型并行)。
推荐:4x24GB或单卡80GB(如A100 80GB)。
存储:50GB+空间(模型文件约30-40GB)。
CPU:16核以上(多线程/分布式支持)。
内存(RAM):
最低:128GB(仅CPU几乎不可行)。
推荐:256GB+(分布式GPU必需)。
显存(GPU):
必须多卡:4x A100 80GB 或 8x RTX 4090(通过模型并行+量化)。
企业级硬件(如H100集群)更佳。
存储:100GB+空间(模型文件约70-80GB)。
CPU:32核以上(协调多GPU通信)。
量化模型:
使用4-bit/8-bit量化可显著降低显存需求(如70B量化后可在单卡24GB显存运行,但精度下降)。
GPU vs CPU:
CPU推理仅适合小模型(7B/8B),且速度可能慢10-100倍。
多GPU支持:
大模型(32B+)需NVLink
或高速PCIe互联以减少通信开销。
Ollama优化:
Ollama会尝试自动选择最佳运行方式(如优先GPU),但需硬件支持。
模型规模 | 消费级硬件 | 专业级硬件 |
---|---|---|
7B |