Статьи
DeepSeek R1 on-prem: сколько VRAM/ОЗУ нужно и какую топологию выбрать
Практический сайзинг для R1: VRAM, RAM, SSD, MoE, микробатчи и длинный контекст — на примерах реальных серверов MDM Electronics.
TL;DR
- Главное узкое место — видеопамять (VRAM). На длинных контекстах 50–70% VRAM «съедает» KV-кэш, а не веса модели.
- Оптимальная архитектура — vLLM + FP8/FP4 + PagedAttention с аккуратным offload KV в RAM/SSD, если нужно растянуть контекст до 128k без потери SLA.
- Три эталон-узла из линейки MDM закрывают 8/32/128 потоков:
- 8× RTX 6000 Pro 96 GB (баланс и низкая латентность),
- 16× RTX 4090 48 GB (максимум VRAM «здесь и сейчас»),
- 8× RTX 4090 48 GB (лучший $/токен и простая масштабируемость).
Задача и допущения
- Модель: DeepSeek R1 (и практичные дистиллы 14B/32B/70B для прод-сервисов).
- Нагрузка: 8/32/128 одновременных потоков, контекст 32–128k, ответы 2–8k.
- Стек инференса: vLLM (PagedAttention, speculative decoding, FP8/FP4 веса, FP8-KV, prefill/decode disaggregation).
- Цель: минимизировать p95-латентность и цену миллиона токенов при гарантии стабильного Throughput.
Эталон-конфигурации (из каталога MDM)
A) 16× RTX 4090 48 GB — «всё и сразу»
Итого VRAM: 768 GB. Ориентация: высокие нагрузки, 64–128k контекст, MoE с большим количеством активных экспертов.
Топология: tp=8–12, ep=4–8, pp=1–2.
Когда выбирать: нужен большой запас VRAM в одном узле, низкая p95 при 32–128 потоках и длинных промптах.
B) 8× RTX 6000 Pro 96 GB — «баланс веса и кэша»
Итого VRAM: 768 GB. Ориентация: длинные контексты при умеренной параллельности и минимальном межGPU-трафике.
Топология: tp=4–8, ep=2–4, pp=1.
Когда выбирать: 8–32 потоков, 32–64k контекст, акцент на стабильной латентности и предсказуемости под SLA.
C) 8× RTX 4090 48 GB — «рабочая лошадка под масштабирование»
Итого VRAM: 384 GB. Ориентация: 32k контексты, средняя одновременность, лучший $/токен при горизонтальном масштабировании.
Топология: tp=4–8, ep=2–4, pp=1.
Когда выбирать: старт/рост прод-нагрузки, много однотипных нод в кластере, быстрые пилоты.
Минимальные ступени входа: 4×4090 и 2×4090 — для пилотов, локальных AI-агентов и RAG-сервисов. Масштабируются горизонтально без смены стеков.
Сайзинг VRAM под реальные профили
Профиль 1 — 8 потоков, 32k контекст, до 2k ответа
- Бюджет VRAM: ~220–260 GB на KV-кэш + 100–200 GB на веса/активации ⇒ ≥380–460 GB.
- Рекомендованный узел: 8× RTX 6000 Pro 96 GB (B).
- Настройки: tp=4, ep=2–4, pp=1; micro-batch: prefill=4–8, decode=16–32; FP8-KV; speculative decoding включён.
Профиль 2 — 32 потока, 64k контекст, до 4k ответа
- Бюджет VRAM: ~400–550 GB на KV + 150–250 GB на веса ⇒ ≥550–800 GB.
- Рекомендованный узел: 16× RTX 4090 48 GB (A).
- Настройки: tp=8–12, ep=4–8, pp=1–2; разнесение prefill/decode по GPU; агрессивный batch-scheduler.
Профиль 3 — 128 потоков, 128k контекст, 4–8k ответы
- Бюджет VRAM: ≈900 GB+ для комфортной работы без жёсткого offload.
- Решение MDM:
- Одиночная 16×4090 (A) с FP8-KV + дозированным offload KV в RAM/SSD, лимит prefill-батча, или
- Два узла: 8×4090 (C) + 8× RTX 6000 Pro 96 GB (B) — маршрутизация длинных запросов на 96 GB-карты.
- Настройки: tp=8–16, ep=8–16, pp=2; speculative decoding; префикс-кэширование; при offload — контроль p95 и p99.
Память и хранилище: что закладывать кроме VRAM
- RAM: от 256–512 GB для 8×GPU и 512–768 GB для 16×GPU — запас под KV-offload, prefill-буферы и индексы RAG.
- NVMe SSD: минимум 4–8 TB быстрых NVMe (PCIe 4/5) под модели, логи и SSD-offload; под длинные контексты планируй 1–2 TB «под кэш».
- NUMA и I/O: привязка процессов к сокетам (numactl), IRQ-балансировка, отдельные NVMe под логи и под offload, высокие очереди (io_uring).
Как выбрать сервер под свой сценарий (краткая карта решений)
| Сценарий / KPI | Рекомендация MDM | Почему это работает |
|---|---|---|
| 8–16 потоков, 32–64k, строгий p95 | 8× RTX 6000 Pro 96 GB | Большой KV на карту, меньше межGPU-трафика, стабильная латентность. |
| 32–64 потока, 64k, «рост без боли» | 16× RTX 4090 48 GB | 768 GB VRAM «в одном месте», гибкие tp/ep, хороший запас для MoE. |
| Бюджетный рост, 32k, много сервисов | 8× RTX 4090 48 GB | Оптимальный $/токен, простая кластеризация, быстрая доставка. |
| Пилот/локальные агенты | 4×/2× RTX 4090 48 GB | Дёшево стартовать, легко масштабировать горизонтально. |
Боевое чек-лист-настроек для vLLM (инференс LLM)
- Форматы: веса FP8/FP4, KV в FP8.
- Память: включи PagedAttention, зафиксируй лимиты на prefill-batch.
- Архитектура: prefill/decode disaggregation (разные воркеры/процессы или группы GPU).
- MoE: ep-шардирование экспертов, минимизация hops между картами.
- Спекуляция: speculative decoding + грамотный scheduler (максимизация Throughput без раздувания p95).
- Offload: RAM/SSD-offload для KV — только под контролем SLO; мониторинг p95/p99 на реальном трафике.
- Сеть: для одной ноды чаще хватает 2×100/200 GbE; при межузловом tp/ep учитывай топологию leaf/spine и бюджет латентности.
Важное про «полную» R1 (671B)
Полная сборка R1 с 128k контекстом — это сотни гигабайт VRAM на веса и терабайтный масштаб под KV-кэш. Для on-prem без специализированных стоек разумная стратегия — дистилляты 14B/32B/70B + инженерия инференса (FP8/FP4, FP8-KV, ep-шардирование, аккуратный offload). Так достигается лучшая стоимость миллиона токенов при близком качественном результате на типичных бизнес-задачах.
Что внедрим вместе с MDM Electronics
- Пилот за 7–10 дней: подбор узла (A/B/C), развёртывание vLLM, профили tp/pp/ep, метрики p95/p99.
- Нагрузочное тестирование: 8/32/128 потоков, 32–128k, отчёт с графиками Throughput/латентности.
- Эксплуатация: мониторинг, быстрый обмен компонентами, обновления ПО, «переезд» на более мощный узел без простоя.
- Интеграция: подключаем к существующим стоекам, стоечным форм-факторам и сетям; помогаем с RAG и агентами.
Итог
- Для DeepSeek R1 на локальном AI-сервере решающим становится бюджет VRAM под KV-кэш.
- 8×96 GB — выбор для стабильной латентности на средних нагрузках и длинном контексте.
- 16×4090 — максимум гибкости и VRAM «сегодня», оптимально для 64–128k и высокой одновременности.
- 8×4090 — лучший баланс цены к производительности при кластерном росте.
Готовы рассчитать точный сайзинг под Ваш трафик и контекст и развернуть локальный сервер для нейросетей «под ключ»: подбор, поставка, установка, настройка ПО, интеграция и сопровождение.