Статьи

DeepSeek R1 on-prem: сколько VRAM/ОЗУ нужно и какую топологию выбрать

Практический гайд по сайзингу DeepSeek R1 on-prem: как посчитать VRAM, RAM и SSD с учётом KV-кэша и длинных контекстов 32–128k, снизить p95-латентность и поднять Throughput на vLLM. Разбираем рабочие топологии tp/pp/ep и даём готовые профили под 8/32/128 потоков на реальных серверах MDM: 16× RTX 4090 48 GB, 8× RTX 6000 Pro 96 GB и 8× RTX 4090 48 GB. Итог — чёткий выбор узла для вашего локального AI-сервера и прогноз стоимости за миллион токенов.

Практический сайзинг для R1: VRAM, RAM, SSD, MoE, микробатчи и длинный контекст — на примерах реальных серверов MDM Electronics.

TL;DR

Главное узкое место — видеопамять (VRAM). На длинных контекстах 50–70% VRAM «съедает» KV-кэш, а не веса модели.
Оптимальная архитектура — vLLM + FP8/FP4 + PagedAttention с аккуратным offload KV в RAM/SSD, если нужно растянуть контекст до 128k без потери SLA.
Три эталон-узла из линейки MDM закрывают 8/32/128 потоков:
1. 8× RTX 6000 Pro 96 GB (баланс и низкая латентность),
2. 16× RTX 4090 48 GB (максимум VRAM «здесь и сейчас»),
3. 8× RTX 4090 48 GB (лучший $/токен и простая масштабируемость).

Задача и допущения

Модель: DeepSeek R1 (и практичные дистиллы 14B/32B/70B для прод-сервисов).
Нагрузка: 8/32/128 одновременных потоков, контекст 32–128k, ответы 2–8k.
Стек инференса: vLLM (PagedAttention, speculative decoding, FP8/FP4 веса, FP8-KV, prefill/decode disaggregation).
Цель: минимизировать p95-латентность и цену миллиона токенов при гарантии стабильного Throughput.

Эталон-конфигурации (из каталога MDM)

A) 16× RTX 4090 48 GB — «всё и сразу»

Итого VRAM: 768 GB. Ориентация: высокие нагрузки, 64–128k контекст, MoE с большим количеством активных экспертов.
Топология: tp=8–12, ep=4–8, pp=1–2.
Когда выбирать: нужен большой запас VRAM в одном узле, низкая p95 при 32–128 потоках и длинных промптах.

B) 8× RTX 6000 Pro 96 GB — «баланс веса и кэша»

Итого VRAM: 768 GB. Ориентация: длинные контексты при умеренной параллельности и минимальном межGPU-трафике.
Топология: tp=4–8, ep=2–4, pp=1.
Когда выбирать: 8–32 потоков, 32–64k контекст, акцент на стабильной латентности и предсказуемости под SLA.

C) 8× RTX 4090 48 GB — «рабочая лошадка под масштабирование»

Итого VRAM: 384 GB. Ориентация: 32k контексты, средняя одновременность, лучший $/токен при горизонтальном масштабировании.
Топология: tp=4–8, ep=2–4, pp=1.
Когда выбирать: старт/рост прод-нагрузки, много однотипных нод в кластере, быстрые пилоты.

Минимальные ступени входа: 4×4090 и 2×4090 — для пилотов, локальных AI-агентов и RAG-сервисов. Масштабируются горизонтально без смены стеков.

Сайзинг VRAM под реальные профили

Профиль 1 — 8 потоков, 32k контекст, до 2k ответа

Бюджет VRAM: ~220–260 GB на KV-кэш + 100–200 GB на веса/активации ⇒ ≥380–460 GB.
Рекомендованный узел: 8× RTX 6000 Pro 96 GB (B).
Настройки: tp=4, ep=2–4, pp=1; micro-batch: prefill=4–8, decode=16–32; FP8-KV; speculative decoding включён.

Профиль 2 — 32 потока, 64k контекст, до 4k ответа

Бюджет VRAM: ~400–550 GB на KV + 150–250 GB на веса ⇒ ≥550–800 GB.
Рекомендованный узел: 16× RTX 4090 48 GB (A).
Настройки: tp=8–12, ep=4–8, pp=1–2; разнесение prefill/decode по GPU; агрессивный batch-scheduler.

Профиль 3 — 128 потоков, 128k контекст, 4–8k ответы

Бюджет VRAM: ≈900 GB+ для комфортной работы без жёсткого offload.
Решение MDM:
- Одиночная 16×4090 (A) с FP8-KV + дозированным offload KV в RAM/SSD, лимит prefill-батча, или
- Два узла: 8×4090 (C) + 8× RTX 6000 Pro 96 GB (B) — маршрутизация длинных запросов на 96 GB-карты.
Настройки: tp=8–16, ep=8–16, pp=2; speculative decoding; префикс-кэширование; при offload — контроль p95 и p99.

Память и хранилище: что закладывать кроме VRAM

RAM: от 256–512 GB для 8×GPU и 512–768 GB для 16×GPU — запас под KV-offload, prefill-буферы и индексы RAG.
NVMe SSD: минимум 4–8 TB быстрых NVMe (PCIe 4/5) под модели, логи и SSD-offload; под длинные контексты планируй 1–2 TB «под кэш».
NUMA и I/O: привязка процессов к сокетам (numactl), IRQ-балансировка, отдельные NVMe под логи и под offload, высокие очереди (io_uring).

Как выбрать сервер под свой сценарий (краткая карта решений)

Сценарий / KPI	Рекомендация MDM	Почему это работает
8–16 потоков, 32–64k, строгий p95	8× RTX 6000 Pro 96 GB	Большой KV на карту, меньше межGPU-трафика, стабильная латентность.
32–64 потока, 64k, «рост без боли»	16× RTX 4090 48 GB	768 GB VRAM «в одном месте», гибкие tp/ep, хороший запас для MoE.
Бюджетный рост, 32k, много сервисов	8× RTX 4090 48 GB	Оптимальный $/токен, простая кластеризация, быстрая доставка.
Пилот/локальные агенты	4×/2× RTX 4090 48 GB	Дёшево стартовать, легко масштабировать горизонтально.

Боевое чек-лист-настроек для vLLM (инференс LLM)

Форматы: веса FP8/FP4, KV в FP8.
Память: включи PagedAttention, зафиксируй лимиты на prefill-batch.
Архитектура: prefill/decode disaggregation (разные воркеры/процессы или группы GPU).
MoE: ep-шардирование экспертов, минимизация hops между картами.
Спекуляция: speculative decoding + грамотный scheduler (максимизация Throughput без раздувания p95).
Offload: RAM/SSD-offload для KV — только под контролем SLO; мониторинг p95/p99 на реальном трафике.
Сеть: для одной ноды чаще хватает 2×100/200 GbE; при межузловом tp/ep учитывай топологию leaf/spine и бюджет латентности.

Важное про «полную» R1 (671B)

Полная сборка R1 с 128k контекстом — это сотни гигабайт VRAM на веса и терабайтный масштаб под KV-кэш. Для on-prem без специализированных стоек разумная стратегия — дистилляты 14B/32B/70B + инженерия инференса (FP8/FP4, FP8-KV, ep-шардирование, аккуратный offload). Так достигается лучшая стоимость миллиона токенов при близком качественном результате на типичных бизнес-задачах.

Что внедрим вместе с MDM Electronics

Пилот за 7–10 дней: подбор узла (A/B/C), развёртывание vLLM, профили tp/pp/ep, метрики p95/p99.
Нагрузочное тестирование: 8/32/128 потоков, 32–128k, отчёт с графиками Throughput/латентности.
Эксплуатация: мониторинг, быстрый обмен компонентами, обновления ПО, «переезд» на более мощный узел без простоя.
Интеграция: подключаем к существующим стоекам, стоечным форм-факторам и сетям; помогаем с RAG и агентами.

Итог

Для DeepSeek R1 на локальном AI-сервере решающим становится бюджет VRAM под KV-кэш.
8×96 GB — выбор для стабильной латентности на средних нагрузках и длинном контексте.
16×4090 — максимум гибкости и VRAM «сегодня», оптимально для 64–128k и высокой одновременности.
8×4090 — лучший баланс цены к производительности при кластерном росте.

Готовы рассчитать точный сайзинг под Ваш трафик и контекст и развернуть локальный сервер для нейросетей «под ключ»: подбор, поставка, установка, настройка ПО, интеграция и сопровождение.