Анатомия LLM – от математики до продакшена
Анатомия LLM — от математики до продакшена — практико-ориентированный курс для разработчиков уровня Middle/Senior, которые хотят системно понять внутреннее устройство больших языковых моделей и уметь самостоятельно строить инфраструктуру обучения и инференса. Курс соединяет строгую математику, архитектурные детали и инженерные практики: …
Overview
Анатомия LLM — от математики до продакшена — практико-ориентированный курс для разработчиков уровня Middle/Senior, которые хотят системно понять внутреннее устройство больших языковых моделей и уметь самостоятельно строить инфраструктуру обучения и инференса. Курс соединяет строгую математику, архитектурные детали и инженерные практики: от линейной алгебры и численных форматов до распределённого тренинга, оптимизаций компиляторов и продакшен-эксплуатации.
Для кого: инженеры, ML/infra-разработчики, лиды, которые готовы углубиться в механику LLM на низком и среднем уровнях абстракции. Предполагается уверенное владение любым ЯП, базовая линейная алгебра, опыт работы с Linux и GPU/облачной инфраструктурой. Математика и код даются без воды — только то, что влияет на производительность, устойчивость обучения и качество модели.
Что вы узнаете:
- Критические математические основы: матрицы/тензоры и операции GEMM, вероятности, энтропия и кросс-энтропия, ландшафты лосса и седловые точки.
- Численные аспекты: IEEE 754, FP16/BF16, ошибки округления, денормалы, NaN/Inf, компенсирующее суммирование, влияние форматов на сходимость и throughput.
- Память и производительность: почему пропускная способность памяти важнее FLOPS, как применять модель Roofline, как измерять и утилизировать bandwidth, профилировать матричные ядра.
- Компиляторы и ядра: CUDA kernels, XLA, TorchInductor, фьюзинг, тюнинг тайлинга и использование тензорных ядер.
- Аппаратная эффективность: метрики GPU/TPU (FLOPS, VRAM, interconnect), PCIe/NVLink/InfiniBand, практики SVD/PCA для сжатия и ускорения.
- Архитектуры: от RNN/LSTM/GRU к трансформерам, механика multi-head attention, позиционные кодировки, residual/LayerNorm/Dropout, KV-cache.
- Инференс и масштабирование: speculative decoding, MoE, State Space Models (S4, Mamba), scaling laws.
- Токенизация, эмбеддинги и скрытые представления: BPE/SentencePiece/byte-level, свойства эмбеддингов, метрики качества.
- Обучение и адаптация: функции потерь, label smoothing, batch/epochs/shuffle, LR schedules (warmup/cosine), gradient clipping, fine-tuning (full/LoRA/adapters), RLHF (reward models, PPO), reward hacking, катастрофическое забывание.
- Отладка и профилирование: диагностика всплесков лосса, анализ градиентов, утечки памяти на GPU, NaN-detection и recovery, устойчивость оптимизаторов.
- Распределёнка и инфраструктура: tensor/pipeline parallel, AllReduce/AllGather, FlashAttention, checkpointing/gradient accumulation, mixed precision, DeepSpeed/FSDP/ZeRO, dataset streaming.
- Инференс-сервера и квантование: vLLM, TGI, INT8/INT4, измерение деградации качества.
- RAG и retrieval: FAISS/Milvus, стратегии чанкинга, гибридный поиск, citation/source tracking, практические пайплайны.
- Интерпретируемость и безопасность: activation patching, probing/Grad-CAM, circuit analysis, knowledge editing, jailbreaking, детекция contamination.
- Продакшен: реальное профилирование и устранение bottlenecks, A/B-тестирование, экономика GPU-часов, мониторинг и триггеры деградации.
Результат: вы сможете обосновывать архитектурные решения и численные форматы, правильно выбирать параллелизм и стратегии обучения, профилировать память и вычисления, проектировать пайплайны RAG, внедрять интерпретируемость и меры безопасности, запускать надежный и экономичный инференс в продакшене.
Curriculum
- 18 Sections
- 79 Lessons
- Lifetime
- 1. Введение в LLM: история, мифы и реальность5
- 2. Линейная алгебра и вероятности для LLM5
- 3. Численные представления: FP16/BF16 и ошибки5
- 4. Память, пропускная способность и профилирование матричных операций5
- 5. Компиляторы и ядра: CUDA, XLA, TorchInductor5
- 6. Производительность GPU/TPU и сжатие: FLOPS, VRAM, PCA/SVD5
- 7. Оптимизация обучения: градиенты, ландшафты, оптимизаторы6
- 8. Архитектуры: от RNN/LSTM/GRU к трансформерам4
- 9. Механика трансформера: attention, позиции, KV-cache6
- 9.1654X 9.1 Multi-Head Self-Attention: формы и сложности
- 9.2654X 9.2 Позиционные кодировки: абсолютные, ротационные
- 9.3654X 9.3 Residual, LayerNorm, Dropout: устойчивость и обучение
- 9.4654X 9.4 KV-cache: принцип, память и скорость
- 9.5654X 9.5 Практикум: mini-transformer в PyTorch
- 9.6654X 9. Quiz3 Questions
- 10. Инференс и масштабирование: speculative, MoE, SSM, scaling laws5
- 11. Токенизация и представления: BPE, SentencePiece, эмбеддинги5
- 12. Обучение и адаптация: лоссы, LR, клиппинг, fine-tune, RLHF7
- 12.1654X 12.1 Функции потерь и label smoothing
- 12.2654X 12.2 Batch, epochs, shuffling и порядок данных
- 12.3654X 12.3 LR warmup и cosine schedules
- 12.4654X 12.4 Gradient clipping: стратегии и практика
- 12.5654X 12.5 Fine-tuning: full, LoRA, adapters
- 12.6654X 12.6 RLHF: reward models, PPO, reward hacking, забывание
- 12.7654X 12. Quiz3 Questions
- 13. Debugging & Profiling: память, NaN, устойчивость6
- 14. Инфраструктура и распределёнка: параллелизм, FlashAttention, ZeRO7
- 14.1654X 14.1 Tensor/pipeline parallel: когда и как
- 14.2654X 14.2 AllReduce/AllGather и коммуникационные издержки
- 14.3654X 14.3 FlashAttention и memory-efficient attention
- 14.4654X 14.4 Checkpointing и gradient accumulation
- 14.5654X 14.5 Mixed precision: FP16/BF16 особенности
- 14.6654X 14.6 DeepSpeed, FSDP, ZeRO и стадии шардирования
- 14.7654X 14. Quiz3 Questions
- 15. RAG и retrieval: индексы, чанкинг, гибридный поиск7
- 15.1654X 15.1 Векторные базы: FAISS, Milvus и индексы
- 15.2654X 15.2 Embedding models для поиска
- 15.3654X 15.3 Стратегии чанкинга и окна контекста
- 15.4654X 15.4 Гибридный поиск: dense + sparse
- 15.5654X 15.5 Citation и source tracking
- 15.6654X 15.6 Практикум: RAG на документации с атрибуцией
- 15.7654X 15. Quiz3 Questions
- 16. Model Internals и интерпретируемость: активации, редактирование, безопасность7
- 16.1654X 16.1 Activation patching: локализация причин
- 16.2654X 16.2 Probing и Grad-CAM для трансформеров
- 16.3654X 16.3 Circuit analysis: анализ «алгоритмов» внутри
- 16.4654X 16.4 Knowledge editing: локальные правки фактов
- 16.5654X 16.5 Jailbreaking и атаки на alignment
- 16.6654X 16.6 Data contamination: обнаружение утечек
- 16.7654X 16. Quiz3 Questions
- 17. Продакшен: профилирование, A/B, стоимость, мониторинг6
- 654X FinalQuiz1