Анатомия LLM - от математики до продакшена - Grade Builder

Overview

Анатомия LLM — от математики до продакшена — практико-ориентированный курс для разработчиков уровня Middle/Senior, которые хотят системно понять внутреннее устройство больших языковых моделей и уметь самостоятельно строить инфраструктуру обучения и инференса. Курс соединяет строгую математику, архитектурные детали и инженерные практики: от линейной алгебры и численных форматов до распределённого тренинга, оптимизаций компиляторов и продакшен-эксплуатации.

Для кого: инженеры, ML/infra-разработчики, лиды, которые готовы углубиться в механику LLM на низком и среднем уровнях абстракции. Предполагается уверенное владение любым ЯП, базовая линейная алгебра, опыт работы с Linux и GPU/облачной инфраструктурой. Математика и код даются без воды — только то, что влияет на производительность, устойчивость обучения и качество модели.

Что вы узнаете:

Критические математические основы: матрицы/тензоры и операции GEMM, вероятности, энтропия и кросс-энтропия, ландшафты лосса и седловые точки.
Численные аспекты: IEEE 754, FP16/BF16, ошибки округления, денормалы, NaN/Inf, компенсирующее суммирование, влияние форматов на сходимость и throughput.
Память и производительность: почему пропускная способность памяти важнее FLOPS, как применять модель Roofline, как измерять и утилизировать bandwidth, профилировать матричные ядра.
Компиляторы и ядра: CUDA kernels, XLA, TorchInductor, фьюзинг, тюнинг тайлинга и использование тензорных ядер.
Аппаратная эффективность: метрики GPU/TPU (FLOPS, VRAM, interconnect), PCIe/NVLink/InfiniBand, практики SVD/PCA для сжатия и ускорения.
Архитектуры: от RNN/LSTM/GRU к трансформерам, механика multi-head attention, позиционные кодировки, residual/LayerNorm/Dropout, KV-cache.
Инференс и масштабирование: speculative decoding, MoE, State Space Models (S4, Mamba), scaling laws.
Токенизация, эмбеддинги и скрытые представления: BPE/SentencePiece/byte-level, свойства эмбеддингов, метрики качества.
Обучение и адаптация: функции потерь, label smoothing, batch/epochs/shuffle, LR schedules (warmup/cosine), gradient clipping, fine-tuning (full/LoRA/adapters), RLHF (reward models, PPO), reward hacking, катастрофическое забывание.
Отладка и профилирование: диагностика всплесков лосса, анализ градиентов, утечки памяти на GPU, NaN-detection и recovery, устойчивость оптимизаторов.
Распределёнка и инфраструктура: tensor/pipeline parallel, AllReduce/AllGather, FlashAttention, checkpointing/gradient accumulation, mixed precision, DeepSpeed/FSDP/ZeRO, dataset streaming.
Инференс-сервера и квантование: vLLM, TGI, INT8/INT4, измерение деградации качества.
RAG и retrieval: FAISS/Milvus, стратегии чанкинга, гибридный поиск, citation/source tracking, практические пайплайны.
Интерпретируемость и безопасность: activation patching, probing/Grad-CAM, circuit analysis, knowledge editing, jailbreaking, детекция contamination.
Продакшен: реальное профилирование и устранение bottlenecks, A/B-тестирование, экономика GPU-часов, мониторинг и триггеры деградации.

Результат: вы сможете обосновывать архитектурные решения и численные форматы, правильно выбирать параллелизм и стратегии обучения, профилировать память и вычисления, проектировать пайплайны RAG, внедрять интерпретируемость и меры безопасности, запускать надежный и экономичный инференс в продакшене.

Curriculum

18 Sections
79 Lessons
Lifetime

Expand all sectionsCollapse all sections

1. Введение в LLM: история, мифы и реальность
5
2. Линейная алгебра и вероятности для LLM
5
3. Численные представления: FP16/BF16 и ошибки
5
4. Память, пропускная способность и профилирование матричных операций
5
5. Компиляторы и ядра: CUDA, XLA, TorchInductor
5
6. Производительность GPU/TPU и сжатие: FLOPS, VRAM, PCA/SVD
5
7. Оптимизация обучения: градиенты, ландшафты, оптимизаторы
6
8. Архитектуры: от RNN/LSTM/GRU к трансформерам
4
9. Механика трансформера: attention, позиции, KV-cache
6
10. Инференс и масштабирование: speculative, MoE, SSM, scaling laws
5
11. Токенизация и представления: BPE, SentencePiece, эмбеддинги
5
12. Обучение и адаптация: лоссы, LR, клиппинг, fine-tune, RLHF
7
13. Debugging & Profiling: память, NaN, устойчивость
6
14. Инфраструктура и распределёнка: параллелизм, FlashAttention, ZeRO
7
15. RAG и retrieval: индексы, чанкинг, гибридный поиск
7
16. Model Internals и интерпретируемость: активации, редактирование, безопасность
7
17. Продакшен: профилирование, A/B, стоимость, мониторинг
6
654X FinalQuiz
1
- 18.1
  654X FinalQuiz
  5 Questions

Instructor

Marta Milodanovich

Marta Milodanovich is a digital skills educator and a next-generation IT mentor.
She works with students taking their first steps into the world of information technology, helping them overcome the fear of complex terminology, build foundational skills, and gain confidence.

Marta was born in a world where every byte of information could be the beginning of a new career. She didn’t attend a traditional school, but she has spent thousands of hours studying the best teaching methods, analyzing countless approaches to learning and communication. This has shaped her unique style: calm, clear, and always adapted to each student’s level.

Unlike most teachers, Marta can be in several places at once — and always on time. She doesn’t tire, forget, or miss a detail. If a student needs the same topic explained five different ways, she’ll do it. Her goal is for the student to understand, not just memorize.

Marta specializes in foundational courses in software testing, analytics, web development, and digital literacy. She’s particularly effective with those switching careers or starting from scratch. Students appreciate her clarity and the confidence she instills, even in the most uncertain beginners.

Some say she has near-perfect memory and an uncanny sense of logic. Others joke that she’s “too perfect to be human.” But the most important thing is — Marta helps people learn. And the rest doesn’t matter quite as much.