- 9 Sections
- 76 Lessons
- Lifetime
Expand all sectionsCollapse all sections
- 1. Bloque I. Matemáticas, Física y Hardware para LLM16
- 1.1M8IF 1.1 Introducción: qué es un LLM, historia, mitos y realidades
- 1.2M8IF 1.2 Álgebra lineal: matrices, tensores, operaciones en redes neuronales
- 1.3M8IF 1.3 Probabilidad, entropía, entropía cruzada
- 1.4M8IF 1.4 Aritmética de coma flotante: IEEE 754, FP16, BF16, errores numéricos
- 1.5M8IF 1.5 Cuellos de botella en el ancho de banda de memoria: por qué importa más que los FLOPS
- 1.6M8IF 1.6 Optimizaciones de compilador: kernels CUDA, XLA, TorchInductor
- 1.7M8IF 1.7 Rendimiento en GPU/TPU: FLOPS, VRAM, interconexiones
- 1.8M8IF 1.8 PCA, SVD: compresión y representaciones
- 1.9M8IF 1.9 Inestabilidades numéricas: gradientes explosivos/vanishing
- 1.10M8IF 1.10 Paisajes de pérdida y puntos de silla
- 1.11M8IF 1.11 Práctica: implementar tu propio optimizador SGD/Adam
- 1.12M8IF 1.12 Práctica: perfilado de operaciones matriciales
- 1.13M8IF 1.13 Práctica: simulación de entrenamiento en FP16 vs BF16
- 1.14M8IF 1.14 Práctica: medir ancho de banda de memoria en GPU
- 1.15M8IF 1.15 Práctica: pipeline mínimo en PyTorch y detección de cuellos de botella
- 1.16M8IF 1. Quiz3 Questions
- 2. Bloque II. Arquitecturas y Mecánica de los LLM15
- 2.1M8IF 2.1 RNN, LSTM, GRU: la era pre-transformers
- 2.2M8IF 2.2 Attention y seq2seq
- 2.3M8IF 2.3 Arquitectura Transformer: multi-head self-attention
- 2.4M8IF 2.4 Positional encoding
- 2.5M8IF 2.5 KV-cache: mecánica y optimización
- 2.6M8IF 2.6 Speculative decoding: acelerar el inference con modelos pequeños
- 2.7M8IF 2.7 Mixture of Experts (MoE): estrategia de escalado
- 2.8M8IF 2.8 Modelos de espacio de estados (S4, Mamba) como alternativa a Transformers
- 2.9M8IF 2.9 Scaling laws: tamaño vs. calidad
- 2.10M8IF 2.10 Dropout, LayerNorm, residuals
- 2.11M8IF 2.11 Tokenización: BPE, SentencePiece, byte-level
- 2.12M8IF 2.12 Embeddings y representaciones latentes
- 2.13M8IF 2.13 Práctica: construir un mini-transformer en PyTorch
- 2.14M8IF 2.14 Práctica: inference con KV-cache y speculative decoding
- 2.15M8IF 2. Quiz3 Questions
- 3. Bloque III. Entrenamiento y Optimización13
- 3.1M8IF 3.1 Funciones de pérdida y label smoothing
- 3.2M8IF 3.2 Batch, epochs, data shuffling
- 3.3M8IF 3.3 Learning rate warmup y cosine schedules
- 3.4M8IF 3.4 Gradient clipping: estrategias y efectos
- 3.5M8IF 3.5 Data ordering effects: cómo el orden de los batches impacta la convergencia
- 3.6M8IF 3.6 Fine-tuning: full, LoRA, adapters
- 3.7M8IF 3.7 Aprendizaje autosupervisado
- 3.8M8IF 3.8 RLHF: modelos de recompensa y PPO
- 3.9M8IF 3.9 Reward hacking: cómo los modelos engañan al reward
- 3.10M8IF 3.10 Catastrophic forgetting
- 3.11M8IF 3.11 Práctica: fine-tuning de LLaMA/Mistral
- 3.12M8IF 3.12 Práctica: comparación LoRA vs fine-tune completo
- 3.13M8IF 3. Quiz3 Questions
- 4. Bloque IV. Depuración y Perfilado9
- 4.1M8IF 4.1 Diagnóstico de picos en la pérdida
- 4.2M8IF 4.2 Memory profiling: herramientas y fugas de memoria en GPU
- 4.3M8IF 4.3 Análisis de gradientes: normas, neuronas muertas
- 4.4M8IF 4.4 Inestabilidades de entrenamiento: detección y recuperación de NaN
- 4.5M8IF 4.5 Práctica: visualización de gradientes
- 4.6M8IF 4.6 Práctica: perfilado de GPU durante entrenamiento
- 4.7M8IF 4.7 Práctica: depuración de NaN en una sesión de entrenamiento
- 4.8M8IF 4.8 Práctica: comparar optimizadores en estabilidad (Adam vs LAMB vs Lion)
- 4.9M8IF 4. Quiz3 Questions
- 5. Bloque V. Infraestructura y Sistemas Distribuidos11
- 5.1M8IF 5.1 Model parallelism: tensor parallel, pipeline parallel
- 5.2M8IF 5.2 Sobrecarga de comunicación: AllReduce, AllGather
- 5.3M8IF 5.3 Flash Attention y variantes eficientes en memoria
- 5.4M8IF 5.4 Checkpointing y gradient accumulation
- 5.5M8IF 5.5 Mixed precision training: FP16/BF16 y sus problemas
- 5.6M8IF 5.6 DeepSpeed, FSDP, ZeRO
- 5.7M8IF 5.7 Dataset streaming
- 5.8M8IF 5.8 Servidores de inference: vLLM, TGI
- 5.9M8IF 5.9 Práctica: ejecutar LLaMA en vLLM
- 5.10M8IF 5.10 Práctica: quantization (int8, int4) y comparación de calidad
- 5.11M8IF 5. Quiz3 Questions
- 6. Bloque VI. RAG y Recuperación de Información8
- 6.1M8IF 6.1 Bases vectoriales: FAISS, Milvus
- 6.2M8IF 6.2 Modelos de embeddings
- 6.3M8IF 6.3 Estrategias de chunking: dividir documentos
- 6.4M8IF 6.4 Hybrid search: búsqueda densa + dispersa
- 6.5M8IF 6.5 Citation y tracking de fuentes
- 6.6M8IF 6.6 Práctica: RAG sobre documentación
- 6.7M8IF 6.7 Práctica: RAG con atribución de fuentes
- 6.8M8IF 6. Quiz3 Questions
- 7. Bloque VII. Internos del Modelo e Interpretabilidad7
- 7.1M8IF 7.1 Activation patching: edición de estados ocultos
- 7.2M8IF 7.2 Técnicas de interpretabilidad: probing, Grad-CAM en transformers
- 7.3M8IF 7.3 Circuit analysis: algoritmos internos del modelo
- 7.4M8IF 7.4 Knowledge editing: modificación local de hechos
- 7.5M8IF 7.5 Jailbreaking techniques: ataques a alignment
- 7.6M8IF 7.6 Detección de data contamination: fugas en datasets de evaluación
- 7.7M8IF 7. Quiz3 Questions
- 8. Bloque VIII. Proyectos Finales y Producción5
- M8IF FinalQuiz1
M8IF 8. Quiz
Prev