blog

Notes on language models and beyond.

Multimodal Tokenization with Vector Quantization: A Review

From VQ-VAE to lookup-free quantization—a systematic review of codebook learning, residual/hierarchical quantization, and generation architectures for multimodal tokenization.

49 min read · June 24, 2024

2024 · Tokenization Multimodality LMM · LMM Tokenization
Memory-Efficient Attention: MHA vs. MQA vs. GQA vs. MLA

Efficient attention variants (MHA, MQA, GQA, MLA)—memory, speed, and expressivity trade-offs for scaling transformers.

16 min read · May 10, 2024

2024 · Transformer Attention · Transformer Attention
Positional Encoding in Transformers: From Sinusoidal to RoPE

A survey of positional encoding in transformers—sinusoidal PE, RoPE, T5 bias, ALiBi, KERPLE, xPos, Sandwich, interpolation, and NTK-scaled RoPE—with implementations and references.

56 min read · January 26, 2023

2023 · Transformer · Transformer
Diffusion Models: A Mathematical Guide from Scratch

A mathematical walkthrough of Gaussian and categorical diffusion—from forward noise, reverse denoising, and ELBO to classifier guidance and discrete D3PM.

22 min read · December 12, 2022

2022 · diffusion-models machine-learning generative-models · machine-learning
Efficient Distributed Training: From DP to ZeRO and FlashAttention

A practical guide to distributed training—data/tensor/pipeline/sequence parallelism, ZeRO, FSDP, mixed precision, and FlashAttention—with formulations and implementations.

10 min read · April 17, 2022

2022 · Transformer machine-learning LMM · machine-learning