The Odd Geometry Behind GPT’s Ability to Remember

Name: The Odd Geometry Behind GPT’s Ability to Remember
Uploaded: 2026-01-18T16:00:32+00:00
Channel: ML Guy
Description: Large language models were never designed to handle very long sequences. Classic Transformers rely on absolute positional embeddings, which break once y...

ML Guy · Intermediate ·🧠 Large Language Models ·2mo ago

Large language models were never designed to handle very long sequences. Classic Transformers rely on absolute positional embeddings, which break once you go beyond the context lengths seen during training. And yet modern models like LLaMA can reason over tens, even hundreds of thousands of tokens. So what changed? In this video, we dive deep into Rotary Positional Embeddings (RoPE), the geometric trick that allows modern LLMs to generalize to long context windows without exploding parameters or breaking attention. You’ll learn: - Why absolute positional embeddings fail for long sequen…

Watch on YouTube ↗ (saves to browser)

Next Up

5 Levels of AI Agents - From Simple LLM Calls to Multi-Agent Systems

Dave Ebbelaar (LLM Eng)