KAIST XAI Tutorial 2025 | Recent Trends in LLMs Interpretability | Prof. Nari Kim (KAIST XAI Center)
Mechanistic Interpretability(MI) is a research paradigm aimed at achieving a causal, component-level understanding of how neural networks operate. This lecture will introduce three major MI methodologies: SAE (Sparse Autoencoders), Transcoder, and Model Diffing. We will conclude by exploring technical limitations and future research challenges of Mechanistic Interpretability.
기계적 해석 가능성 (Mechanistic Interpretability, MI)은 모델 내부의 특정 신경 회로(neural circuits)를 식별하여, 모델이 작동하는 방식을 인과적으로 규명하는 것을 목표로 하는 연구 패러다임입니다. 본 강연에서는 MI의 주요 접근법인 SAE, Transcoder, Model Diffing 세 가지를 소개합니다. 또한, 기계적 해석 가능성이 가진 기술적 …
Watch on YouTube ↗
(saves to browser)
DeepCamp AI