LLM in a Flash: Efficient LLM Inference with Limited Memory

📰 Hacker News · ghshephard

LLM in a Flash: Efficient LLM Inference with Limited Memory. 53 comments, 252 points on Hacker News.

Published 20 Dec 2023