1. DeepSeek-V3.2 Sparse Attention

- MLA 구조에 Lightning Indexer를 별도로 학습해 Top-K 토큰만 선별해서 attention 수행
- (의견) GQA에 해도 되는데 compressed vector가 아니라서 메모리 부하가 좀 있을 수도
Framework Support
2. Native Sparse Attention (DeepSeek)

- 총 세 개 종류의 attention을 태우고 gate score로 합치는 방식
- compressed attn: compressed block과 attention
- selected attn: compressed block을 사용해 importance score → topk select
- sliding attn: sliding window
- kv compression MLP + gating 모듈이 추가됨
Framework Support