attn_implementation= sdpa vs flash_attention_2

SON·2026년 3월 9일

쉽게 말하면,

sdpa = PyTorch가 제공하는 공식 어텐션 API/백엔드 경로
flash_attention_2 = Dao-AILab의 외부 FlashAttention-2 커스텀 구현을 직접 쓰는 방식

입니다. Transformers 문서도 attn_implementation으로 "sdpa"는 F.scaled_dot_product_attention를, "flash_attention_2"는 Dao-AILab flash-attention 패키지를 쓴다고 설명합니다. 그리고 torch>=2.1.1에서는 기본적으로 SDPA가 사용될 수 있다고 적혀 있어요. (Hugging Face)

조금 더 풀어서 말하면:

sdpa는 PyTorch 안에 있는 표준 창구예요.
코드에서는 그냥 scaled_dot_product_attention를 호출하고, 내부적으로 PyTorch가 상황에 따라 어떤 커널을 쓸지 선택할 수 있습니다. PyTorch 문서에도 SDPA는 여러 backend를 가질 수 있고, sdpa_kernel로 backend를 고를 수 있다고 나옵니다. 가능한 backend enum에는 FLASH_ATTENTION, EFFICIENT_ATTENTION, MATH, CUDNN_ATTENTION 등이 있습니다. 즉 sdpa는 하나의 단일 알고리즘 이름이라기보다, PyTorch의 통합 인터페이스에 가깝습니다. (PyTorch Documentation)

반면 flash_attention_2는 외부 패키지 flash_attn이 반드시 설치되어 있어야 하는 직접 지정 방식입니다. Transformers가 이 옵션을 받으면 Dao-AILab 구현을 쓰려 하고, 네 로그처럼 패키지가 없으면 바로 ImportError가 납니다. Hugging Face 문서도 FlashAttention-2 사용 시 관련 패키지 설치가 필요하고, fp16 또는 bf16 dtype에서 사용해야 한다고 안내합니다. (Hugging Face)

차이를 한 줄로 정리하면:

sdpa: 설치가 더 쉽고, PyTorch 기본 경로라서 가장 무난
flash_attention_2: 잘 맞으면 더 빠르거나 메모리 효율이 좋을 수 있지만, 설치/호환 조건이 더 까다로움 (PyTorch Documentation)

네 상황에서는 왜 sdpa를 추천했냐면,
지금은 flash_attn 설치가 안 끝난 상태라서 flash_attention_2를 강제로 쓰면 모델이 아예 로드되지 않아요. 반대로 sdpa는 PyTorch 쪽 기능이라 추가 외부 패키지 없이 바로 돌아갈 가능성이 높습니다. 이건 네 현재 환경에서 가장 현실적인 우회 방법이에요. (Hugging Face)

체감 차이는 보통 이렇게 이해하면 됩니다.