Automatic Prefix Caching¶
개요¶
vLLM RBLN은 Automatic Prefix Caching(APC) 기능을 지원합니다. APC는 기존 요청들의 공통 프리픽스(prefix) 구간에 대한 KV 캐시를 활용하는 기능으로, 새로운 요청이 기존 요청과 일부라도 동일한 프리픽스를 갖고 있다면 해당 구간의 계산을 건너뛰어 성능을 향상시킬 수 있습니다.
Automatic Prefix Caching 활성화 방법¶
APC 사용 방식은 vLLM과 동일합니다. APC는 기본적으로 활성화되어있으며, 이를 비활성화하려면 enable_prefix_caching=False로 설정하면 됩니다.
한계¶
현재 APC는 128 토큰 단위로 프리픽스 캐싱이 적용됩니다. 향후 더 다양한 캐싱 단위를 지원할 예정입니다.