콘텐츠로 이동

Automatic Prefix Caching

개요

vLLM RBLN은 Automatic Prefix Caching(APC) 기능을 지원합니다. APC는 기존 요청들의 공통 프리픽스(prefix) 구간에 대한 KV 캐시를 활용하는 기능으로, 새로운 요청이 기존 요청과 일부라도 동일한 프리픽스를 갖고 있다면 해당 구간의 계산을 건너뛰어 성능을 향상시킬 수 있습니다.

Automatic Prefix Caching 활성화 방법

APC 사용 방식은 vLLM과 동일합니다. APC는 기본적으로 활성화되어있으며, 이를 비활성화하려면 enable_prefix_caching=False로 설정하면 됩니다.

고급 설정: Prefix Cache Hit 단위

기본적으로 prefix cache hit 단위는 모델 컴파일 시 지정된 prefill_chunk_size에 의해 결정됩니다. LLM Engine을 초기화할 때 additional_config에서 prefix_block_size를 설정하여 이 granularity를 변경할 수 있으며, 이때 prefix_block_sizeprefill_chunk_size의 배수여야 합니다.

1
2
3
4
5
6
7
from vllm import LLM
llm = LLM(
    model=MODEL,
    additional_config={
        "prefix_block_size": 64,
    },
)