Automatic Prefix Caching¶

개요¶

vLLM RBLN은 Automatic Prefix Caching(APC) 기능을 지원합니다. APC는 기존 요청들의 공통 프리픽스(prefix) 구간에 대한 KV 캐시를 활용하는 기능으로, 새로운 요청이 기존 요청과 일부라도 동일한 프리픽스를 갖고 있다면 해당 구간의 계산을 건너뛰어 성능을 향상시킬 수 있습니다.

Automatic Prefix Caching 활성화 방법¶

APC 사용 방식은 vLLM과 동일합니다. APC는 기본적으로 활성화되어있으며, 이를 비활성화하려면 enable_prefix_caching=False로 설정하면 됩니다.

고급 설정: Prefix Cache Hit 단위¶

기본적으로 prefix cache hit 단위는 모델 컴파일 시 지정된 prefill_chunk_size에 의해 결정됩니다. LLM Engine을 초기화할 때 additional_config에서 prefix_block_size를 설정하여 이 단위를 변경할 수 있으며, 이때 prefix_block_size는 prefill_chunk_size의 배수여야 합니다.

아래 예시는 prefill_chunk_size=128로 컴파일된 모델을 기준으로 하며, prefix_block_size는 128의 배수인 256으로 지정합니다.

from vllm import LLM
llm = LLM(
    model=MODEL,
    additional_config={
        "prefix_block_size": 256,
    },
)