콘텐츠로 이동

vllm-rbln

vllm-rblnvLLM 라이브러리의 확장으로, vLLMoptimum-rbln과 함께 작동할 수 있도록 수정된 버전입니다. vllm-rbln은 고객들이 리벨리온의 고성능 NPU를 사용하여 대형 언어 모델(LLMs)을 손쉽게 배포할 수 있도록 다양한 기능을 지원합니다. 다음 표에 현재 vllm-rbln이 지원하는 모델 목록이 나열되어 있습니다.

Architecture Example Model Code
RBLNLlamaForCausalLM Llama-2/3
RBLNGemmaForCausalLM Gemma
RBLNPhiForCausalLM Phi-2
RBLNGPT2LMHeadModel GPT2
RBLNMidmLMHeadModel Mi:dm
RBLNMistralForCausalLM Mistral
RBLNExaoneForCausalLM EXAONE-3/3.5
RBLNQwen2ForCausalLM Qwen2/2.5
RBLNBartForConditionalGeneration BART
RBLNT5ForConditionalGeneration T5
RBLNLlavaNextForConditionalGeneration LlaVa-Next
RBLNQwen2_5_VLForConditionalGeneration Qwen2.5-VL
RBLNIdefics3ForConditionalGeneration Idefics3
RBLNT5EncoderModel T5Encoder-based
RBLNBertModel BERT
RBLNRobertaForSequenceClassification RoBERTa
RBLNRobertaModel RoBERTa
RBLNXLMRobertaForSequenceClassification XLM-RoBERTa
RBLNXLMRobertaModel XLM-RoBERTa

설치

vllm-rbln을 설치하기 위해 리벨리온 사설 PyPI 서버의 접근 권한이 필요합니다. 관련 내용은 설치 가이드를 참고 바랍니다. 각 패키지의 최신 버전은 릴리즈 노트에서 확인 할 수 있습니다.

$ pip3 install -i https://pypi.rbln.ai/simple/ vllm-rbln

Note

vllm-rbln 패키지는 vllm 패키지와 의존성이 없기 때문에 vllm 패키지를 중복 설치할 경우 vllm-rbln이 정상적으로 동작하지 않을 수 있습니다. 만약 vllm-rbln 패키지 설치 후 vllm 패키지를 설치했을 경우, vllm-rbln 패키지를 재 설치 해주시기 바랍니다.

튜토리얼

사용자가 vllm-rbln을 쉽게 사용할 수 있도록 튜토리얼을 제공합니다.

vllm-rbln 활용 예제

Nvidia Triton 추론 서버 활용 예제

vllm-rbln은 vLLM 백앤드를 이용한 Nvidia Triton 추론 서버에서도 활용 가능합니다.