vllm-rbln
vllm-rbln
은 vLLM 라이브러리의 확장으로, vLLM
이 optimum-rbln
과 함께 작동할 수 있도록 수정된 버전입니다. vllm-rbln
은 고객들이 리벨리온의 고성능 NPU를 사용하여 대형 언어 모델(LLMs)을 손쉽게 배포할 수 있도록 다양한 기능을 지원합니다.
설치¶
vllm-rbln
을 설치하기 위해 리벨리온 사설 PyPI 서버의 접근 권한이 필요합니다. 관련 내용은 설치 가이드를 참고 바랍니다. 각 패키지의 최신 버전은 릴리즈 노트에서 확인 할 수 있습니다.
Note
vllm-rbln
패키지는 vllm
패키지와 의존성이 없기 때문에 vllm
패키지를 중복 설치할 경우 vllm-rbln
이 정상적으로 동작하지 않을 수 있습니다. 만약 vllm-rbln
패키지 설치 후 vllm
패키지를 설치했을 경우, vllm-rbln
패키지를 재 설치 해주시기 바랍니다.
튜토리얼¶
사용자가 vllm-rbln
을 쉽게 사용할 수 있도록 튜토리얼을 제공합니다.
vllm-rbln
활용 예제¶
- vLLM 네이티브 API :
vllm-rbln
을 이용한 vLLM 네이티브 API 사용 예시 - OpenAI 호환 서버 :
vllm-rbln
을 활용하여 OpenAI 호환 서버 생성 예시
Nvidia Triton 추론 서버 활용 예제¶
vllm-rbln
은 vLLM 백앤드를 이용한 Nvidia Triton 추론 서버에서도 활용 가능합니다.
- vLLM 백앤드를 이용한 Triton Inference Server :
vllm-rbln
과 Nvidia Triton Inference Server를 사용한 Llama2-7b 서빙 예시