Nvidia Triton 추론 서버
Nvidia Triton 추론 서버는 머신러닝 모델을 효과적으로 서빙할 수 있도록 설계 된 오픈소스 소프트웨어입니다. Nvidia Triton 추론 서버를 활용하여, 리벨리온의 고성능 NPU를 기반으로 효율적인 서빙이 가능합니다. vllm-rbln
을 이용하여 Continuous Batching 서빙 최적화 기법을 통해 대형 언어 모델(LLM)의 추론 성능을 극대화할 수 있습니다.
시작하기¶
Nvidia Triton Inference Server에서 Python backend와 vLLM backend를 이용하여, 리벨리온 NPU를 기반의 서빙이 가능합니다. RBLN NPU를 효과적으로 이용하기 위해서는 rebel-compiler
패키지가 설치되어 있어야 합니다.
docker 환경에서 Nvidia Triton Inference Server를 이용한 서빙 환경을 고려하고자 하는 경우 rebellions/tritonserver
docker image를 이용할 수 있습니다. 관련된 자세한 정보는 Continuous Batching을 이용한 Llama2-7B 서빙
튜토리얼 내의 B. Backend.AI 없이 자체 Docker 컨테이너로 시작하기를 참고하시기 바랍니다.
튜토리얼¶
사용자가 Nvidia Triton 추론 서버를 이용할 수 있도록 튜토리얼을 제공합니다.
- Resnet50 서빙 : Nvidia Triton 추론 서버를 이용한 Resnet50 서빙 예시
- Continuous Batching을 이용한 Llama2-7B 서빙 : vLLM 백앤드를 이용한 Nvidia Triton Inference Server에서 Llama2-7B 서빙 예시