Nvidia Triton 추론 서버¶

Nvidia Triton 추론 서버는 머신러닝 모델을 효과적으로 서빙할 수 있도록 설계 된 오픈소스 소프트웨어입니다. Nvidia Triton 추론 서버를 활용하여, 리벨리온의 고성능 NPU를 기반으로 효율적인 서빙이 가능합니다. vllm-rbln을 이용하여 Continuous Batching 서빙 최적화 기법을 통해 대형 언어 모델(LLM)의 추론 성능을 극대화할 수 있습니다.

시작하기¶

Nvidia Triton Inference Server에서 Python backend와 vLLM backend를 이용하여, 리벨리온 NPU를 기반의 서빙이 가능합니다. RBLN NPU를 효과적으로 이용하기 위해서는 rebel-compiler 패키지가 설치되어 있어야 합니다.

docker 환경에서 Nvidia Triton Inference Server를 이용한 서빙 환경을 고려하고자 하는 경우 rebellions/tritonserver docker image를 이용할 수 있습니다. 관련된 자세한 정보는 Llama3-8B 서빙 튜토리얼 내의 B. Backend.AI 없이 자체 Docker 컨테이너로 시작하기를 참고하시기 바랍니다.

튜토리얼¶

사용자가 Nvidia Triton 추론 서버를 이용할 수 있도록 튜토리얼을 제공합니다.

Resnet50 서빙 : Nvidia Triton 추론 서버를 이용한 Image classification 모델 서빙 예시
YOLOv8 서빙 : Nvidia Triton 추론 서버를 이용한 Object Detection 모델 서빙 예시
Llama3-8B 서빙 : vLLM 백앤드를 이용한 Nvidia Triton Inference Server에서 LLM 모델 서빙 예시
Flash Attention을 이용한 Llama3.1-8B 서빙 : Flash Attention을 적용한 Nvidia Triton Inference Server에서 LLM 모델 서빙 예시