튜토리얼¶
아래의 튜토리얼을 통해 RBLN SDK의 사용 방법을 빠르게 파악할 수 있습니다.
RBLN 컴파일러¶
PyTorch와 TensorFlow를 위한 RBLN 파이썬 컴파일/런타임 API 사용 방법을 소개하고 있습니다.
-
PyTorch Resnet50 (Vision)
RBLN 컴파일러의 파이썬 API를 사용하여ResNet50
예제를 통해 토치비전 라이브러리에서 제공하는 파이토치 모델을 컴파일 및 추론할 수 있습니다. -
PyTorch BERT (NLP)
RBLN 컴파일러의 파이썬 API를 사용하여BERT-base
예제를 통해 파이토치 모델을 컴파일 및 추론할 수 있습니다. -
TensorFlow EfficientNetB0 (Vision)
RBLN 컴파일러의 파이썬 API를 사용하여EfficientNet-B0
예제를 통해 TensorFlow 케라스 어플리케이션 라이브러리에서 제공하는 TensorFlow 모델을 컴파일 및 추론할 수 있습니다. -
TensorFlow BERT (NLP)
RBLN 컴파일러의 파이썬 API를 사용하여BERT-base
예제를 통해 TensorFlow 모델을 컴파일 및 추론할 수 있습니다. -
Concurrent Processing
RBLN 런타임을 사용하여 AI 모델을 비동기모드로 실행할 수 있습니다.
RBLN C/C++ 런타임 API¶
RBLN 컴파일러를 활용하여 사전 컴파일된 모델을 추론하기 위한 RBLN C/C++ 런타임 API 사용 방법을 소개합니다.
-
Image Classification
RBLN C/C++ 런타임 API를 사용하여 파이토치ResNet50
모델을 배포할 수 있습니다. -
Object Detection
RBLN C/C++ 런타임 API를 사용하여 파이토치YOLOv8
모델을 배포할 수 있습니다. -
Text Generation
RBLN C/C++ 런타임 API를 사용하여Llama3-8b
모델을 배포할 수 있습니다.
허깅페이스 모델 지원¶
optimum-rbln
을 사용하여 허깅페이스 모델의 컴파일과 모델 추론을 하는 방법을 소개합니다.
-
SDXL-Turbo (Image Generation)
optimum-rbln
을 사용하여SDXL-Turbo
의 컴파일 및 배포를 할 수 있고, 이미지를 생성할 수 있습니다. -
Llama3-8B (Chatbot)
optimum-rbln
을 사용하여 여러개의 RBLN NPU들로Llama3-8B
를 컴파일 및 배포할 수 있습니다.
모델 프로파일링¶
RBLN 런타임으로 모델을 추론할때, 프로파일링과 분석하는 방법을 소개하고 있습니다.
-
모델 프로파일 방법
RBLN 런타임을 사용하여 모델을 추론 할 때 프로피일 할 수 있습니다. -
Perfetto 기반 분석
시각화 도구인 Perfetto를 사용하여 프로파일링 결과를 분석할 수 있습니다. -
YOLOv8 (Object Detection)
YOLOv8l
을 프로파일링 하고, Perfetto를 사용하여 프로파일링 된 결과를 분석할 수 있습니다. -
Stable Diffusion 3 (Image Generation)
stable-diffusion-3-text-to-image
을 프로파일링 하고, Perfetto를 사용하여 프로파일링 된 결과를 분석 할 수 있습니다. -
Llama3-8B (Text Generation)
Llama3-8B
을 프로파일링 하고, Perfetto를 사용하여 프로파일링 된 결과를 분석할 수 있습니다.
모델 서빙¶
vLLM을 지원하는 Nvidia Triton 추론 서버와 TorchServe를 사용하여 컴파일된 AI 모델을 서빙하는 방법을 소개합니다.
-
vLLM 네이티브 API
vllm-rbln
을 활용한 vLLM 네이티브 API를 통해 다양한 LLM들을 서빙할 수 있습니다. -
OpenAI 호환 서버
OpenAI API 호환 서버를 사용하여 vLLM 기반 대형 언어 모델들을 서빙할 수 있습니다. -
Nvidia Triton 추론 서버
Nvidia Triton 추론 서버를 사용하여 대형언어모델들을 서빙할 수 있습니다.