성능

개요
개요
시작하기
시작하기
- 설치 가이드
- 링크
튜토리얼
튜토리얼
- 기본
  기본
- 고급
  고급
  - 동시실행(Concurrent Procesing)
소프트웨어
소프트웨어
- API
  API
  - API 개요
  - 파이썬 API
  - 언어 바인딩
    언어 바인딩
    
    C/C++
    C/C++
    
    설치
    
    튜토리얼
    튜토리얼
    
    이미지 분류
    
    객체 인식
    
    API
- 허깅페이스 모델 지원
  허깅페이스 모델 지원
  - Optimum RBLN
  - 설치
  - 튜토리얼
    튜토리얼
    
    SDXL-turbo (이미지 생성)
    
    Llama2-7B (챗봇)
  - 모델 API
- 모델 서빙(Model Serving)
  모델 서빙(Model Serving)
  - RBLNServe (모델 서버)
  - vLLM 지원
    vLLM 지원
    
    vllm-rbln
    
    튜토리얼
    튜토리얼
    
    vLLM 네이티브 API
    
    OpenAI 호환 서버
  - Nvidia Triton 추론 서버 지원
    Nvidia Triton 추론 서버 지원
    
    Nvidia Triton 추론 서버
    
    튜토리얼
    튜토리얼
    
    Resnet50 서빙
    
    Continuous Batching을 이용한 Llama2-7B 서빙
- RBLN 프로파일러
  RBLN 프로파일러
  - 개요
  - RBLN NPU 아키텍쳐
  - 프로파일링
  - Perfetto
    Perfetto
    
    소개
    
    분석 방법
    
    대규모 모델 시각화
  - Examples
    Examples
    
    YOLOv8 (객체 탐지)
    
    Stable Diffusion 3 (이미지 생성)
    
    Llama3-8B (텍스트 생성)
- 그 외
  그 외
  - 쿠버네티스 지원
  - 도구
기타
기타
- 모델주(Model Zoo)
  모델주(Model Zoo)
  - 파이토치
  - 텐서플로우
- 지원하는 연산
  지원하는 연산
  - 파이토치
  - 텐서플로우
- 문제해결
ATOM
ATOM

성능¶

리벨리온 ATOM NPU 및 추론용으로 널리 사용되고 있는 GPU, NPU 가속기의 요약된 성능을 확인할 수 있습니다. 아래 테이블의 모든 성능 기록은 MLPerf^TM Inference v3.0 공식 결과를 기반으로 작성되었습니다.

비전 모델 / ResNet50

Vendor	Accelerator	Single Stream Latency	Relative Latency
Rebellions	RBLN ATOM	0.239 ms	x1.0
Qualcomm	Cloud AI100	0.336 ms	x1.4
Nvidia	A2 (Ampere)	0.713 ms	x3.0
Nvidia	T4 (Turing)	0.818 ms	x3.4

언어 모델 / BERT-Large

Vendor	Accelerator	Single Stream Latency	Relative Latency
Rebellions	RBLN ATOM	4.297 ms	x1.0
Qualcomm	Cloud AI100	7.547 ms	x1.8
Nvidia	A2 (Ampere)	8.506 ms	x2.0
Nvidia	T4 (Turing)	6.093 ms	x1.4

더 자세한 내용은 MLPerf^TM Inference v3.0 공식 홈페이지를 참고하시기 바랍니다.