RBLN NPU Operator Installation Guide for OpenShift¶
개요¶
OpenShift Container Platform은 Red Hat의 오픈소스 기술 스택을 기반으로 한 엔터프라이즈급 Kubernetes 컨테이너 플랫폼입니다.
본 가이드는 OpenShift Container Platform에서 RBLN NPU Operator를 설치하고 구성하는 방법을 설명합니다. OpenShift를 통해 보안, 안정성, 확장성이 요구되는 엔터프라이즈 환경에서 RBLN NPU를 손쉽게 프로비저닝하고 관리할 수 있습니다.
RBLN NPU Operator는 Kubernetes 오퍼레이터 프레임워크를 활용하여 RBLN NPU 프로비저닝에 필요한 모든 Rebellions 소프트웨어 컴포넌트의 배포와 라이프사이클 관리를 자동화합니다. 이 컴포넌트에는 드라이버 매니저, 디바이스 플러그인, 컨테이너 툴킷, NPU 기능 탐지기를 통한 자동 노드 레이블링, Prometheus 기반 메트릭 게시자 등이 포함됩니다.
해당 오퍼레이터는 OpenShift 에코시스템의 인증된 오퍼레이터로 제공되며, OLM(Operator Lifecycle Manager)을 통해 설치 및 관리할 수 있어 기존 클러스터 운영과 원활하게 통합됩니다.
자세한 내용은 CLOUD-NATIVE SUPPORT > Kubernetes Support > RBLN NPU Operator를 참고하세요.
사전 요구사항¶
단계를 진행하기 전에 다음을 확인하세요:
- OpenShift Container Platform 4.19–4.20 (검증된 버전)
- RBLN NPU가 장착된 워커 노드 하나 이상
- cluster-admin 권한
- OpenShift CLI(oc) 설치 및 설정 완료
Node Feature Discovery Operator 설치¶
Node Feature Discovery(NFD)는 Kubernetes가 각 노드의 하드웨어 기능을 감지하고 라벨로 노출할 수 있도록 합니다.
RBLN NPU Operator는 이 라벨을 통해 NPU가 장착된 노드를 식별하고 컴포넌트를 스케줄링합니다. NFD가 없으면 Kubernetes는 NPU가 있는 노드와 일반 노드를 구분할 수 없습니다.
설치 단계는 Red Hat 공식 문서를 참고하세요: Node Feature Discovery Operator – Red Hat OpenShift Container Platform 4.20
RBLN NPU 감지 확인¶
Rebellions NPU는 PCI vendor ID 1eff로 식별됩니다.
NPU가 장착된 노드에 라벨이 적용되었는지 확인합니다:
예상 출력:
전체 노드를 한 번에 확인하려면:
라벨이 없는 경우 다음을 확인하세요: - NFD가 설치되어 실행 중인지 확인 - 호스트 시스템에서 NPU가 인식되는지 확인
커널 부트 파라미터 설정¶
RBLN NPU Operator를 설치하기 전에, RBLN NPU가 정상적으로 동작하도록 커널 부트 파라미터를 설정해야 합니다. 이 파라미터는 OpenShift 환경에서 안정적인 NPU 운용을 위해 필수적입니다.
파라미터는 OpenShift MachineConfig Operator(MCO)를 통해 적용합니다. 전체 절차는 커널 파라미터 튜닝 가이드를 참고하세요.
RBLN NPU Operator 설치¶
RBLN NPU Operator를 설치하면 드라이버, 디바이스 플러그인, 모니터링 도구를 포함한 모든 NPU 관련 컴포넌트를 클러스터 전반에서 관리하는 컨트롤러가 배포됩니다. 오퍼레이터는 OpenShift 웹 콘솔(OLM) 또는 CLI를 통해 설치할 수 있습니다.
이미지 풀 시크릿 필요
설치 전에 repo.rebellions.ai 인증을 위한 docker-registry 시크릿을 먼저 생성해야 합니다.
자세한 내용은 이미지 풀 시크릿 생성을 참고하세요.
웹 콘솔을 통한 설치¶
- OpenShift 웹 콘솔에서 Operators > OperatorHub로 이동합니다.
- All Projects를 선택합니다.
- RBLN Operator > RBLN NPU Operator를 검색하여 선택합니다.
- Install Operator 페이지에서 다음 옵션을 설정합니다:
- Update channel:
stable - Version:
0.3.1 - Installed Namespace:
rbln-system(권장)
- Update channel:
- Install을 클릭합니다.
CLI를 통한 설치¶
-
RBLN NPU Operator를 위한 네임스페이스를 생성합니다:
-
OperatorGroupCR을 생성하고rbln-npu-operatorgroup.yaml로 저장합니다: -
rbln-npu-operator패키지 매니페스트에서 기본 채널과 현재 CSV를 가져옵니다: -
위 변수를 사용하여
SubscriptionCR을 생성하고rbln-npu-subscription.yaml로 저장합니다: -
Install Plan이 생성되었는지 확인합니다:
RBLNClusterPolicy 인스턴스 생성¶
RBLNClusterPolicy는 오퍼레이터가 클러스터 전반에서 NPU 관련 컴포넌트를 구성하는 방식을 정의합니다. 배포할 컴포넌트와 사용할 컨테이너 이미지를 포함합니다.
생성된 clusterpolicy.json에는 각 컴포넌트(Device Plugin, Driver Manager, Metrics Exporter 등)의 컨테이너 이미지 버전이 포함되어 있습니다.
컴포넌트 이미지 버전
적용 전에 컨테이너 이미지 버전이 최신 릴리즈와 일치하는지 확인하세요. 권장 컴포넌트 버전은 Release Notes를 참고하세요.
RBLNDriver 인스턴스 생성¶
RBLNDriver 리소스는 각 대상 노드에 NPU 드라이버를 배포합니다.
드라이버는 운영체제가 NPU 하드웨어와 통신할 수 있도록 하며, 워크로드가 디바이스를 사용하기 위해 반드시 필요합니다.
생성된 driver.json에는 드라이버 컨테이너 이미지 버전이 포함되어 있습니다.
드라이버 이미지 버전
적용 전에 드라이버 버전이 최신 릴리즈와 일치하는지 확인하세요. 권장 드라이버 버전은 Release Notes를 참고하세요.
설치 확인¶
오퍼레이터 설치 후, 필요한 리소스와 컴포넌트가 올바르게 배포되었는지 확인합니다.
RBLNClusterPolicy와 RBLNDriver 리소스가 생성되었는지 확인합니다:
rbln-system 네임스페이스의 모든 파드가 실행 중인지 확인합니다:
