paint-brush
Kubernetes를 사용하여 MinIO 및 Trino를 배포하는 방법~에 의해@minio
4,973 판독값
4,973 판독값

Kubernetes를 사용하여 MinIO 및 Trino를 배포하는 방법

~에 의해 MinIO6m2024/05/23
Read on Terminal Reader

너무 오래; 읽다

AI/ML 및 분석 전반에 걸쳐 상당한 워크로드를 처리할 수 있는 능력을 갖춘 MinIO는 Trino 쿼리 이상을 쉽게 지원합니다.
featured image - Kubernetes를 사용하여 MinIO 및 Trino를 배포하는 방법
MinIO HackerNoon profile picture
0-item
1-item



트리노 (이전의 Presto)는 SQL 데이터베이스가 아닌 SQL 쿼리 엔진입니다. Trino는 SQL 데이터베이스의 스토리지 구성 요소를 피하고 초고속 SQL 쿼리라는 한 가지에만 집중했습니다. Trino는 단지 쿼리 엔진일 뿐이며 데이터를 저장하지 않습니다. 대신 Trino는 다양한 데이터베이스와 상호 작용하거나 객체 스토리지에서 직접 상호 작용합니다. Trino는 사용자가 전달한 SQL 쿼리를 구문 분석 및 분석하고, 데이터 소스가 포함된 쿼리 실행 계획을 생성 및 최적화한 다음, 연결되는 기본 데이터베이스를 지능적으로 쿼리할 수 있는 작업자 노드를 예약합니다.


MinIO는 AI/ML 워크로드, Datalakes의 데이터를 Dremio, Hive, Hudi, StarRocks 또는 기타 12개 이상의 훌륭한 AI/ML 도구 솔루션 등 레이크 하우스에 저장하는 데 자주 사용됩니다. MinIO는 기본 스토리지 계층으로 사용될 때 더 효율적이므로 저장된 데이터의 총 소유 비용이 줄어들고 MinIO에 데이터를 쓰는 추가적인 이점도 얻을 수 있습니다. 불변 , 버전이 매겨진 그리고에 의해 보호됩니다 삭제 코딩 . 또한 데이터를 MinIO 객체 스토리지에 저장하면 다른 클라우드 네이티브 기계 학습 및 분석 애플리케이션에서 사용할 수 있습니다.


이 튜토리얼에서는 Hive Metastore의 메타데이터와 Redis의 테이블 스키마를 활용하는 Trino를 사용하여 Minio에 저장된 대규모 데이터 세트에 분산 SQL 쿼리를 허용하는 응집력 있는 시스템을 배포합니다.

구성요소

다음은 다양한 구성요소와 설정 프로세스에서 해당 구성요소가 수행하는 작업에 대해 설명합니다.


  • Minio: Minio는 일반적으로 Trino에서 분석하는 것과 같은 대규모 데이터 세트를 저장하는 데 사용할 수 있습니다.
  • Hive Metastore : Hive Metastore는 Hive 테이블(예: 테이블 스키마)에 대한 메타데이터를 저장하는 서비스입니다. Trino는 Hive Metastore를 사용하여 데이터세트를 쿼리할 때 테이블의 스키마를 결정할 수 있습니다.
  • Hive Metastore용 PostgreSQL: Hive Metastore용 데이터베이스 백엔드입니다. 메타데이터가 실제로 저장되는 곳입니다.
  • Redis: 이 설정에서는 Redis가 Trino용 테이블 스키마를 저장합니다.
  • Trino: Trino(이전의 Presto)는 고성능 분산 SQL 쿼리 엔진입니다. SQL 데이터베이스, NoSQL 데이터베이스, 심지어 Minio와 같은 객체 스토리지와 같은 다양한 데이터 소스에서 데이터를 쿼리할 수 있습니다.

전제 조건

시작하기 전에 Kubernetes 클러스터 관리에 필요한 도구가 설치되어 있는지 확인하세요.


  • kubectl : Kubernetes 클러스터 관리를 위한 기본 명령줄 도구입니다. 이를 사용하여 클러스터 리소스를 검사, 조작 및 관리할 수 있습니다.
  • helm : Kubernetes용 패키지 관리자입니다. Helm을 사용하면 사전 정의된 차트를 사용하여 클러스터 내에서 애플리케이션을 배포, 업그레이드 및 관리할 수 있습니다.

저장소 복제

Kubernetes에 Trino를 배포하는 데 필요한 리소스에 액세스하려면 특정 GitHub 저장소를 복제하고 적절한 디렉터리로 이동하세요.


 git clone https://github.com/minio/blog-assets.git cd blog-assets/trino-on-kubernetes

Kubernetes 네임스페이스 생성

Kubernetes의 네임스페이스는 애플리케이션을 위한 격리된 환경을 제공합니다. 배포를 캡슐화하기 위해 Trino의 새 네임스페이스를 만듭니다.


 kubectl create namespace trino --dry-run=client -o yaml | kubectl apply -f -

Redis 테이블 정의 비밀

Redis는 Trino에서 사용하는 테이블 스키마를 저장합니다. Kubernetes Secret으로 이러한 스키마를 보호하세요. 다음 명령은 JSON 파일에서 데이터를 소싱하여 일반 비밀을 생성합니다.


 kubectl create secret generic redis-table-definition --from-file=redis/test.json -n trino || true


Helm 저장소 추가

Helm 저장소는 애플리케이션 배포를 단순화하는 사전 패키지된 차트를 제공합니다. Helm 구성에 Bitnami 및 Trino 저장소를 추가합니다.


 helm repo add bitnami https://charts.bitnami.com/bitnami || true helm repo add trino https://trinodb.github.io/charts/ || true

데이터 저장을 위해 MinIO 배포

MinIO 초기화

Trino 네임스페이스 내에서 MinIO를 준비합니다.


 kubectl minio init -n trino

MinIO 테넌트 생성

데이터 스토리지를 위한 다중 테넌트 아키텍처를 설정합니다. 아래 예에서는 4개의 서버, 4개의 스토리지 볼륨, 4GiB 용량을 갖춘 "tenant-1"이라는 테넌트를 생성합니다.


 kubectl minio tenant create tenant-1 --servers 4 --volumes 4 --capacity 4Gi -n trino

Hive Metastore 설정

Trino는 Hive Metastore를 활용하여 테이블 메타데이터를 저장합니다. PostgreSQL을 배포하여 메타데이터를 관리한 다음 Hive Metastore를 설정합니다.

PostgreSQL 설치


 helm upgrade --install hive-metastore-postgresql bitnami/postgresql -n trino -f hive-metastore-postgresql/values.yaml

Hive Metastore 배포

사전 구성된 Helm 차트를 사용하여 Trino 네임스페이스 내에 Hive Metastore를 배포합니다.


 helm upgrade --install my-hive-metastore -n trino -f hive-metastore/values.yaml ./charts/hive-metastore

Kubernetes를 사용하여 MinIO 및 Trino 배포

Trino와 MinIO는 대규모 데이터 세트에 걸쳐 분산 SQL 쿼리를 위한 강력한 조합을 만듭니다. 시스템을 배포하고 구성하려면 다음 단계를 따르세요.

테이블 스키마를 저장하기 위해 Redis 배포

Redis는 향상된 쿼리 성능을 위해 Trino 테이블 스키마를 보관하는 데 사용되는 고속 인 메모리 데이터 저장소입니다. Helm 차트를 사용하여 Trino 네임스페이스에 배포합니다.


 helm upgrade --install my-redis bitnami/redis -n trino -f redis/values.yaml


트리노 배포

MinIO 및 기타 데이터 소스에 연결할 분산 SQL 쿼리 엔진으로 Trino를 배포합니다.


 helm upgrade --install my-trino trino/trino --version 0.7.0 --namespace trino -f trino/values.yaml

배포 확인

Trino 네임스페이스에 Pod를 나열하여 모든 구성 요소가 올바르게 실행되고 있는지 확인합니다.


 kubectl get pods -n trino


보안 검토 및 조정


필요에 따라 보안 설정을 검토하고 조정합니다. S3 연결에 대한 SSL 인증서 유효성 검사를 비활성화하려면 다음 속성을 사용하여 value.yaml 파일의 extraCatalogs 섹션을 업데이트하세요.


 hive.s3.ssl.enabled=false

테스트

MinIO 테넌트 서비스로 포트 전달

테넌트의 MinIO 서비스로 포트를 전달하여 로컬 액세스를 활성화합니다.


 kubectl port-forward svc/minio -n trino 9443:443

Trino용 별칭 및 버킷 생성

1. 별칭 생성: MinIO 배포의 자격 증명을 사용하여 테넌트의 별칭을 설정합니다.


 mc alias set my-minio https://localhost:9443/ minio_access_key minio_secret_key --insecure


2. 버킷 생성: Trino가 사용할 새 버킷을 생성합니다.


 mc mb my-minio/tiny --insecure

포트 전달을 통해 Trino UI에 액세스

1. 포드 이름 얻기: Trino 코디네이터 포드의 이름을 검색합니다.


 export POD_NAME=$(kubectl get pods --namespace trino -l "app=trino,release=my-trino,component=coordinator" -o jsonpath="{.items[0].metadata.name}")


2. 포트 전달: 로컬 포트 8080을 코디네이터 포드로 전달합니다.


 kubectl port-forward $POD_NAME 8080:8080


3. UI 접속: http://127.0.0.1:8080을 방문하여 브라우저에서 Trino UI를 사용하세요.



CLI를 통해 Trino 쿼리

Trino 코디네이터 포드에 액세스하고 명령줄을 통해 쿼리를 시작하세요.


 kubectl exec -it deploy/my-trino-coordinator -n trino -- trino


 SHOW CATALOGS;


 SHOW SCHEMAS IN minio;


 Schema -------------------- default information_schema


 CREATE SCHEMA minio.tiny WITH (location = 's3a://tiny/');


 CREATE TABLE minio.tiny.customer WITH ( format = 'ORC', external_location = 's3a://tiny/customer/' ) AS SELECT * FROM tpch.tiny.customer;


 SELECT * FROM minio.tiny.customer LIMIT 50;


 SHOW SCHEMAS IN minio;


 Schema -------------------- default information_schema tiny (3 rows)


MinIO 버킷의 데이터 확인

버킷을 생성한 후 mc 명령줄 도구를 사용하여 콘텐츠를 나열하여 데이터가 MinIO에 저장되어 있는지 확인합니다. 다음 명령을 사용하십시오.


 mc ls my-minio/tiny --insecure


그것은 그렇게 간단합니다!

마지막 생각들

구성 문제, 특히 보안 관련 문제를 해결할 때 각 구성 요소에 대한 value.yaml 파일을 철저하게 검토하여 적절한 설정을 확인하세요.


Trino는 전문 데이터베이스든 객체 스토리지든 다양한 데이터 계층에서 쿼리를 최적화하는 능력이 뛰어납니다. 필요한 필수 데이터만 검색하기 위해 쿼리를 푸시다운하여 데이터 전송을 최소화하는 것을 목표로 합니다. 이를 통해 Trino는 다양한 소스의 데이터 세트를 결합하고 추가 처리를 수행하거나 정확한 결과를 효율적으로 반환할 수 있습니다.


MinIO는 업계 최고의 확장성과 성능으로 인해 Trino와 매우 잘 어울립니다. AI/ML 및 분석 전반에 걸쳐 상당한 워크로드를 처리할 수 있는 능력을 갖춘 MinIO는 Trino 쿼리 이상을 쉽게 지원합니다. 최근 벤치마크에서 MinIO는 단 32개 노드에서 GET 작업의 경우 325GiB/s(349GB/s), PUT 작업의 경우 165GiB/s(177GB/s)를 달성했습니다. 이러한 뛰어난 성능을 통해 MinIO에 저장된 데이터에 쉽게 액세스할 수 있으므로 MinIO는 병목 현상 없이 Trino를 위한 안정적이고 성능이 뛰어난 선택이 됩니다.


MinIO와 Trino에 대해 궁금한 점이 있으면 다음 주소로 문의해 주세요. 느슨하게 !