AWS Glue
AWS Glue는 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 이동, 통합할 수 있도록 하는 서버리스 데이터 통합 서비스입니다. 이번 글에서는 AWS의 데이터 관련 서비스 중 하나인 AWS Glue에 대해 알아보겠습니다.
AWS Glue란
AWS Glue는 Amazon Web Services(AWS)의 완전 관리형 ETL(Extract, Transform, Load) 서비스로, 효율적인 비용으로 간단하게 여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동할 수 있습니다.
ETL이란
ETL은 Extract(추출), Transform(변환), Load(로드)의 약자로, 데이터를 추출하고, 필요한 형식으로 변환한 후, 데이터 웨어하우스 또는 분석 시스템과 같은 시스템으로 로드하는 과정을 의미합니다.
ETL은 데이터 통합과 정제를 통해 비즈니스 분석이나 의사 결정을 위한 가치 있는 정보를 생성하는 데 중요한 역할을 합니다.
Glue 구성 요소
Data Stores(데이터 스토어) : 데이터를 지속적으로 저장하기 위한 저장소(Ex. S3, 관계형 데이터베이스 등)
Classifier(분류자) : 데이터 스키마를 결정하며, Glue는 CSV, JSON, AVRO, XML 등과 같은 일반 파일 형식에 대한 분류자를 제공합니다.
Crawler(크롤러) : 데이터 스토어(소스 또는 대상)에 연결하는 프로그램은 분류자의 우선순위 지정 목록을 통해 데이터의 스키마를 결정한 다음 AWS Glue Data Catalog에 메타데이터 테이블을 생성합니다.
Data Catalog : Glue의 영구적 메타데이터 스토어입니다. 테이블 정의, 작업 정의 및 기타 관리 정보를 포함하여 Glue 환경을 관리합니다.
Job(작업) : ETL 작업을 수행하는 데 필요한 비즈니스 로직으로, 변환 스크립트, 데이터 원본 및 데이터 대상으로 구성됩니다.
Connection(연결) : 특정 데이터 스토어에 연결하는 데 필요한 속성을 포함하는 Data Catalog 객체입니다.
Script : 소스에서 데이터를 추출하여 변환하고 대상으로 로드 프로세스를 로드하는 코드입니다.(PySpark 또는 Scala)
Glue의 특징
서버리스 아키텍처 : Glue는 서버리스 서비스로, 인프라를 설정하거나 관리할 필요가 없습니다.
메타데이터 기반 ETL : 원본 데이터의 변경 및 변경 데이터의 저장을 위한 별도의 저장소가 필요없고, 메타데이터만으로 ETL 작업을 수행합니다.
다양한 데이터 유형 지원 : 정형 데이터뿐만 아니라 반정형 데이터도 작동할 수 있습니다. CSV, JSON, AVRO, XML 등 다양한 데이터 형식을 처리할 수 있습니다.
Dynamic Frame과 호환성 : Glue는 ETL 작업을 위해 Dynamic Frame이라는 구성 요소를 제공합니다. Dynamic Frame은 Apache Spark와 Data Frame이 완벽하게 호환되며, 스키마를 필요로 하지 않고, 고급 변환 작업을 수행할 수 있도록 지원합니다.
고성능 작업 수행 : 고성능의 워커로 빠른 작업수행이 가능합니다.
작업 스케줄링 : 스케줄링 기능으로 주기적인 작업 실행을 자동화할 수 있습니다.
북마크 기능 : Glue는 작업의 상태를 저장하기 위해 북마크 기능을 제공하며, 작업이 중단되 시점부터 작업을 재개할 수 있습니다.
모니터링 기능 : 작업에 대한 모니터링을 지원합니다.
참고
AWS Glue 개념 - AWS Glue
AWS Glue에 있는 테이블과 데이터베이스는 AWS Glue Data Catalog의 객체입니다. 이 객체들은 메타데이터를 포함하지만 데이터 스토어의 데이터는 포함하지 않습니다.
docs.aws.amazon.com
[소개] AWS Glue Studio란?
AWS Glue 란? 완전 관리형 데이터 추출, 변환 및 적재(ETL) 서비스 입니다.효율적인 비용으로 간단하게 여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동할 수 있습
tech.cloud.nongshim.co.kr
'AWS' 카테고리의 다른 글
AWS Athena 개념 및 예제 (0) | 2023.06.24 |
---|---|
AWS S3 - 클라우드 스토리지 서비스 (0) | 2023.06.18 |
Amazon Web Services(AWS) 소개 (0) | 2023.06.15 |
댓글