Data Lake, Data Warehouse, Data Mart
데이터의 양과 다양성이 증가함에 따라 기업은 효율적인 데이터 관리 및 분석 방법을 찾아야 했습니다. 이를 위해 Data Lake, Data Warehouse, Data Mart와 같은 중요한 개념들이 등장하였습니다. 이번 글에서는 데이터 레이크, 데이터 웨어하우스, 데이터 마트에 대해 알아보겠습니다.
개념
Data Lake
- 데이터 레이크는 원시 데이터를 저장하는 대규모 데이터 저장소입니다.
- 구조화된 정형 데이터 뿐만 아니라 로그, 이미지, 음성 등 비구조화된 비정형 데이터를 포함합니다.
- 다양한 형태와 포맷을 가지는 대량의 데이터를 수집하고 저장할 수 있습니다.
데이터 레이크는 원시(Raw) 데이터를 저장하는 대규모 데이터 저장소입니다. 원시 데이터는 다양한 형식과 구조를 가질 수 있으며, 스키마와 구조를 가지는 데이터 웨어하우스에 저장하기 어려움이 있습니다. 그렇기 때문에 데이터 웨어하우스에 저장하기 보다는 원시 데이터를 별도의 저장소에 저장하여 필요에 따라 가공하거나 변환하여 사용합니다. 또한 데이터 웨어하우스에 저장하기 위해 데이터를 정제하는 과정에서 발생하는 데이터 손실을 방지할 수 있습니다.
Data Warehouse
- 기업이나 조직의 다양한 데이터를 통합하여 저장하는 중앙 집중화된 데이터 저장소입니다.
- 구조화된 데이터를 저장하며, 비즈니스 인텔리전스(BI) 및 의사 결정에 활용됩니다.
- 데이터 추출, 변환 및 로드(ETL) 프로세스를 통해 다양한 소스에서 데이터를 추출하고, 일관된 형식으로 변환하여 저장합니다.
Data Mart
- 특정 부서나 팀의 요구에 맞게 선택된 데이터를 저장하고 분석하기 위한 데이터 저장소입니다.
- 데이터 웨어하우스에서 추출된 데이터를 가공하여 해당 부서나 팀의 요구에 맞는 형태로 제공합니다.
- 데이터 웨어하우스의 하위 집합
정리 및 비교
Data Lake | Data Warehouse | Data Mart | |
목적 | 원시 데이터 저장 | 통합된 비즈니스 데이터 저장 및 분석 | 특정 비즈니스 영역에 초점을 맞춘 데이터 저장 및 분석 |
데이터 소스 | 다양한 소스(로그, 이미지, 음성 등) | 내부 시스템 및 외부 소스 | 주로 데이터 웨어하우스 |
데이터 구조 | 구조 및 비구조 데이터 | 정제 및 구조화된 데이터 | 정제 및 구조화된 데이터 |
데이터 크기 | 대규모 데이터 | 대규모 데이터 | 상대적 작은 규모 |
함께 보면 좋은 글
OLTP와 OLAP 비교
OLTP와 OLAP 이번 글에서는 데이터 처리 시스템의 종류인 OLTP(Online Transaction Processing)와 OLAP(Online Analytical Processing)에 대해 알아보겠습니다. 각 개념과 차이점을 비교해 보며 알아보겠습니다. OLTP와 O
dev-records.tistory.com
'Big Data' 카테고리의 다른 글
Apache Airflow란? (0) | 2023.07.20 |
---|---|
파이썬으로 Kafka 간단한 예제 (0) | 2023.06.30 |
Apache Kafka(카프카) 기본개념 (2) | 2023.06.09 |
Colab + Spark 활용한 간단한 예제 (0) | 2023.06.05 |
Apache Spark란? (0) | 2023.06.02 |
댓글