Big Data9 Apache Airflow란? Apache Airflow 데이터 파이프라인을 효율적으로 관리하는 것은 기업과 조직에 있어 중요한 문제이며 이러한 문제를 해결하기 위해 Airflow라는 오픈 소스 플랫폼이 개발되었습니다. Airflow는 작업 스케줄링, 워크플로우 관리, 모니터링 등 다양한 기능을 제공하고 있습니다. 이번 글에서는 Airflow에 대해 알아보겠습니다. Apache Airflow란? Apache Airflow는 AirBnB(에어비앤비)에서 Python기반으로 개발한 Workflow Management Tool입니다. Workflow를 관리하기 위한 오픈 소스 플랫폼으로 워크플로우 스케줄링, 모니터링 등 다양한 기능을 제공합니다. 에어플로우를 이용해서 크고 복잡한 데이터 파이프라인을 관리 및 개발할 수 있습니다. Airfl.. Big Data 2023. 7. 20. 파이썬으로 Kafka 간단한 예제 파이썬으로 Kafka 예제 이번 글에서는 파이썬을 이용하여 간단한 Kafka 예제를 진행하려고 합니다. 해당 예제는 로컬 환경에서 Docker Desktop을 이용하여 진행할 것이며, 간단한 예제이므로 1개의 브로커와 주키퍼를 생성할 것입니다. Docker Desktop이란 Windows 또는 macOS 운영체제에서 Docker를 사용할 수 있게하는 도구로, 로컬 환경에서 도커를 쉽게 설치하고 실행하기 위해 사용됩니다. (윈도우에서 Docker Desktop을 사용하기 위해서는 WSL2(Windows Subsystem For Linux 2) 관련 환경 설정 작업이 필요합니다.) Docker Compose 작성 및 실행 ① docker-compose.yml 작성 version: '3' services: z.. Big Data 2023. 6. 30. Data Lake와 Data Warehouse, Data Mart 개념과 비교 Data Lake, Data Warehouse, Data Mart 데이터의 양과 다양성이 증가함에 따라 기업은 효율적인 데이터 관리 및 분석 방법을 찾아야 했습니다. 이를 위해 Data Lake, Data Warehouse, Data Mart와 같은 중요한 개념들이 등장하였습니다. 이번 글에서는 데이터 레이크, 데이터 웨어하우스, 데이터 마트에 대해 알아보겠습니다. 개념 Data Lake 데이터 레이크는 원시 데이터를 저장하는 대규모 데이터 저장소입니다. 구조화된 정형 데이터 뿐만 아니라 로그, 이미지, 음성 등 비구조화된 비정형 데이터를 포함합니다. 다양한 형태와 포맷을 가지는 대량의 데이터를 수집하고 저장할 수 있습니다. 데이터 레이크는 원시(Raw) 데이터를 저장하는 대규모 데이터 저장소입니다. 원.. Big Data 2023. 6. 16. Apache Kafka(카프카) 기본개념 Apache Kafka는 실시간 데이터 처리와 스트리밍에 필요한 강력한 도구입니다. 대용량 데이터를 빠르게 이동하고 처리하는 데 적합하며, 로그 처리, 데이터 스트리밍 등 다양한 분야에서 활용됩니다. 이번 글에서는 Kafka가 무엇인지, 등장배경과 주요 개념 등을 알아보겠습니다. Kafka(카프카)란? 카프카는 대용량의 실시간 데이터 스트림 처리를 위한 고성능 분산 이벤트 스트리밍 플랫폼이며 pub-sub 모델의 메시지 큐 형태로 동작을 합니다. 카프카는 높은 처리량과 낮은 지연 시간을 제공하여 실시간 데이터 처리에 적합하며, 분산 아키텍처로 설계되어 확장성과 내고장성을 가지고 있습니다. 등장배경 링크드인(Linked-Id)은 수억 명의 사용자와 연결되어 있는 소셜 네트워크 서비스로, 효율적인 데이터 처.. Big Data 2023. 6. 9. Colab + Spark 활용한 간단한 예제 이번 글에서는 앞에서 작성한 Apache Spark에 대한 예제로 Colab 환경에서 Spark를 설치하여 간단한 예제를 해보겠습니다. Colab을 활용하면 개인 컴퓨터에 별도의 Spark 설치 없이도 편리하게 Spark를 사용할 수 있습니다. 우선 Colab에서 Spark를 설치하고 필요한 환경 설정을 완료한 후, 구글 드라이브에 있는 데이터를 활용하여 데이터 빈도 분석을 해보겠습니다. Colab(코랩)이란 코랩(Google Colab, Colaboratory)은 클라우드 기반의 Jupyter Notebook 환경으로 웹 브라우저에서 Python 코드를 작성하고 실행, 결과 확인을 할 수 있습니다. 무료로 제공되며 GPU 및 TPU를 활용하여 데이터 처리, 머신 러닝, 딥러닝 등 작업을 수행할 수 있습.. Big Data 2023. 6. 5. Apache Spark란? Spark(스파크)란? 스파크는 대규모 데이터 처리 및 분석을 위한 오픈소스 클러스터 컴퓨팅 프레임워크입니다. 스파크는 데이터를 분산 처리하고, 인메모리 방식을 사용하여 효율적이고 빠른 처리 속도를 제공합니다. 등장배경 스파크는 빅데이터 처리를 위한 도구로, Hadoop Ecosystem 내에서 등장했습니다. 이를 이해하기 위해서는 Hadoop의 등장 배경을 먼저 간단하게 살펴보겠습니다. Apache Hadoop 빅데이터 문제를 해결하기 위해 Hadoop이 등장합니다. Hadoop은 분산 파일 시스템인 HDFS와 분산 데이터 처리 모델인 MapReduce로 구성되어 있으며 Hadoop의 등장으로 빅데이터 문제를 해결할 수 있을 것으로 보였습니다. 그러나 Hadoop의 처리 방식은 Disk I/O 기반으로.. Big Data 2023. 6. 2. Hadoop YARN이란 무엇인가? Hadoop YARN이란? YARN(Yet Another Resource Negotiator)이란 또 다른 리소스 협상가라는 뜻으로, Hadoop Cluster 내에서 리소스와 작업 스케줄링을 담당하는 컴포넌트입니다. 기존 Hadoop의 단점을 보완하기 위해 V2부터 도입되었습니다. 이번 글에서는 YARN이 무엇인지, 왜 등장하는지 등 YARN에 대해 알아보겠습니다. Hadoop V1 (MR 계층) Hadoop이 처음 개발되었을 당시에는 Job Tracker와 Task Tracker가 있었습니다. Job Tracker는 클러스터의 리소스 관리, 작업 상태 추적, 작업의 스케줄링 등 중앙 제어 역할을 하고, Task Tracker는 Job Tracker로부터 할당된 작업을 처리하는 역할을 합니다. ① 잡 .. Big Data 2023. 5. 27. HDFS와 MapReduce에 대해 HDFS와 MapReduce 이전 글에서는 Hadoop에 대해 간단하게 알아보았으며, 이번 글에서는 Hadoop의 코어 프로젝트인 HDFS와 MapReduce에 대해 간단히 알아보겠습니다. Hadoop의 버전마다 차이가 있을 수 있습니다. Hadoop 1.x의 경우 블록 크기의 기본값이 64MB지만 Hadoop 2.x의 경우 블록 크기의 기본값은 128MB입니다. ◈ HDFS(Hadoop Distributed Fils System, 분산 파일 시스템) HDFS는 데이터를 여러 서버에 분산하여 저장하는 분산 파일 시스템입니다. 데이터를 블록 단위로 분할하여 여러 서버에 저장하고, 데이터의 안정성과 내고장성을 제공합니다. HDFS에는 마스터/슬레이브(master/slave) 구조로 하나의 네임노드와 여러 개.. Big Data 2023. 5. 25. Hadoop이란 무엇인가? Hadoop이란 무엇인가? Hadoop(High-Availability Distributed Object-Oriented Platform) Hadoop은 대용량 데이터를 처리하기 위한 오픈소스 프레임워크로, 현재 많은 기업과 조직에서 대용량 데이터 처리에 활용되고 있습니다. 이번 글에서는 Hadoop이 무엇인지 간단하게 알아보겠습니다. ◈ Hadoop 소개 ◇ 등장 배경 Hadoop은 대용량 데이터의 증가와 기존 데이터 처리 방법의 한계로 개발되었습니다. 인터넷과 디지털 기술의 발전으로 인해 기업과 조직에서 생성되는 데이터의 양이 급증했으며, 이를 효율적으로 처리하기 위한 방법이 필요했습니다. 그리고 기존에는 단일 서버에서 데이터 처리를 수행하는 방식이 주로 사용되었으며 대용량 데이터를 한 대의 서버에서.. Big Data 2023. 5. 23. 이전 1 다음