데이터2 Apache Airflow란? Apache Airflow 데이터 파이프라인을 효율적으로 관리하는 것은 기업과 조직에 있어 중요한 문제이며 이러한 문제를 해결하기 위해 Airflow라는 오픈 소스 플랫폼이 개발되었습니다. Airflow는 작업 스케줄링, 워크플로우 관리, 모니터링 등 다양한 기능을 제공하고 있습니다. 이번 글에서는 Airflow에 대해 알아보겠습니다. Apache Airflow란? Apache Airflow는 AirBnB(에어비앤비)에서 Python기반으로 개발한 Workflow Management Tool입니다. Workflow를 관리하기 위한 오픈 소스 플랫폼으로 워크플로우 스케줄링, 모니터링 등 다양한 기능을 제공합니다. 에어플로우를 이용해서 크고 복잡한 데이터 파이프라인을 관리 및 개발할 수 있습니다. Airfl.. Big Data 2023. 7. 20. Colab + Spark 활용한 간단한 예제 이번 글에서는 앞에서 작성한 Apache Spark에 대한 예제로 Colab 환경에서 Spark를 설치하여 간단한 예제를 해보겠습니다. Colab을 활용하면 개인 컴퓨터에 별도의 Spark 설치 없이도 편리하게 Spark를 사용할 수 있습니다. 우선 Colab에서 Spark를 설치하고 필요한 환경 설정을 완료한 후, 구글 드라이브에 있는 데이터를 활용하여 데이터 빈도 분석을 해보겠습니다. Colab(코랩)이란 코랩(Google Colab, Colaboratory)은 클라우드 기반의 Jupyter Notebook 환경으로 웹 브라우저에서 Python 코드를 작성하고 실행, 결과 확인을 할 수 있습니다. 무료로 제공되며 GPU 및 TPU를 활용하여 데이터 처리, 머신 러닝, 딥러닝 등 작업을 수행할 수 있습.. Big Data 2023. 6. 5. 이전 1 다음