분류 전체보기33 Apache Airflow란? Apache Airflow 데이터 파이프라인을 효율적으로 관리하는 것은 기업과 조직에 있어 중요한 문제이며 이러한 문제를 해결하기 위해 Airflow라는 오픈 소스 플랫폼이 개발되었습니다. Airflow는 작업 스케줄링, 워크플로우 관리, 모니터링 등 다양한 기능을 제공하고 있습니다. 이번 글에서는 Airflow에 대해 알아보겠습니다. Apache Airflow란? Apache Airflow는 AirBnB(에어비앤비)에서 Python기반으로 개발한 Workflow Management Tool입니다. Workflow를 관리하기 위한 오픈 소스 플랫폼으로 워크플로우 스케줄링, 모니터링 등 다양한 기능을 제공합니다. 에어플로우를 이용해서 크고 복잡한 데이터 파이프라인을 관리 및 개발할 수 있습니다. Airfl.. Big Data 2023. 7. 20. AWS Glue란? AWS Glue AWS Glue는 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 이동, 통합할 수 있도록 하는 서버리스 데이터 통합 서비스입니다. 이번 글에서는 AWS의 데이터 관련 서비스 중 하나인 AWS Glue에 대해 알아보겠습니다. AWS Glue란 AWS Glue는 Amazon Web Services(AWS)의 완전 관리형 ETL(Extract, Transform, Load) 서비스로, 효율적인 비용으로 간단하게 여러 데이터 스토어 및 데이터 스트림 간에 원하는 데이터를 분류, 정리, 보강, 이동할 수 있습니다. ETL이란 ETL은 Extract(추출), Transform(변환), Load(로드)의 약자로, 데이터를 추출하고, 필요한 형식으로 변환한 후, 데이터 웨어하우스 또는 분석 시스템과.. AWS 2023. 7. 5. 파이썬으로 Kafka 간단한 예제 파이썬으로 Kafka 예제 이번 글에서는 파이썬을 이용하여 간단한 Kafka 예제를 진행하려고 합니다. 해당 예제는 로컬 환경에서 Docker Desktop을 이용하여 진행할 것이며, 간단한 예제이므로 1개의 브로커와 주키퍼를 생성할 것입니다. Docker Desktop이란 Windows 또는 macOS 운영체제에서 Docker를 사용할 수 있게하는 도구로, 로컬 환경에서 도커를 쉽게 설치하고 실행하기 위해 사용됩니다. (윈도우에서 Docker Desktop을 사용하기 위해서는 WSL2(Windows Subsystem For Linux 2) 관련 환경 설정 작업이 필요합니다.) Docker Compose 작성 및 실행 ① docker-compose.yml 작성 version: '3' services: z.. Big Data 2023. 6. 30. AWS Athena 개념 및 예제 AWS Athena AWS Athena는 서버리스 쿼리 서비스로, 대량의 데이터를 신속하고 간편하게 분석할 수 있는 도구입니다. 이 서비스를 통해 서버 설정이나 관리 없이 데이터를 쉽게 탐색하고 분석할 수 있습니다. 이번 글에서는 AWS Athena에 대한 내용과 간단한 예제를 진행해 보겠습니다. AWS Athena란 AWS Athena는 Amazon Web Services(AWS)에서 제공하는 서버리스 대화형 쿼리 서비스로, 사용자가 표준 SQL을 사용하여 S3에 저장된 데이터를 직접 쿼리하고 분석할 수 있도록 합니다. 이를 통해 사용자는 별도의 서버를 프로비저닝 하거나 관리하지 않고도 쉽고 빠르게 데이터를 분석할 수 있습니다. Athena 기능 및 특징 서버리스 아키텍처 : 아테나는 서버리스 아키텍처.. AWS 2023. 6. 24. [Python] Riot API - LOL 랭크 게임 데이터 수집 Riot API를 활용하여 랭크 게임 데이터 수집 라이엇에서는 리그 오브 레전드, 발로란트, 리그 오브 룬테라 등 다양한 API가 제공되고 있으며, 이번 글에서는 Riot API를 이용하여 리그 오브 레전드의 랭크 게임 데이터를 수집하려고 합니다. 파이썬을 이용하여 Riot API로 리그 오브 레전드의 랭크 게임 데이터를 수집해 보겠습니다. API Key 라이엇 개발자 페이지에 접속하여 관련 내용을 볼 수 있습니다. 개발 API Key를 이용하여 간단하게 진행할 예정이며, 개발 API Key의 경우 1초 20회, 2분 100회 제한이 있습니다. Riot Developer Portal About the Riot Games API With this site we hope to provide the Leagu.. Language/Python 2023. 6. 21. AWS S3 - 클라우드 스토리지 서비스 Amazon S3 현대 디지털 시대에서는 데이터의 양과 중요성이 이전보다 더욱 증가하였으며, 기업들은 대량의 데이터를 안전하게 저장하고 신속하게 접근할 수 있는 솔루션이 필요하였습니다. 이에 Amazon Web Services(AWS)는 클라우드 스토리지 서비스인 Amazon S3를 선보였습니다. 이번 글에서는 S3에 대해 알아보겠습니다. Amazon Simple Storage Service(Amazon S3) 소개 S3는 아마존 웹 서비스(Amazon Web Services)에서 제공하는 클라우드 기반의 객체 스토리지 서비스입니다. S3는 데이터를 안전하게 저장하고, 관리하며, 검색할 수 있도록 사용자에게 확장성과 내구성을 제공하며 기업 및 개발자들이 데이터를 저장하고 접근할 수 있는 환경을 제공합니다.. AWS 2023. 6. 18. [Python] 파이썬 csv 파일 parquet 파일로 변환 Parquet 파일 변환 예제 데이터는 여러 파일 형식이 존재하고 있으며, 그중에서도 CSV 파일은 텍스트 기반의 데이터를 저장하기 위해 널리 사용되는 형식 중 하나입니다. CSV 파일은 단순한 구조를 가지고 있어 자주 사용되고 있지만, 대용량의 데이터를 처리하거나 복잡한 데이터 구조를 다루는 경우에는 제한이 있습니다. 이러한 경우 데이터를 보다 효율적으로 저장하고 처리하기 위해 Parquet 형식을 사용할 수 있습니다. 이번 글에서는 파이썬에서 CSV 파일을 Parquet 파일로 변환하는 예제를 진행해 보겠습니다. Parquet(파케이)란? Parquet는 대규모 데이터 처리를 위한 열 지향 형식의 파일 포맷입니다. 대용량의 구조화된 데이터를 저장하기 위해 설계되었으며, 데이터의 압축 및 직렬화를 효율.. Language/Python 2023. 6. 18. Data Lake와 Data Warehouse, Data Mart 개념과 비교 Data Lake, Data Warehouse, Data Mart 데이터의 양과 다양성이 증가함에 따라 기업은 효율적인 데이터 관리 및 분석 방법을 찾아야 했습니다. 이를 위해 Data Lake, Data Warehouse, Data Mart와 같은 중요한 개념들이 등장하였습니다. 이번 글에서는 데이터 레이크, 데이터 웨어하우스, 데이터 마트에 대해 알아보겠습니다. 개념 Data Lake 데이터 레이크는 원시 데이터를 저장하는 대규모 데이터 저장소입니다. 구조화된 정형 데이터 뿐만 아니라 로그, 이미지, 음성 등 비구조화된 비정형 데이터를 포함합니다. 다양한 형태와 포맷을 가지는 대량의 데이터를 수집하고 저장할 수 있습니다. 데이터 레이크는 원시(Raw) 데이터를 저장하는 대규모 데이터 저장소입니다. 원.. Big Data 2023. 6. 16. Amazon Web Services(AWS) 소개 AWS는 아마존이 제공하는 클라우드 컴퓨팅 서비스로, 기업과 개발자들에게 유연하고 확장 가능한 인프라를 제공합니다. 이번 글에서는 AWS가 무엇인지, 이점과 어떤 서비스들이 있는지 간단하게 알아보겠습니다. AWS란 무엇인가? Amazon Web Services(AWS)는 아마존닷컴이 제공하는 클라우드 컴퓨팅 플랫폼입니다. 클라우드 컴퓨팅은 인터넷을 통해 서버, 스토리지, 데이터베이스 등의 컴퓨팅 서비스를 제공하는 기술입니다. AWS는 다양한 클라우드 서비스를 제공하며, 기업이나 개발자는 이를 이용하여 애플리케이션을 구축, 운영 및 관리할 수 있습니다. AWS 이점 확장성 : AWS는 필요에 따라 리소스를 증가 또는 축소시킬 수 있는 확장성을 제공합니다. 사용자는 필요한 만큼의 컴퓨팅 리소스를 즉시 사용할.. AWS 2023. 6. 15. OLTP와 OLAP 비교 OLTP와 OLAP 이번 글에서는 데이터 처리 시스템의 종류인 OLTP(Online Transaction Processing)와 OLAP(Online Analytical Processing)에 대해 알아보겠습니다. 각 개념과 차이점을 비교해 보며 알아보겠습니다. OLTP와 OLAP란? OLTP (Online Transaction Processing)란? OLTP는 실시간 트랜잭션 처리를 위한 데이터베이스 시스템의 접근 방식입니다. 주로 애플리케이션에서 발생하는 트랜잭션을 처리하고 관리하는 데 사용됩니다. OLAP (Online Analytical Processing)란? OLAP는 대규모 데이터 집합을 분석하고 의사 결정 지원을 위한 데이터베이스 시스템의 접근 방식입니다. 주로 비즈니스 인텔리전스, 데이.. Database 2023. 6. 14. Apache Kafka(카프카) 기본개념 Apache Kafka는 실시간 데이터 처리와 스트리밍에 필요한 강력한 도구입니다. 대용량 데이터를 빠르게 이동하고 처리하는 데 적합하며, 로그 처리, 데이터 스트리밍 등 다양한 분야에서 활용됩니다. 이번 글에서는 Kafka가 무엇인지, 등장배경과 주요 개념 등을 알아보겠습니다. Kafka(카프카)란? 카프카는 대용량의 실시간 데이터 스트림 처리를 위한 고성능 분산 이벤트 스트리밍 플랫폼이며 pub-sub 모델의 메시지 큐 형태로 동작을 합니다. 카프카는 높은 처리량과 낮은 지연 시간을 제공하여 실시간 데이터 처리에 적합하며, 분산 아키텍처로 설계되어 확장성과 내고장성을 가지고 있습니다. 등장배경 링크드인(Linked-Id)은 수억 명의 사용자와 연결되어 있는 소셜 네트워크 서비스로, 효율적인 데이터 처.. Big Data 2023. 6. 9. Colab + Spark 활용한 간단한 예제 이번 글에서는 앞에서 작성한 Apache Spark에 대한 예제로 Colab 환경에서 Spark를 설치하여 간단한 예제를 해보겠습니다. Colab을 활용하면 개인 컴퓨터에 별도의 Spark 설치 없이도 편리하게 Spark를 사용할 수 있습니다. 우선 Colab에서 Spark를 설치하고 필요한 환경 설정을 완료한 후, 구글 드라이브에 있는 데이터를 활용하여 데이터 빈도 분석을 해보겠습니다. Colab(코랩)이란 코랩(Google Colab, Colaboratory)은 클라우드 기반의 Jupyter Notebook 환경으로 웹 브라우저에서 Python 코드를 작성하고 실행, 결과 확인을 할 수 있습니다. 무료로 제공되며 GPU 및 TPU를 활용하여 데이터 처리, 머신 러닝, 딥러닝 등 작업을 수행할 수 있습.. Big Data 2023. 6. 5. 이전 1 2 3 다음