동작과정1 Apache Spark란? Spark(스파크)란? 스파크는 대규모 데이터 처리 및 분석을 위한 오픈소스 클러스터 컴퓨팅 프레임워크입니다. 스파크는 데이터를 분산 처리하고, 인메모리 방식을 사용하여 효율적이고 빠른 처리 속도를 제공합니다. 등장배경 스파크는 빅데이터 처리를 위한 도구로, Hadoop Ecosystem 내에서 등장했습니다. 이를 이해하기 위해서는 Hadoop의 등장 배경을 먼저 간단하게 살펴보겠습니다. Apache Hadoop 빅데이터 문제를 해결하기 위해 Hadoop이 등장합니다. Hadoop은 분산 파일 시스템인 HDFS와 분산 데이터 처리 모델인 MapReduce로 구성되어 있으며 Hadoop의 등장으로 빅데이터 문제를 해결할 수 있을 것으로 보였습니다. 그러나 Hadoop의 처리 방식은 Disk I/O 기반으로.. Big Data 2023. 6. 2. 이전 1 다음