티스토리챌린지 3

[BigData] Parquet vs ORC vs Avro

Apache Parquet주요 특징컬럼별 압축과 인코딩 지원중첩된 데이터 구조 지원스키마 진화(evolution) 지원효율적인 데이터 스캐닝컬럼 기반 저장 방식Hadoop 에코시스템과 높은 호환성장점분석 쿼리 성능이 우수높은 압축률다양한 프로젝트와의 호환성(Spark, Hive, Impala 등)단점수정이 빈번한 데이터에는 적합하지 않음작은 파일의 경우 오버헤드 발생 가능권장사례대규모 분석 쿼리가 필요한 경우데이터 웨어하우스데이터 레이크머신러닝 데이터셋Apache ORC (Optimized Row Columnar)주요 특징ACID 트랜잭션 지원Hive 성능 최적화를 위해 설계내장된 인덱싱 기능타입별 최적화된 인코딩강력한 압축 지원장점Hive와의 뛰어난 통합빠른 데이터 검색 성능효율적인 메모리 사용단점Hi..

카테고리 없음 2024.11.09

[Spark] Cluster mode vs Client mode

Spark Driver란?애플리케이션 실행의 핵심 구성 요소로, Spark 애플리케이션의 전체 실행을 지휘하고 제어하는 역할을 한다. Spark Driver는 클러스터 내 작업의 분배와 실행 상태를 관리하며, 사용자로부터 애플리케이션 로직을 전달받아 클러스터와의 상호작용을 수행한다.Client Mode(default)driver가 클러스터 외부에 있는 형태Application Master는 node manager에게 자원 요청만을 하고 Spark에서 사용중인 리소스를 표시주로 개발 환경에서 디버깅 할 때 의미가 있는 형태장점: 로컬 머신에서 실행되기 때문에 디버깅과 실시간 로그 모니터링이 용이하다.단점: 클러스터의 자원을 효율적으로 사용하지 못할 수 있다.Cluster Modedriver가 클러스터 내부..

AWS Glue VS AWS Step Function

AWS Glue란 ?AWS Glue는 사용자가 여러 소스의 데이터를 쉽게 검색, 준비, 이동, 통합할 수 있도록 하는 서버리스 데이터 통합 서비스중앙 집중식 데이터 카탈로그에서 데이터를 관리할 수 있습니다. 추출, 변환, 로드(ETL) 파이프라인을 시각적으로 생성, 실행, 모니터링하여 데이터 레이크에 데이터를 로드할 수 있다.AWS Glue 특징ETL(Extract, Transform, Load) 툴이다.Serverless이기 때문에 운영 부담이 줄고, 데이터의 전처리를 쉽고 빠르게 한다.기본적으로 ETL을 통해서 데이터를 Data Lake(i.e. S3)나 Data Warehouse(i.e. Redshift)에 이동시킨다.Glue는 ETL 작업을 스케줄링하는 기능을 제공한다. 특정 시간이나 이벤트에 따..

프로그래밍/aws 2024.11.07