이 포스팅은 ⟪러닝 스파크(2판)⟫(제이펍, 2022년)을 공부하면서 정리한 내용입니다. *Spark MLlib의 장점 데이터를 시스템에 맞게 다운샘플링 하지 않고 데이터 준비 및 모델 구축을 하나의 에코시스템으로 구축 가능 선형으로 확장되는 O(n)으로 방대한 양의 데이터를 확장할 수 있다. *MLlib 파이프라인 구성 #파이프라인에 적용할 샘플 데이터 8대2로 분리 filePath="""/databricks-datasets/learning-spark-v2/sf-airbnb/sf-airbnb-clean.parquet""" airbnbDF=spark.read.parquet(filePath) airbnbDF.select("neighbourhood_cleansed", "room_type", "bedrooms..