이 포스팅은 ⟪러닝 스파크(2판)⟫(제이펍, 2022년)을 공부하면서 정리한 내용입니다. *데이터 .cache(캐싱)과 .persist(영속화) 데이터 캐싱과 영속화는 거의 유사하지만 영속화는 조금 더 세밀한 설정을 하여 더 나은 성능을 보여준다. # cache 예제 from pyspark.sql.functions import col df=spark.range(1*100000).toDF("id").withColumn("square",col("id")) df.cache() df.count() #persist 예제 from pyspark.sql.functions import col df=spark.range(1*100000).toDF("id").withColumn("square",col("id")) df.p..