대학원 공부/computer science

Spark : Caching & Serialized

월곡동로봇팔 2019. 12. 19. 15:32

Caching & Serialized

StorageLevel

StorageLevel에서, useOffHeap 에 해당하는 부분은 JVM garbageCollector에게 안걸리고, 다른 메모리 공간에 cache 하는 방법을 말한다.

 

iteration 할 알고리즘을 미리 caching 해두면, 작업이 빠르다.

serlialize
serialize

Serialized 한 caching을 하게 되면, RDD size가 클수록 raw caching 보다 공간은 엄청나게 집약적이지만, processing Time이 오래걸린다.

Raw Caching Serialized Caching
pretty fast to process slower processing than raw caching
can take up 2x - 4x more space overhead is minimal
can put pressure in JVM and JVM G.C less Pressure