대학원 공부/computer science
Spark : Caching & Serialized
월곡동로봇팔
2019. 12. 19. 15:32
Caching & Serialized
StorageLevel에서, useOffHeap 에 해당하는 부분은 JVM garbageCollector에게 안걸리고, 다른 메모리 공간에 cache 하는 방법을 말한다.
iteration 할 알고리즘을 미리 caching 해두면, 작업이 빠르다.
Serialized 한 caching을 하게 되면, RDD size가 클수록 raw caching 보다 공간은 엄청나게 집약적이지만, processing Time이 오래걸린다.
Raw Caching | Serialized Caching |
pretty fast to process | slower processing than raw caching |
can take up 2x - 4x more space | overhead is minimal |
can put pressure in JVM and JVM G.C | less Pressure |