Caching & Serialized
StorageLevel에서, useOffHeap 에 해당하는 부분은 JVM garbageCollector에게 안걸리고, 다른 메모리 공간에 cache 하는 방법을 말한다.
iteration 할 알고리즘을 미리 caching 해두면, 작업이 빠르다.
Serialized 한 caching을 하게 되면, RDD size가 클수록 raw caching 보다 공간은 엄청나게 집약적이지만, processing Time이 오래걸린다.
Raw Caching | Serialized Caching |
pretty fast to process | slower processing than raw caching |
can take up 2x - 4x more space | overhead is minimal |
can put pressure in JVM and JVM G.C | less Pressure |
'대학원 공부 > computer science' 카테고리의 다른 글
Spark : Dependency (0) | 2019.12.19 |
---|---|
Spark : Job Scheduler (0) | 2019.12.19 |
Spark : Pair RDD (0) | 2019.12.19 |
Spark : Function 예시 (0) | 2019.12.19 |
Spark : File format, Compression, File System, Accumulator (0) | 2019.12.19 |
댓글