Caching & Serialized

StorageLevel에서, useOffHeap 에 해당하는 부분은 JVM garbageCollector에게 안걸리고, 다른 메모리 공간에 cache 하는 방법을 말한다.
iteration 할 알고리즘을 미리 caching 해두면, 작업이 빠르다.


Serialized 한 caching을 하게 되면, RDD size가 클수록 raw caching 보다 공간은 엄청나게 집약적이지만, processing Time이 오래걸린다.
| Raw Caching | Serialized Caching |
| pretty fast to process | slower processing than raw caching |
| can take up 2x - 4x more space | overhead is minimal |
| can put pressure in JVM and JVM G.C | less Pressure |
'대학원 공부 > computer science' 카테고리의 다른 글
| Spark : Dependency (0) | 2019.12.19 |
|---|---|
| Spark : Job Scheduler (0) | 2019.12.19 |
| Spark : Pair RDD (0) | 2019.12.19 |
| Spark : Function 예시 (0) | 2019.12.19 |
| Spark : File format, Compression, File System, Accumulator (0) | 2019.12.19 |
댓글