findspark 란?
spark cluster가 생성되면, 이에 접근할 수 있는 지점이 필요한데, 이를 SparkContext라고 한다.
우리는 SparkContext를 통해 spark cluster에 접근해, 명령어를 전달, 결과를 전달 받는다.
우리는 SparkContext를 줄여 sc 라는 변수로 칭한다.
SparkContext를 findspark 패키지로 찾아내며, pyspark.SparkContext 명령어로 스파크 접속지점을 특정한다.
-> ('local', spark cluster의 이름) 을 실습을 통해 sys.argv로 입력받았다.
-> export SPARK_HOME=/home/hadoop/spark 이것도 SPARK_HOME을 정해줌으로써 entry point를 알려준 것
import findspark
findspark.init()
import pyspark
sc = pyspark.SparkContext(appName="SparkContext")
# SparkContext 버전
print("스파크 컨텍스트 버젼: ", sc.version)
# SparkContext 파이썬 버전
print("Spark Context 파이썬 버전:", sc.pythonVer)
# SparkContext 마스터
print("Spark Context 마스터:", sc.master)
# 출력결과 -----------------------
스파크 컨텍스트 버젼: 2.3.0
Spark Context 파이썬 버전: 3.6
Spark Context 마스터: local[*]
sc 변수를 통해 스파크 버젼, 파이썬 버젼, 마스터 정보를 확인한다.
'대학원 공부 > computer science' 카테고리의 다른 글
Linux : Google API 써보기 (0) | 2019.11.26 |
---|---|
Big Data : Spark : SparkSession (0) | 2019.11.23 |
Linux : SSH 이해하기 (0) | 2019.11.15 |
git & github : branch (0) | 2019.11.11 |
git & github : git add, commit 취소하기, commit message 수정 (0) | 2019.11.11 |
댓글