1. HDFS에 dir 만들기
# hdfs 에 dir 만들기
$ hdfs dfs -mkdir -p (내가 저장하고 싶은 공간 : ex)../input)
2. 미리 만들었던 HDFS dir 에 파일 put
# 파일 input
$ hdfs dfs -put test.txt ../input
3. jar 파일로 Wordcount하기. (hadoop ver = 2.7.6)
$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount ../input ../output
3-1. java 파일 -> jar 파일로 전환
# hadoop-env.sh 파일 change
export JAVA_HOME=/usr/java/default // depending on your local
export PATH=${JAVA_HOME}/bin:${PATH} // depending on your local
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar
// compile your java file as jar
$ bin/hadoop com.sun.tools.javac.Main WordCount.java
$ jar cf wc.jar WordCount*.class
# jar 파일 실행
$ bin/hadoop jar wc.jar WordCount /user/hadoop/wordcount/input /user/hadoop/wordcount/output
작업을 하면, Class로 구현했던 파일들을 가지는 Class, Main Class가 존재한다.
3-2 py 파일로 hadoop streaming
https://blog.acronym.co.kr/606
위에 방법은 java 파일이 아닌 py 파일로 맵리듀스를 연산하는 방법이다.
이건 나중에 따로 해보자.
4. output 파일 확인해보기
# ../output dir의 ls 확인
hdfs dfs -ls ../output
# ../output/part-r-000000 내용 확인하기
hdfs dfs -cat ../output/part-r-00000
'대학원 공부 > computer science' 카테고리의 다른 글
Big Data : Hadoop : lecture_3 : YARN (0) | 2019.10.26 |
---|---|
Big Data : Hadoop : lecture_2 : Hadoop_basic_1 (0) | 2019.10.26 |
Big Data : Hadoop : lecture_1 : Overview of Hadoop (0) | 2019.10.25 |
Big Data : Hadoop : Ubuntu 16.04 LTS -> Hadoop 2.7.6 세팅하기! (0) | 2019.10.25 |
git 설치 및 setting, 기능 (0) | 2019.10.24 |
댓글