본문 바로가기
대학원 공부/computer science

Big Data : Hadoop : WordCount 예제

by 월곡동로봇팔 2019. 10. 25.

1. HDFS에 dir 만들기

# hdfs 에 dir 만들기
$ hdfs dfs -mkdir -p (내가 저장하고 싶은 공간 : ex)../input)

 

2. 미리 만들었던 HDFS dir 에 파일 put

# 파일 input
$ hdfs dfs -put test.txt ../input

 

3. jar 파일로 Wordcount하기. (hadoop ver = 2.7.6)

 $ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount ../input ../output

 

3-1. java 파일 -> jar 파일로 전환

# hadoop-env.sh 파일 change
export JAVA_HOME=/usr/java/default // depending on your local
export PATH=${JAVA_HOME}/bin:${PATH} // depending on your local
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar

// compile your java file as jar
$ bin/hadoop com.sun.tools.javac.Main WordCount.java 
$ jar cf wc.jar WordCount*.class

# jar 파일 실행
$ bin/hadoop jar wc.jar WordCount /user/hadoop/wordcount/input /user/hadoop/wordcount/output

작업을 하면, Class로 구현했던 파일들을 가지는 Class, Main Class가 존재한다.

 

3-2 py 파일로 hadoop streaming

https://blog.acronym.co.kr/606

 

하둡 스트리밍을 활용한 파이썬 word counting 예제~

하둡 스트리밍을 활용하면 맵리듀스 잡을 실행가능한 스크립트, 쉘 프로그래밍/파이썬/자바/R 등으로 처리할 수 있다. 하둡 스트리밍에 대해서는 Apache Hadoop Streaming을 참고하면 된다. 이번 강의에서는 기본..

blog.acronym.co.kr

 

위에 방법은 java 파일이 아닌 py 파일로 맵리듀스를 연산하는 방법이다. 

 

이건 나중에 따로 해보자.

 

4. output 파일 확인해보기

 

output 파일 확인
output 파일 읽기

# ../output dir의 ls 확인
hdfs dfs -ls ../output

# ../output/part-r-000000 내용 확인하기
hdfs dfs -cat ../output/part-r-00000

 

댓글