1. HDFS에 dir 만들기
# hdfs 에 dir 만들기
$ hdfs dfs -mkdir -p (내가 저장하고 싶은 공간 : ex)../input)
2. 미리 만들었던 HDFS dir 에 파일 put
# 파일 input
$ hdfs dfs -put test.txt ../input
3. jar 파일로 Wordcount하기. (hadoop ver = 2.7.6)
$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount ../input ../output
3-1. java 파일 -> jar 파일로 전환
# hadoop-env.sh 파일 change
export JAVA_HOME=/usr/java/default // depending on your local
export PATH=${JAVA_HOME}/bin:${PATH} // depending on your local
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar
// compile your java file as jar
$ bin/hadoop com.sun.tools.javac.Main WordCount.java
$ jar cf wc.jar WordCount*.class
# jar 파일 실행
$ bin/hadoop jar wc.jar WordCount /user/hadoop/wordcount/input /user/hadoop/wordcount/output
작업을 하면, Class로 구현했던 파일들을 가지는 Class, Main Class가 존재한다.
3-2 py 파일로 hadoop streaming
https://blog.acronym.co.kr/606
하둡 스트리밍을 활용한 파이썬 word counting 예제~
하둡 스트리밍을 활용하면 맵리듀스 잡을 실행가능한 스크립트, 쉘 프로그래밍/파이썬/자바/R 등으로 처리할 수 있다. 하둡 스트리밍에 대해서는 Apache Hadoop Streaming을 참고하면 된다. 이번 강의에서는 기본..
blog.acronym.co.kr
위에 방법은 java 파일이 아닌 py 파일로 맵리듀스를 연산하는 방법이다.
이건 나중에 따로 해보자.
4. output 파일 확인해보기


# ../output dir의 ls 확인
hdfs dfs -ls ../output
# ../output/part-r-000000 내용 확인하기
hdfs dfs -cat ../output/part-r-00000
'대학원 공부 > computer science' 카테고리의 다른 글
Big Data : Hadoop : lecture_3 : YARN (0) | 2019.10.26 |
---|---|
Big Data : Hadoop : lecture_2 : Hadoop_basic_1 (0) | 2019.10.26 |
Big Data : Hadoop : lecture_1 : Overview of Hadoop (0) | 2019.10.25 |
Big Data : Hadoop : Ubuntu 16.04 LTS -> Hadoop 2.7.6 세팅하기! (0) | 2019.10.25 |
git 설치 및 setting, 기능 (0) | 2019.10.24 |
댓글