Big Data : Hadoop : WordCount 예제

1. HDFS에 dir 만들기

# hdfs 에 dir 만들기
$ hdfs dfs -mkdir -p (내가 저장하고 싶은 공간 : ex)../input)

2. 미리 만들었던 HDFS dir 에 파일 put

# 파일 input
$ hdfs dfs -put test.txt ../input

3. jar 파일로 Wordcount하기. (hadoop ver = 2.7.6)

 $ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount ../input ../output

3-1. java 파일 -> jar 파일로 전환

# hadoop-env.sh 파일 change
export JAVA_HOME=/usr/java/default // depending on your local
export PATH=${JAVA_HOME}/bin:${PATH} // depending on your local
export HADOOP_CLASSPATH=${JAVA_HOME}/lib/tools.jar

// compile your java file as jar
$ bin/hadoop com.sun.tools.javac.Main WordCount.java 
$ jar cf wc.jar WordCount*.class

# jar 파일 실행
$ bin/hadoop jar wc.jar WordCount /user/hadoop/wordcount/input /user/hadoop/wordcount/output

작업을 하면, Class로 구현했던 파일들을 가지는 Class, Main Class가 존재한다.

3-2 py 파일로 hadoop streaming

https://blog.acronym.co.kr/606

하둡 스트리밍을 활용한 파이썬 word counting 예제~

하둡 스트리밍을 활용하면 맵리듀스 잡을 실행가능한 스크립트, 쉘 프로그래밍/파이썬/자바/R 등으로 처리할 수 있다. 하둡 스트리밍에 대해서는 Apache Hadoop Streaming을 참고하면 된다. 이번 강의에서는 기본..

blog.acronym.co.kr

위에 방법은 java 파일이 아닌 py 파일로 맵리듀스를 연산하는 방법이다.

이건 나중에 따로 해보자.

4. output 파일 확인해보기

# ../output dir의 ls 확인
hdfs dfs -ls ../output

# ../output/part-r-000000 내용 확인하기
hdfs dfs -cat ../output/part-r-00000

'대학원 공부 > computer science' 카테고리의 다른 글

Big Data : Hadoop : lecture_3 : YARN (0)	2019.10.26
Big Data : Hadoop : lecture_2 : Hadoop_basic_1 (0)	2019.10.26
Big Data : Hadoop : lecture_1 : Overview of Hadoop (0)	2019.10.25
Big Data : Hadoop : Ubuntu 16.04 LTS -> Hadoop 2.7.6 세팅하기! (0)	2019.10.25
git 설치 및 setting, 기능 (0)	2019.10.24

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

월곡동 로봇팔의 대학원일지

Big Data : Hadoop : WordCount 예제

'대학원 공부 > computer science' 카테고리의 다른 글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Big Data : Hadoop : WordCount 예제

'대학원 공부 > computer science' 카테고리의 다른 글

관련글

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역