본문 바로가기

대학원 공부172

Big Data : Hadoop : lecture_1 : Overview of Hadoop Hadoop 이란? hadoop 이란 distributed file system을 의미한다. 흔히 HDFS라 한다. 우리는 hadoop을 이용하여 Big data를 분산저장하고 분산 저장한 data를 MapReduce나 다른 함수를 통해 분석하여 dataset을 생성한다. 우린 그 전에 Big Data가 뭔지 알아야한다. 배경에는 하드디스크는 엄청나게 발전을 하였지만, 실제 연산속도는 하드디스크 발전을 따라가지 못하였다. 따라서 우리가 single drive에서 읽는 속도가 엄청나게 느리고, 또한 쓰는 속도도 느리다. -> 이를 해결하기 위해 data를 split해서 여러 disk에 분산 저장한다. 이렇게 분산 저장하면 문제점이 또한 발생한다. hadoop은 comodity hardware로 이루어져있다.. 2019. 10. 25.
Big Data : Hadoop : WordCount 예제 1. HDFS에 dir 만들기 # hdfs 에 dir 만들기 $ hdfs dfs -mkdir -p (내가 저장하고 싶은 공간 : ex)../input) 2. 미리 만들었던 HDFS dir 에 파일 put # 파일 input $ hdfs dfs -put test.txt ../input 3. jar 파일로 Wordcount하기. (hadoop ver = 2.7.6) $ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount ../input ../output 3-1. java 파일 -> jar 파일로 전환 # hadoop-env.sh 파일 change export JAVA_HOME=/usr/java/default // de.. 2019. 10. 25.
Big Data : Hadoop : Ubuntu 16.04 LTS -> Hadoop 2.7.6 세팅하기! 하~~~~~~~~~~~~~~~~~~~~~~~~ 일단 하를 내뱉고 시작하는 내 애증의 하둡.... 진짜 gaejuk_2랑 이거 때문에, 노트북 하나도 말아먹고..... ubuntu 앱도 말아먹고...... (gaejuk_2 node 부여받았을 때, 그것도 좀 조져놓을걸....힣 보면 극대노할듯) 결국 이번엔 교수님 노드에서 진행한다ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 나중에는 아마 대학원가서 계산을 돌릴 때는 뭔가 ubuntu로만 세팅할 것 같은 느낌이 들어서 일단 많이 배워두자 ㅋㅋㅋㅋㅋ 자! 오늘은 hadoop을 ubuntu에 세팅하는 방법에 대해서 적어보려한다. https://tecadmin.net/setup-hadoop-on-ubuntu/ How to Setup Hadoop on Ubuntu 18.04 & 1.. 2019. 10. 25.
git 설치 및 setting, 기능 Git & Github 오늘은 git 사용법과 github와 어떻게 연동하는지에 대하여 적을 예정이다. 일단 git는 버젼관리를 할 수 있어서 제일 장점인 것 같다. 지금은 github가 초기단계라서 많이 필요할거 같지 않다고 생각하지만, 아무래도 나중에 대학원 가서 condition마다 code를 수정해서 여러 버젼으로 돌려야 하는데, 이때는 git와 github를 사용해야 할 것 같다. ㅎㅎ.....;; git 초기 설정 git 설치는 google에 git 설치하면, windows는 git bash, ubuntu는 apt install git 으로 통해 설치를 하면 된다. git은 일단 두 가지의 경우로 나뉘는 것 같다. 내가 github(원격 서버의 repository)를 그대로 복제하느냐 내가 현.. 2019. 10. 24.