대학원 공부/computer science66 Big Data : Hadoop : lecture_3 : YARN 오늘은 YARN이다! YARN의 구조 Yarn은 하둡의 cluster resource management system이다. Yarn은 분산저장&처리시스템을 보완해주고 MapReduce 작업의 효율을 높여준다. YARN은 cluster의 자원을 requesting과 working을 하기위해 API를 제공한다. 여기서 API는 Spark, MapReduce, 등등 분석할 수 있는 알고리즘, 연산을 말한다. 이 API들은 user code에 의해 바로 쓰지 않고 분산컴퓨팅 framework를 위한 condition을 제공한다. 위의 hadoop의 모델처럼 Storage Layer에 HDFS, HBase, Computing 에 YARN, Application에 Spark, MapReduce. Yarn은 크게 R.. 2019. 10. 26. Big Data : Hadoop : lecture_2 : Hadoop_basic_1 Motivation 우리는 모든 data를 하나의 drive로 읽는데 오래걸린다. 따라서 multiple disk로 read를 할 것이다. (100개의 drive -> 1개의 data를 1/100으로 쪼개는 개념) 하지만, multiple disk로 읽으면 문제점이 존재한다. 하드웨어가 fail -> 이는 replication으로 보완 data를 combining 한다. -> MapReduce로 보완 RDBMS VS MapReduce ● Small portion으로 DB를 update 할 때, majority 로 DB를 update 할 때, !!! Small에는 relation을 생각하고, 소량의 데이터를 가진다. sort & merge가 기본이고, 자료구조가 갖춰져 있어 매번 기준에 부합하게 updat.. 2019. 10. 26. Big Data : Hadoop : lecture_1 : Overview of Hadoop Hadoop 이란? hadoop 이란 distributed file system을 의미한다. 흔히 HDFS라 한다. 우리는 hadoop을 이용하여 Big data를 분산저장하고 분산 저장한 data를 MapReduce나 다른 함수를 통해 분석하여 dataset을 생성한다. 우린 그 전에 Big Data가 뭔지 알아야한다. 배경에는 하드디스크는 엄청나게 발전을 하였지만, 실제 연산속도는 하드디스크 발전을 따라가지 못하였다. 따라서 우리가 single drive에서 읽는 속도가 엄청나게 느리고, 또한 쓰는 속도도 느리다. -> 이를 해결하기 위해 data를 split해서 여러 disk에 분산 저장한다. 이렇게 분산 저장하면 문제점이 또한 발생한다. hadoop은 comodity hardware로 이루어져있다.. 2019. 10. 25. Big Data : Hadoop : WordCount 예제 1. HDFS에 dir 만들기 # hdfs 에 dir 만들기 $ hdfs dfs -mkdir -p (내가 저장하고 싶은 공간 : ex)../input) 2. 미리 만들었던 HDFS dir 에 파일 put # 파일 input $ hdfs dfs -put test.txt ../input 3. jar 파일로 Wordcount하기. (hadoop ver = 2.7.6) $ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount ../input ../output 3-1. java 파일 -> jar 파일로 전환 # hadoop-env.sh 파일 change export JAVA_HOME=/usr/java/default // de.. 2019. 10. 25. Big Data : Hadoop : Ubuntu 16.04 LTS -> Hadoop 2.7.6 세팅하기! 하~~~~~~~~~~~~~~~~~~~~~~~~ 일단 하를 내뱉고 시작하는 내 애증의 하둡.... 진짜 gaejuk_2랑 이거 때문에, 노트북 하나도 말아먹고..... ubuntu 앱도 말아먹고...... (gaejuk_2 node 부여받았을 때, 그것도 좀 조져놓을걸....힣 보면 극대노할듯) 결국 이번엔 교수님 노드에서 진행한다ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 나중에는 아마 대학원가서 계산을 돌릴 때는 뭔가 ubuntu로만 세팅할 것 같은 느낌이 들어서 일단 많이 배워두자 ㅋㅋㅋㅋㅋ 자! 오늘은 hadoop을 ubuntu에 세팅하는 방법에 대해서 적어보려한다. https://tecadmin.net/setup-hadoop-on-ubuntu/ How to Setup Hadoop on Ubuntu 18.04 & 1.. 2019. 10. 25. git 설치 및 setting, 기능 Git & Github 오늘은 git 사용법과 github와 어떻게 연동하는지에 대하여 적을 예정이다. 일단 git는 버젼관리를 할 수 있어서 제일 장점인 것 같다. 지금은 github가 초기단계라서 많이 필요할거 같지 않다고 생각하지만, 아무래도 나중에 대학원 가서 condition마다 code를 수정해서 여러 버젼으로 돌려야 하는데, 이때는 git와 github를 사용해야 할 것 같다. ㅎㅎ.....;; git 초기 설정 git 설치는 google에 git 설치하면, windows는 git bash, ubuntu는 apt install git 으로 통해 설치를 하면 된다. git은 일단 두 가지의 경우로 나뉘는 것 같다. 내가 github(원격 서버의 repository)를 그대로 복제하느냐 내가 현.. 2019. 10. 24. 이전 1 ··· 3 4 5 6 다음