hadoop wordcount 3

2-3. 하둡의 실행-2

Fully distributed(완전분산) 모드에 대해서 알아보자. 3. Fully distributed(완전 분산) 모드 지금버터는 모든 기능이 갖추어진 클러스터를 구성한다. 구성은 다음과 같다. 1. master - 클러스터의 master 노드로서, NameNode와 JobTracker 데몬을 제공한다.2. backup - SNN(Secondary NameNode 데몬)을 제공하는 서버3. hadoop1, hadoop2, hadoop3 - DataNode와 TaskTracker 데몬을 실행하는 slave Master 노드에서 하둡의 환경 설정 파일(3개의 xml)을 아래와 같이 수정하자. - core-site.xml 이 부분은 파일 시스템을 설정해주기 위한 부분이다. - mapred-site.xml ..

Experiences/Hadoop 2012.09.05

1-6. Hadoop 첫 프로그램 실습(WordCount) - 2

이번엔 기존 파일을 수정해서 공백 토큰만 인식했던 부분을 공백 탭 엔터 . , : ; ? ! [ ] ' 을 인식하게 하고, 소문자와 대문자를 같은 단어로 인식하면서 네 번 이상 카운트 되는 경우만 출력하도록 처리하는 프로그램을 만들어보자. # vi 편집기를 이용하던지, 아니면 CentOS xWindow에서 eclipse를 깔아서(http://serapian.pe.kr/200) 수정해도 된다. 수정할 기존파일(playground/src/WordCount.java)을 열고, 아래 그림의 부분과 같이 수정해준다. # vi playground/src/WordCount.java WordCount 예제는 자바의 StringTokenizer를 사용했는데, 추가 설정이 없다면 기본적으로 공백만을 구분자로 사용한다. 여..

Experiences/Hadoop 2012.08.28

1-5. Hadoop 첫 프로그램 실습(WordCount)

먼저, 실습에 앞서 하둡에는 3가지 실행 모드가 존재한다. (자세한 내용은 나중에 따로 설명하도록 하겠다.) 1. Standalone(독립실행) 모드2. Pseudo-distributed(가상 분산) 모드3. Fully distributed(완전 분산) 모드 첫 번째 실습은, Standalone(독립 실행) 모드로 실행된다.Standalone 모드의 특징을 간략히 이야기하면, HDFS를 사용하지 않고 다른 데몬들도 실행시키지 않는다.즉, 로컬 머신에서만 독립적으로 사용한다. 이유는 MapReduce 프로그램의 로직을 개발하고 디버깅하는데에 목적이 있다. # bin/hadoop 하둡에는 다양한 명령들이 존재한다. 근데 우선은 하둡을 실행하기 위한 명령(bin/hadoop jar )만 알고 있으면 된다.자세..

Experiences/Hadoop 2012.08.28