2012/08/28 3

1-6. Hadoop 첫 프로그램 실습(WordCount) - 2

이번엔 기존 파일을 수정해서 공백 토큰만 인식했던 부분을 공백 탭 엔터 . , : ; ? ! [ ] ' 을 인식하게 하고, 소문자와 대문자를 같은 단어로 인식하면서 네 번 이상 카운트 되는 경우만 출력하도록 처리하는 프로그램을 만들어보자. # vi 편집기를 이용하던지, 아니면 CentOS xWindow에서 eclipse를 깔아서(http://serapian.pe.kr/200) 수정해도 된다. 수정할 기존파일(playground/src/WordCount.java)을 열고, 아래 그림의 부분과 같이 수정해준다. # vi playground/src/WordCount.java WordCount 예제는 자바의 StringTokenizer를 사용했는데, 추가 설정이 없다면 기본적으로 공백만을 구분자로 사용한다. 여..

Experiences/Hadoop 2012.08.28

1-5. Hadoop 첫 프로그램 실습(WordCount)

먼저, 실습에 앞서 하둡에는 3가지 실행 모드가 존재한다. (자세한 내용은 나중에 따로 설명하도록 하겠다.) 1. Standalone(독립실행) 모드2. Pseudo-distributed(가상 분산) 모드3. Fully distributed(완전 분산) 모드 첫 번째 실습은, Standalone(독립 실행) 모드로 실행된다.Standalone 모드의 특징을 간략히 이야기하면, HDFS를 사용하지 않고 다른 데몬들도 실행시키지 않는다.즉, 로컬 머신에서만 독립적으로 사용한다. 이유는 MapReduce 프로그램의 로직을 개발하고 디버깅하는데에 목적이 있다. # bin/hadoop 하둡에는 다양한 명령들이 존재한다. 근데 우선은 하둡을 실행하기 위한 명령(bin/hadoop jar )만 알고 있으면 된다.자세..

Experiences/Hadoop 2012.08.28

1-4. 하둡을 위한 개발환경 설정하기

1. Hadoop 설치하기 이제 직접 한 대의 컴퓨터를 사용해서 하둡을 실행해보려고 한다. 개발 환경은 다음과 같다.1. OS : CentOS 5.8 (Linux)2. JDK : 1.6.03. Hadoop : 1.0.3 책을 참고하고, 따라 했을 경우에 많이 헷갈리고, 막혔던 부분들이 있었다.그 부분에 대해서 정확히 짚고 넘어가보자. 먼저 하둡을 실행하기 위해서는 1.6이상의 자바가 설치되어 있어야 한다.당연한 이야기이지만, 정말 Java와 그 컴파일러인 javac의 버전을 반드시 확인하고 가야한다. 그리고 하둡의 버전의 경우 2버전까지 릴리즈 되어있지만, 안정화되어 있는 것은 1.x 버전이므로 1.0.3으로 실행해보기를 추천한다. 리눅스 환경이 구축되어있다는 가정하에 시작하겠다.하둡의 1.0.3 버전을..

Experiences/Hadoop 2012.08.28