wordcount 4

2-2. 하둡의 실행

하둡의 실행에 앞서 자세히 다루기로 한 하둡 실행 모드에 대해서 알아보자. 1. Standalone(독립실행) 모드 Standalone 모드는 하둡의 기본 모드이다. 하둡은 사용자의 하드웨어 대한 정보를 가지고 있지 않다. 그래서 하둡은 가장 최소한의 환경 설정을 하게 되는데, 기본 모드에서 세 개의 XML 파일(conf/core-site.xml, conf/mapred-site.xml, conf/hdfs-site.xml)은 아무것도 작성되지 않은 상태로 주어진다. 아무런 환경 설정이 기록되어 있지 않으면, 하둡은 로컬 머신에서만 실행된다.다른 노드들과 통신할 필요가 없기 때문에 standalone 모드에서는 HDFS를 사용하지 않고 다른 데몬들도 실행시키지 않는다. 결론적으로 Standalone 모드의 ..

Experiences/Hadoop 2012.08.31

1-6. Hadoop 첫 프로그램 실습(WordCount) - 2

이번엔 기존 파일을 수정해서 공백 토큰만 인식했던 부분을 공백 탭 엔터 . , : ; ? ! [ ] ' 을 인식하게 하고, 소문자와 대문자를 같은 단어로 인식하면서 네 번 이상 카운트 되는 경우만 출력하도록 처리하는 프로그램을 만들어보자. # vi 편집기를 이용하던지, 아니면 CentOS xWindow에서 eclipse를 깔아서(http://serapian.pe.kr/200) 수정해도 된다. 수정할 기존파일(playground/src/WordCount.java)을 열고, 아래 그림의 부분과 같이 수정해준다. # vi playground/src/WordCount.java WordCount 예제는 자바의 StringTokenizer를 사용했는데, 추가 설정이 없다면 기본적으로 공백만을 구분자로 사용한다. 여..

Experiences/Hadoop 2012.08.28

1-5. Hadoop 첫 프로그램 실습(WordCount)

먼저, 실습에 앞서 하둡에는 3가지 실행 모드가 존재한다. (자세한 내용은 나중에 따로 설명하도록 하겠다.) 1. Standalone(독립실행) 모드2. Pseudo-distributed(가상 분산) 모드3. Fully distributed(완전 분산) 모드 첫 번째 실습은, Standalone(독립 실행) 모드로 실행된다.Standalone 모드의 특징을 간략히 이야기하면, HDFS를 사용하지 않고 다른 데몬들도 실행시키지 않는다.즉, 로컬 머신에서만 독립적으로 사용한다. 이유는 MapReduce 프로그램의 로직을 개발하고 디버깅하는데에 목적이 있다. # bin/hadoop 하둡에는 다양한 명령들이 존재한다. 근데 우선은 하둡을 실행하기 위한 명령(bin/hadoop jar )만 알고 있으면 된다.자세..

Experiences/Hadoop 2012.08.28