Experiences/Hadoop

2-4. 하둡의 실행-3

프로그래머 2012. 9. 7. 11:43

이번 시간에는 Fully Distributed(완전 분산)모드에서 WordCount를 실행해보고 어떻게 작업이 진행되어지는지 웹 기반의 클러스터 UI로 확인해보는 작업을 진행해보자.


저번 시간까지 진행 되었던 부분까지라면 5개의 노드(master, backup, hadoop1, hadoop2, hadoop3)에 각각에 맞는 데몬들이 정상적으로 작동되고 있을 것이다.


먼저 WordCount를 실행하기에 앞서, 클러스터의 상태를 모니터링 할 수 있는 웹 인터페이스에 대해서 소개하고 넘어가겠다. 


NameNode는 50070 포트를 통해서 일반적인 정보를 제공한다. 

이 인터페이스에서 사용자는 filesystem을 살펴보고 클러스터에 속한 각 DataNode의 상태를 확인할 수 있다.

또한, 클러스터가 제대로 작동하는지 검사하기 위해 하둡 데몬의 로그  파일을 검사한다.


하둡은 진행 중인 MapReduce 작업의 대략적인 상태 정보를 제공하는데, 50030포트는 JobTracker의 내용을 보여준다.


이 인터페이스를 통해서 손쉽게 많은 정보를 얻을 수 있다. 

진행 중인 MapReduce 작업의 상태 정보뿐만 아니라 완료된 작업의 자세한 보고서도 얻을 수 있다.


또한 완료된 작업은 특히 어떤 노드가 어떤 작업을 수행했는지 기록하고, 작업을 완료하기 위해 얼마만큼의 시간과 자원이 필요한지 보여준다.  마지막으로 각각의 작업에 대한 하둡의 환경 설정을 볼 수 있다.




혹시라도 웹 인터페이스가 안뜬다면, 방화벽 문제일 가능성이 가장 크다.

50070, 50030 포트를 방화벽 예외 처리를 해주어야 한다.


이제 WordCount를 직접 실행해봄으로서, 웹 UI가 어떤 점에서 좋은지 한번 살펴보자.



'Experiences > Hadoop' 카테고리의 다른 글

2-3. 하둡의 실행-2  (0) 2012.09.05
[!] Pseudo-distributed 모드에서 WordCount 에러  (0) 2012.08.31
2-2. 하둡의 실행  (1) 2012.08.31
2-1. 하둡의 구성요소  (6) 2012.08.29
1-6. Hadoop 첫 프로그램 실습(WordCount) - 2  (0) 2012.08.28