태그를 입력해 주세요. 4

[!] Pseudo-distributed 모드에서 WordCount 에러

Error 1localhost:9000에 관련된 오류에 대해서 한번 해결해보자. 혹시 위와 같은 화면이 나타났던가? 그렇다면 이것이 어떤 문제인지 한번 알아보고, 해결해보자. Call to localhost/127.0.0.1:9000 failed on connection exception : 9000번 포트에 접속을 실패했다는 소리같다. 어떤 문제일까? 바로 정답은.. 하둡 서버를 Start하지 않아서 생긴 문제이다. # bin/start-all.sh 를 통해서 다시 시작해주고 모든 데몬이 성공적으로 실행되었는지 확인하자. 서버를 시작해줬는데도 혹시 Retrying connect to server 에러가 나타난다면, 그것은 아마도 방화벽 문제일 가능성이 크다. 그렇다면 방화벽 설정에 대해서도 한번 공부해..

Experiences/Hadoop 2012.08.31

2-1. 하둡의 구성요소

이번 파트에서는 하둡의 물리적 컴포넌트에 대해 설명하고, 클러스터의 구축에 대해 설명하려고 한다.또한 하둡의 세 가지 실행모드를 자세히 다룬다.마지막으로 사용자의 클러스터를 모니터링 하기 위한 웹 기반 도구에 대해 공부한다. 하둡을 실행한다는 것은 네트워크상의 서로 다른 서버에서 여러 개의 데몬(daemon) 또는 상주 프로그램들을 실행 한다는 것을 뜻한다. 이러한 데몬은 특별한 역할을 한다.하둡의 데몬의 종류는 다음과 같은 것들이 있다. - NameNode- DataNode- Secondary NameNode- JobTracker- TaskTracker 각각에 대해서 알아보자! 1. NameNode 가장 필수적인 하둡 데몬은 NameNode이다.하둡은 분산 저장과 분산 연산에 대해 master/slav..

Experiences/Hadoop 2012.08.29

1-3. MapReduce의 이해

아마 파이프라인이나 메시지 큐와 같은 데이터 처리 모델에 대해 들어본 적이 있을 것이다. 파이프라인은 프로세스를 담당하는 작은 유닛들을 프로세스 처리 중 재사용할 수 있게 해준다.메시지 큐는 프로세스를 동기화하는 기능이 있다. 메시지 큐에서 프로그래머는 데이터 처리 작업을 프로듀서(producer)와 컨슈머(consumer)라는 두 개의 프로세스 단위로 구성하는데, 각각의 프로세스가 실행되는 시점은 시스템에 의해 관리된다.이와 마찬가지로 MapReduce도 하나의 데이터 처리 모델이라고 할 수 있다. MapReduce의 가장 큰 장점은 여러 대의 컴퓨터들에서 데이터를 처리하는 경우, 확장이 쉽다는 점이다.MapReduce의 데이터 처리 기본 단위는 mapper와 reducer이다. 하지만, 데이터 처리 ..

Experiences/Hadoop 2012.08.27