하둡 5

2-3. 하둡의 실행-2

Fully distributed(완전분산) 모드에 대해서 알아보자. 3. Fully distributed(완전 분산) 모드 지금버터는 모든 기능이 갖추어진 클러스터를 구성한다. 구성은 다음과 같다. 1. master - 클러스터의 master 노드로서, NameNode와 JobTracker 데몬을 제공한다.2. backup - SNN(Secondary NameNode 데몬)을 제공하는 서버3. hadoop1, hadoop2, hadoop3 - DataNode와 TaskTracker 데몬을 실행하는 slave Master 노드에서 하둡의 환경 설정 파일(3개의 xml)을 아래와 같이 수정하자. - core-site.xml 이 부분은 파일 시스템을 설정해주기 위한 부분이다. - mapred-site.xml ..

Experiences/Hadoop 2012.09.05

1-4. 하둡을 위한 개발환경 설정하기

1. Hadoop 설치하기 이제 직접 한 대의 컴퓨터를 사용해서 하둡을 실행해보려고 한다. 개발 환경은 다음과 같다.1. OS : CentOS 5.8 (Linux)2. JDK : 1.6.03. Hadoop : 1.0.3 책을 참고하고, 따라 했을 경우에 많이 헷갈리고, 막혔던 부분들이 있었다.그 부분에 대해서 정확히 짚고 넘어가보자. 먼저 하둡을 실행하기 위해서는 1.6이상의 자바가 설치되어 있어야 한다.당연한 이야기이지만, 정말 Java와 그 컴파일러인 javac의 버전을 반드시 확인하고 가야한다. 그리고 하둡의 버전의 경우 2버전까지 릴리즈 되어있지만, 안정화되어 있는 것은 1.x 버전이므로 1.0.3으로 실행해보기를 추천한다. 리눅스 환경이 구축되어있다는 가정하에 시작하겠다.하둡의 1.0.3 버전을..

Experiences/Hadoop 2012.08.28

1-3. MapReduce의 이해

아마 파이프라인이나 메시지 큐와 같은 데이터 처리 모델에 대해 들어본 적이 있을 것이다. 파이프라인은 프로세스를 담당하는 작은 유닛들을 프로세스 처리 중 재사용할 수 있게 해준다.메시지 큐는 프로세스를 동기화하는 기능이 있다. 메시지 큐에서 프로그래머는 데이터 처리 작업을 프로듀서(producer)와 컨슈머(consumer)라는 두 개의 프로세스 단위로 구성하는데, 각각의 프로세스가 실행되는 시점은 시스템에 의해 관리된다.이와 마찬가지로 MapReduce도 하나의 데이터 처리 모델이라고 할 수 있다. MapReduce의 가장 큰 장점은 여러 대의 컴퓨터들에서 데이터를 처리하는 경우, 확장이 쉽다는 점이다.MapReduce의 데이터 처리 기본 단위는 mapper와 reducer이다. 하지만, 데이터 처리 ..

Experiences/Hadoop 2012.08.27

1-2. 하둡은 무엇인가?

형식적으로 정의하면, 하둡은 대용량 데이터를 처리하는 분산 응용 프로그램을 작성하고 실행시키기 위한 오픈 소스 프레임워크(framework)이다. 그리고 아래와 같이 3가지 장점을 가지고 있다. 접근(Accessible) 하둡은 윈도우 PC 같은 범용 컴퓨터들로 구성된 큰 규모의 클러스터나 아마존의 EC2와같은 클라우드 컴퓨팅 서비스에서 실행된다. 견고성(Robust) 윈도우 PC와 같은 범용 컴퓨터에서 실행되도록 의도되었기 때문에, 하드웨어의 빈번한 고장을 가정하고 설계되었다. 확장가능성(Scalable)대용량 데이터를 처리하는 데 있어서 클러스터에 단순히 컴퓨터(nodes)를 추가함으로써 선형적으로 확장할 수 있다. 간단성(Simple)하둡을 사용하면 효과적인 병렬 코드를 빠르게 작성할 수 있다. 스..

Experiences/Hadoop 2012.08.26