MapReduce 3

2-2. 하둡의 실행

하둡의 실행에 앞서 자세히 다루기로 한 하둡 실행 모드에 대해서 알아보자. 1. Standalone(독립실행) 모드 Standalone 모드는 하둡의 기본 모드이다. 하둡은 사용자의 하드웨어 대한 정보를 가지고 있지 않다. 그래서 하둡은 가장 최소한의 환경 설정을 하게 되는데, 기본 모드에서 세 개의 XML 파일(conf/core-site.xml, conf/mapred-site.xml, conf/hdfs-site.xml)은 아무것도 작성되지 않은 상태로 주어진다. 아무런 환경 설정이 기록되어 있지 않으면, 하둡은 로컬 머신에서만 실행된다.다른 노드들과 통신할 필요가 없기 때문에 standalone 모드에서는 HDFS를 사용하지 않고 다른 데몬들도 실행시키지 않는다. 결론적으로 Standalone 모드의 ..

Experiences/Hadoop 2012.08.31

1-3. MapReduce의 이해

아마 파이프라인이나 메시지 큐와 같은 데이터 처리 모델에 대해 들어본 적이 있을 것이다. 파이프라인은 프로세스를 담당하는 작은 유닛들을 프로세스 처리 중 재사용할 수 있게 해준다.메시지 큐는 프로세스를 동기화하는 기능이 있다. 메시지 큐에서 프로그래머는 데이터 처리 작업을 프로듀서(producer)와 컨슈머(consumer)라는 두 개의 프로세스 단위로 구성하는데, 각각의 프로세스가 실행되는 시점은 시스템에 의해 관리된다.이와 마찬가지로 MapReduce도 하나의 데이터 처리 모델이라고 할 수 있다. MapReduce의 가장 큰 장점은 여러 대의 컴퓨터들에서 데이터를 처리하는 경우, 확장이 쉽다는 점이다.MapReduce의 데이터 처리 기본 단위는 mapper와 reducer이다. 하지만, 데이터 처리 ..

Experiences/Hadoop 2012.08.27

1-1. 하둡의 소개

오늘날 우리는 데이터에 둘러 싸여 있다고 해도 과언이 아니다.사람들은 비디오를 인터넷에 올리고 카메라로 사진을 찍는다. 그리고 친구에게 문자를 보내고, 페이스북의 상태 정보를 업데이트 한다.컴퓨터는 이렇게 많은 데이터를 생성하고 끊임없이 축척하고 있다. 이러한 폭발적인 데이터의 증가는 첨단 비즈니스를 이끌고 있는 구글이나 야후, 아마존, 마이크로소프트 같은 기업에 의해 시작되었다. 소비자의 패턴과 어떤 물건이 잘 팔리고, 어떤 웹사이트를 선호하는지에 대한 세세한 정보들을 알기 위해, 테라나 페타바이트의 데이터를 분석할 필요를 느꼈다. 하지만 현재 사용되는 방법이나 도구로는 이러한 방대한 양의 데이터를 다루는데 충분하지 않았고, 2004년 구글이 맵리듀스(MapReduce)를 공개하게 되었는데, 그것은 구..

Experiences/Hadoop 2012.08.26