클라우드 12

1-2. 하둡은 무엇인가?

형식적으로 정의하면, 하둡은 대용량 데이터를 처리하는 분산 응용 프로그램을 작성하고 실행시키기 위한 오픈 소스 프레임워크(framework)이다. 그리고 아래와 같이 3가지 장점을 가지고 있다. 접근(Accessible) 하둡은 윈도우 PC 같은 범용 컴퓨터들로 구성된 큰 규모의 클러스터나 아마존의 EC2와같은 클라우드 컴퓨팅 서비스에서 실행된다. 견고성(Robust) 윈도우 PC와 같은 범용 컴퓨터에서 실행되도록 의도되었기 때문에, 하드웨어의 빈번한 고장을 가정하고 설계되었다. 확장가능성(Scalable)대용량 데이터를 처리하는 데 있어서 클러스터에 단순히 컴퓨터(nodes)를 추가함으로써 선형적으로 확장할 수 있다. 간단성(Simple)하둡을 사용하면 효과적인 병렬 코드를 빠르게 작성할 수 있다. 스..

Experiences/Hadoop 2012.08.26

1-1. 하둡의 소개

오늘날 우리는 데이터에 둘러 싸여 있다고 해도 과언이 아니다.사람들은 비디오를 인터넷에 올리고 카메라로 사진을 찍는다. 그리고 친구에게 문자를 보내고, 페이스북의 상태 정보를 업데이트 한다.컴퓨터는 이렇게 많은 데이터를 생성하고 끊임없이 축척하고 있다. 이러한 폭발적인 데이터의 증가는 첨단 비즈니스를 이끌고 있는 구글이나 야후, 아마존, 마이크로소프트 같은 기업에 의해 시작되었다. 소비자의 패턴과 어떤 물건이 잘 팔리고, 어떤 웹사이트를 선호하는지에 대한 세세한 정보들을 알기 위해, 테라나 페타바이트의 데이터를 분석할 필요를 느꼈다. 하지만 현재 사용되는 방법이나 도구로는 이러한 방대한 양의 데이터를 다루는데 충분하지 않았고, 2004년 구글이 맵리듀스(MapReduce)를 공개하게 되었는데, 그것은 구..

Experiences/Hadoop 2012.08.26