Experiences/Hadoop

1-1. 하둡의 소개

프로그래머 2012. 8. 26. 00:31

오늘날 우리는 데이터에 둘러 싸여 있다고 해도 과언이 아니다.

사람들은 비디오를 인터넷에 올리고 카메라로 사진을 찍는다


그리고 친구에게 문자를 보내고, 페이스북의 상태 정보를 업데이트 한다.

컴퓨터는 이렇게 많은 데이터를 생성하고 끊임없이 축척하고 있다.

 

이러한 폭발적인 데이터의 증가는 첨단 비즈니스를 이끌고 있는 구글이나 야후, 아마존, 마이크로소프트 같은 기업에 의해 시작되었다.

 

소비자의 패턴과 어떤 물건이 잘 팔리고, 어떤 웹사이트를 선호하는지에 대한 세세한 정보들을 알기 위해, 테라나 페타바이트의 데이터를 분석할 필요를 느꼈다.

 

하지만 현재 사용되는 방법이나 도구로는 이러한 방대한 양의 데이터를 다루는데 충분하지 않았고, 2004년 구글이 맵리듀스(MapReduce)를 공개하게 되었는데, 그것은 구글의 데이터 처리량을 확장하기 위해 사용된 시스템이다.


다른 기업들도 이와 비슷한 확장 문제에 놓여있었기 때문에, 이 시스템에 관심이 모아지기 시작했고, 모든 기업이 자체적으로 시스템을 개발하는 것은 무리가 있었다.


그때 더그커팅(Doug Cutting)은 이러한 기회를 인식하고 하둡(Hadoop)’ 이라는 MapReduce의 오픈 소스 버전을 개발하게 되었다.

 

이와 같이 하둡과 같은 일반적으로 방대한 양의 분산 데이터 처리는 프로그래머에게 가장 필수적인 기술이 되고 있다.


오늘날 유능한 프로그래머는 관계형 데이터베이스와 네트워크 보안에 대해 잘 알아야만 한다.이 기술들은 이전에는 부가적인 기술로 다뤄졌었다.


지금도 그때와 다른 것이 없다. 지금은 하둡도 필수가 아닌 부가적인 기술로 다뤄지고 있다.


정보통신산업진흥원의 최근 자료를 보면 지난해 1인당 평균 보유 데이터량은 128기가바이트라고 한다


근데 2020년에는 무려 130테라 바이트라고 예측하고 있다

무려 1000배 이상 늘어난다는 소리이다


이러한 추세라면 하둡도 부가적인 기술이 아닌 기본적인 자질로서 이해하고 있어야하는 분야가 될 수 있다.


이 공부를 시작하는 것은 하둡을 빨리 받아들이고, 

어떻게 적용할 수 있는지에 대해서 깊게 생각해보고 나누고자 한다.


그리고 내용들의 기본 배경 지식은 

  '거침없이 배우는 하둡(원서 : Hadoop in Action)'을 기본으로 하고 있음을 알린다.

'Experiences > Hadoop' 카테고리의 다른 글

1-5. Hadoop 첫 프로그램 실습(WordCount)  (2) 2012.08.28
1-4. 하둡을 위한 개발환경 설정하기  (2) 2012.08.28
1-3. MapReduce의 이해  (0) 2012.08.27
[!] WordCount 에러  (0) 2012.08.26
1-2. 하둡은 무엇인가?  (0) 2012.08.26