[개발] 빅데이터 시대의 하둡 개발자
프리모아_IT기술파트너
·2015. 7. 15. 14:42
빅데이터 시대의 개발자라면 하둡개발자
안녕하세요.
프리모아의 인턴, 탐구하는 개구쟁이 “Big”입니다.
여러분들은 SNS를 이용하시나요? SNS 통해 일상의 많은 정보들을 공유하고 계시지 않으신가요? SNS는 어느덧 우리의 일상생활에 녹아들어 지금 이 시간에도 엄청난 양의 데이터가 처리되고 가공 되고 있습니다.
오늘은 ‘이 수많은 데이터를 어떻게 관리하고 활용하는가??’를 가지고 얘기하려 합니다. 최근에도 빅데이터는 지속적으로도 이슈가 되는 뜨거운 감자인데요, 하루도 빠짐없이 기삿거리에 오르는 오늘 프리모아가 다루고자 하는 주제는 바로 흐름을 꿰뚫는 힘 '빅 데이터'입니다. 궁금하시죠? 지금 시작합니다.
[빅데이터의 등장배경]
디지털 정보화시대가 급성장 하면서 더 많은 통신기에서 뿜어져 나오는 기하급수적 데이터양의 증가로 우리는 보다 효율적인 방식으로 분석하여 유용한 정보를 추출하고, 가공해야 했습니다.
클라우드, 빅 데이터, loT, 머신러닝 등 데이터 활용에 관련된 생소한 용어들이 나타나면서 IT업계에서는 매일 매일 새로운 것들이 만들어지고 발전했습니다. 이제 빅 데이터는 다양한 형태의 데이터를 수집하고, 소비자들의 성향 패턴을 분석하여 효율적인 비즈니스 모델로 확장되었습니다.
[빅데이터 기능 및 처리 흐름과 관리구조 ]
빅데이터 관리는 수집과 활용으로 나누어 4가지 절차와 흐름을 따른다고 볼 수 있습니다.
빅데이터 수집(Aggregation)
1. collecting(수집) 2. store(저장)
빅데이터 활용(Utilization)
3. analysis(분석) 4. visualization(시각화)
[빅데이터 3대 요소(Volume, Velocity, Variety+Value) ]
프리모아의 빅데이터 3대요소
빅데이터의 특징은 흔히 3대 요소로 나타나는데요, 데이터의 양(Volume), 생성속도(Velocity), 다양성(Variety)을 주로 뽑고있습니다. 최근에는 가치를 붙여서 빅데이터의 V4라고도 하지요.
빅데이터의 요소에 대해서 정확하게 이해를 하려면은 과거와 현재의 데이터 처리 방식에 대한 변화에 대해서 먼저 알아야 하는데요. 과거에는 데이터를 DB화 시켜서 내부적으로 관리를 했습니다. 흔히들 웹사이트 가입폼(이름)(주소)(핸드폰번호) 이런 인구통계학적인 부분이 회원 DB로 처리가되었지요.
하지만 최근에는 형식에 얽매이지 않고 다양해지기 시작했습니다. 예를 들어 페이스북의 생일에 올라온 회원의 사진정보들이 빅데이터로 응용이 되고, 사진 업로드 시간 때 라던가, 취미라던가 관심사 등 더 많은 규모와 범위의 빅데이터 활용이 가능해졌지요.
데이터 속도 역시 배치(Batch)에서 실시간(real time)에 가까워져 가고 있습니다. 예를 들어서 웹사이트 유입회원을 분석하기 위해서 구글 애널리틱스에 들어가면 실시간 접속된 회원수, 시간 때에 따른 접속회원량 들을 쉽게 확인하고 통계분석을 바로 낼 수 있지요. 이처럼 데이터 처리 속도에 필요한 소요시간이 점차 짧아지고 있습니다.
그로 인해 과거 데이터 처리가 기존 정보들을 가지고 현상을 분석하였다면, 최근에는 미래를 예측하는 도구로서 활용이 되고 있습니다. 최근에는 프리모아로는 증권정보, 언론정보 분석에도 빅데이터 활용 의뢰가 많이 들어오기도 하는데 예전에 비해 빅데이터에 대한 접근성이 낮아져서 기업에서도 많은 활용을 하려고 하는 것 같습니다.
[빅데이터 분석도구 하둡(Hadoop)]
하둡 프리모아
빅 데이터 분석 기술방식은 여럿 있지만, 오늘은 세계적으로 사랑받고 있는 분석도구 하둡(Hadoop)을 소개합니다.
하둡이란? 저가 서버와 하드디스크를 이용하여 빅데이터(big data)를 상대적으로 쉽게 활용, 처리할 수 있는 분산파일 시스템을 말합니다.
국내에서는 2006년 무렵부터 알려졌으며 개발자는 100여명에 불구한데 최근 빅데이터 기술이 점차 각광받으면서 기업 간에 하둡 개발자 영입 경쟁이 발생하기도 하였습니다.(네이버 시사상식사전 참고)
하둡은 데이터 처리에 시간과 비용의 한계를 접했던 기존의 방식을 넘어서 분산 시스템 상에서 보다 효율적으로 빅 데이터의 저장과 처리를 다루는 자바 기반의 오픈소스 S/W 프레임 워크입니다.
간혹 DW(데이터 하우스)와 하둡의 차이점을 묻는 분이 계신데, 오픈소스인 하둡을 사용하는 것이 비용절감에 유리하다는 장점을 가지고 있습니다.
[ 하둡의 장점과 단점 ]
하둡개발자는 인기가 많습니다.
장점: 기존분석 기술에 비해 저렴하게 데이터 분석 가능
-데이터를 바라보는 관점의 차이(저렴한 처리비용)
-샘플링이 필요 없음(대용량 처리 가능)
-운영 비용이 적음(인프라 운영이 관리 가능)
-분석도구나 프로그래밍 언어에 독립적임
-다양한 개발 도구(오픈 소스 지원)
단점: 분석 방식의 변화 및 내재화 비용
-개념의 변화가 필요(Map/Reduce식 사고 전환 필요)
-Haddop은 진화 중(벤더 배포판 사용 기회 늘어남)
-아직 구현되지 않은 부분이 많음(버전 호환성이 낮은 편)
-장애에 대한 대비 필요(메모리 및 네트워크 관련 시행착오)
-실시간 분석에 대한 필요성(대안 기술 선택적 사용)
[빅데이터 활용사례]
프리모아의 개발자라면
빅데이터는 어느 한 분야가 아닌 유통, 제조, 물류, 언론, 중공업, 금융권, 요식업까지 모든 분야에서 빅 데이터를 활용하여 업무 성과를 창출하고 있으며 기업입장에서 꾸준히 중요하게 다루며 개발의뢰를 맡기고는 하는데요. 그럼 빅데이터 활용 사례들을 통해 향후 전망까지 알아보도록 하겠습니다.
1.미국 대통령 버락 오바마의 선거 공략
테이터 통계를 통해 맞춤형 선거 캠페인을 하면서 유권자들을 공략할 수 있었습니다.
2.서울시 심야버스
국내 성공한 빅 데이터 사례 중 서울시 심야버스가 있습니다. KT 고객들의 통화 로그를 분석해 유동인구의 방향을 추적해 최적의 심야버스 노선을 만들었습니다.
3.구글, 페이스북 광고 시스템
고객의 성향과 검색패턴, 구매패턴을 분석해 고객의 취향에 맞는 광고를 보여 주는 시스템입니다.
[빅데이터 향후전망]
이처럼 빅 데이터의 영향력은 개인뿐만 아니라 기업에도 크게 적용되고 있습니다. 많은 분석가들은 이전의 효과보다 향후 빅 데이터를 통한 이익창출은 조직이나 기업에 결정적인 영향을 준다고 통계하고 있습니다. 세계적으로 이목이 집중되는 추세에 아낌없는 투자를 통해 소비자의 니즈를 읽어 보다 빠르게 트렌드를 이끄는 인재를 양성함으로써 앞으로의 빅 데이터 관련 전문가들의 엄청난 비전을 보고 있습니다.
이상 개발자를 위한 온라인 아웃소싱 플랫폼 프리모아였습니다.
감사합니다.
'IT & 비즈니스 > 개발' 카테고리의 다른 글
[개발] 개발자들의 보금자리 개발자 커뮤니티 리스트 (0) | 2015.10.27 |
---|---|
[개발] 서버사이드 스크립트 언어 (2) | 2015.07.22 |
[개발] 개발자의 몸 값을 높여줄 필독 개발서 리스트 (0) | 2015.07.01 |
[개발] 이달의 신선한 jQuery 플러그인 (0) | 2015.04.27 |
[개발] SW 개발자의 죽여주는 이력서 쓰는 방법 (0) | 2015.03.11 |