강좌 소개

도대체 하둡이 뭐죠?

하둡이란

아주 간단하게 말하면 여러 컴퓨터를 네트워크로 연결하여, 엄청나게 많은 양(big)의 정보(data)를 빠르게 저장하고 읽을 수 있게 해주는 시스템입니다.

 



등장배경

하둡이 만들어지게 된 배경에는 컴퓨터의 발전 속도가 연관되어 있습니다. 처음 컴퓨터가 나온 이후, 무어의 법칙에 따라 반도체의 집적회로 성능은

평균적으로 24개월마다 2배씩 증가해왔죠.


하지만 우리는 물리학의 세계에 살고 있습니다. 컴퓨터의 역사 70여년 간 상당히 정확하게 들어맞았던 무어의 법칙이 한계에 도달할 수밖에 없는

것이지요. 하드웨어는 엄청난 속도로 발전해왔고, 결국 물리적 한계에 상당히 근접했습니다.


 앞으로 단일 머신이 낼 수 있는 속도는 획기적으로 높이기 어려울 것으로 예측됩니다. 하지만 갈수록 우리가 다루어야 하는 데이터는 늘어나고 있습

니다. 그래서 단일 머신의 한계를 극복하기 위해 나온 방법 중 하나가 바로, 하둡입니다.

 



다시 한 번, 하둡이란

 단일 머신으로 한계가 있다면, 여러 대의 머신을 사용하면 되지 않을까? 그런 생각에서 나온 개념이 바로 클러스터입니다. 수많은 컴퓨터를 네트워

크로 연결하는 클러스터, 그리고 이 클러스터를 이용해 아주 빠른 속도로 데이터를 처리할 수 있게 도와주는 프로그램인 MapReduce, 그리고 클러

스터의 자원을 효율적으로 관리하여주는 YARN까지 합쳐서 하둡이라고 부릅니다.


하둡은 위에서 말한 세 부분이 모여서 만들어집니다. 이 세 부분은 클러스터인 분산 파일 시스템(HDFS), 분산 병렬처리시스템 (MapReduce), 하

둡 클러스터 자원관리시스템(YARN)입니다. 각 부분의 역할과 효용은 이렇습니다.


분산 파일 시스템 : 대용량, 확장성

분산 병렬처리시스템 : 빠른 계산

하둡 클러스터 자원관리시스템 : 효율성

 

 이제 처음 요약했던 문장이 쉽게 이해가 되실 것입니다. 하둡이란, 빅데이터를 다룰 수 있게 해주는 하나의 시스템입니다.

 

 



수강대상

  • 네트워크를 구축해야 하는 시스템 엔지니어
  • 빅데이터를 다루어야 하는 전문가
  • 빅데이터를 다루는 기업에서 일하는 개발자분들
  • 빅데이터의 처리분석과 활용에 관심이 있는 취준생 및 현업 종사자분들


하둡을 제대로 이해하고 싶으시다면 이 강의를 꼭 들으셔야 합니다.


하둡을 전혀 모르셔도 됩니다. 노베이스라고 생각하셔도, 이 강의를 수강하고 나면 완벽하게 이해할 수 있고 빅데이터 플랫폼이 무엇

인지 알 수 있게 됩니다.


하둡이 무엇인지 전혀 몰랐던 분들도, 이름만 어렴풋이 알던 분들도 이제는 명확하게 이해할 수 있습니다.

 

 



강사소개

장형석 교수님은 2012년 국내 최초로 Hadoop 강의를 개설하신 빅데이터 분야의 대가이십니다. 현재 국민대학교 겸임교수와 숙명여대 빅데이터

센터 연구소장을 역임하고 계시며 빅데이터 관련 서적을 저술하였습니다. 또한 대학과 기업에서의 수많은 현장 강의로 강의 경험이 풍부하십니다.

 


저서

[실전 하둡 운용 가이드] 한빛미디어, 2013.07

[빅데이터 컴퓨팅 기술] 한빛아카데미, 2014.06

[비주얼 컴플렉시티] 한빛미디어, 2016.04

[하둡완벽가이드 개정4판] 한빛미디어, 2017.03

 

 



하둡의 현재와 미래

슈퍼컴퓨터가 없어도 빅데이터를 처리할 수 있게 해준 기술, 하둡의 등장 이후로 빅데이터를 활용하는 기업은 꾸준히 늘고 있습니다. 그와 함께 하

둡 시장도 엄청난 성장을 거듭해오고 있고요.


2006년 2월 등장한 하둡은, 태어난지 10년만에 2016년 한화 8조 8000억원 규모의 시장으로 성장하였습니다. 이후 연평균 50%씩 성장해 2022년

에는 100조원에 이를 것으로 추정됩니다.


한국정보화진흥원의 빅데이터 동향과 이슈에 따르면 2017년 기준 세계에서 빅데이터를 도입하고 활용하는 기업이 53%에 이릅니다. 그 중, 종업원

수가 5천명이 넘는 기업의 70%가 빅데이터를 이미 활용하고 있다고 하고요. 이후 현재까지 빅데이터를 활용하는 기업은 계속 증가하고 있습니다.


야후, 페이스북, 샤오미, 스코틀랜드 왕립 은행, CERN 등은 하둡을 이용 중이며, 이 외에도 데이터를 다루는 회사에서 하둡을 이용하지 않는 곳이

드물 정도입니다. 빅데이터를 활용하지 못하면 도태되기 때문에 선택이 아닌 필수지요.

 

이젠 빅데이터의 시대라고 하기도 민망할 정도로 빅데이터가 당연해진 시대에, 그 데이터를 사용하고 다루기 위해서는 하둡에 대해 공부해야만 합니다.



 지금 바로 시작하세요!

 



커리큘럼

Part 1 하둡의 이해

- 하둡의 역사와 이해

- 하둡의 3가지 시스템인 HDFS, MapReduce, YARN에 대한 이해

- HDFS : 하둡 기반의 대용량 저장시스템인 하둡 분산파일시스템에 대한 자세한 설명

- MapReduce : 분산병렬처리 시스템으로 엄청나게 빠른 속도로 데이터 처리 및 집계가 가능

- YARN : 수십대에서 수천대로 이루어진 하둡 클러스터의 자원관리시스템에 대한 이해

 


강의 목록

1. 하둡 개요
22:06

2-1. HDFS 개요(1)
25:49

2-2. HDFS 개요(2)
23:27

2-3. HDFS 개요(3)
33:33

3-1. MapReduce 개요(1)
34:14

3-2. MapReduce 개요(2)
24:39

3-3. MapReduce 개요(3)
37:41

4. YARN 개요
28:05
  • 참고자료
    4개

선생님

장형석
쪽지

전문분야 : 빅데이터, 머신러닝(R,Python), 분산병렬처리(Hadoop), 검색엔진/자연어처리

경력

현) 엔티시스 부사장

현) 숙명여자대학교 빅데이터센터 연구소장

전) 13~18 : 국민대학교 빅데이터경영MBA과정 교수

전) 12~17 : 충북대학교 비즈니스데이터융합학과 교수

전) 00~11 : 닷컴솔루션 대표


수강평

강좌에 대한 의견을 기다리는 중입니다.

선생님의 다른 강좌


₩60,000
공유
단체수강
총 8강 · 3시간 50분 분량
60일 동안 무제한 수강 가능
4개의 참고자료 제공
모바일 앱으로 수강 가능

부스터 강좌