조완섭 교수, 충북대학교 경영정보학과, wscho@chungbuk.ac.kr
1. 개요
전세계의 데이터는 매년 40%씩 증가하고 있으며, 2010년에는 Zettabyte 시대에 진입하였다. 1 Zettabyte는 미국 의회도서관에 소장된 데이터의 400만배(2011년 기준, 235 TB)에 이르는 방대한 분량이다. 이러한 데이터는 매달 10억개의 트위트 데이터, 매달 300억개의 페이스북 메시지, 1조대 이상의 모바일 기기 보급 등과 같은 정보화 시대의 산물이다.
이와 같이 폭발적으로 생성되고 있는 빅데이터를 활용하면 엄청난 경제적 가치가 있다는 사실이 밝혀지면서 선진국을 중심으로 빅데이터 기술과 활용에 관심을 갖기 시작하였다.
미국의 과학기술정책자문위원회는 2010년 “모든 연방정부는 빅데이터 전략 수립이 필요하다”라고 제시하고, 2012년 3월 빅데이터 연구개발에 2억달러 이상을 투입한다는 계획을 발표하였다1). 미국에서 의료분야에 빅데이터를 활용하면 년간 3300억달러의 가치가 예상되고, 유럽의공공분야에서 2500억유로의 절감효과가 있다고 예측되었다(맥킨지 2011년 5월 보고서)2). 또한, 2018년까지 미국에서만 연간 14만명에서 19만명의 데이터 분석전문가가 추가로 필요하고, 150만명의 데이터 기반 관리자가 필요한 것으로 추정되었다2).
빅데이터란 기존의 컴퓨팅 기술로는 저장, 관리,분석이 불가능할 정도로 큰 데이터의 집합 및관련 기술과 인력을 통칭하는 의미로 사용되고있다. 빅데이터의 출발은 IT 기술이지만 이미 사회, 문화, 정치 등으로 확산되고 있다. 소셜 미디어 빅데이터 분석은 이제 대통령이나 국회의원선거에서 유권자의 마음을 읽는 중요한 수단이 되고 있으며, 기업에서는 고객의 목소리를 신속하고 정확하게 파악하는데 활용되고 있다.
빅데이터의 특징은 3Vs로 설명된다. [표1]은 빅데이터의 특징을 보여주고 있다.
빅데이터의 생성원천은 크게 네가지 정도로 구분해 볼 수 있다. 먼저 비즈니스 데이터의 급증이다. TESCO사는 매달 15억건 이상의 고객관련 데이터를 수집하고 있으며, 많은 제조회사 생산라인에서는 초당 수천건의 빅데이터가 생성되고있다. 다음으로, 멀티미디어 콘텐츠의 보편화이다. YouTube, CC 카메라, CT/MRI등 다양한 이미지/비디오 데이터가 곳곳에서 생성되고 있다.또 다른 빅데이터 소스는 소셜미디어의 활성화이다. Twitter, Facebook, 카카오톡 등에서 생성되는Text/Image/Video의 크기는 상상을 초월할정도이고, 이들을 분석하면 고객의 마음을 신속하고 정확하게 파악할 수 있으므로 마케팅이나 선거 등에서 중요한 분석대상이 되고 있다. 마지막으로 M2M(Machine to Machine)/IoT(Internet of Things) 스트림 데이터이다. 각종 센서에서 365일 × 24시간 쏟아지는 데이터로써 2014년 현재 무선 통신망에 접속하는 단말기 개수가 500억개를 돌파하였다(Ericsson 자료).
빅데이터를 분석하면 현대 인류가 직면한 식량,에너지, 의료, 환경, 공공행정 등 다양한 분야의난제를 해결하는데 크게 기여할 것으로 예측하고 있다2). Economist는 SNS와 M2M 등의 빅데이터를 효과적으로 분석하면 전세계가 직면한 환경, 에너지, 식량, 의료문제에 대한 해결책을 제시할 것이라고 예측하였다. 의료 분야의 예를 들면 캐나다의 대학병원에서 미숙아실에 설치된 각종 첨단의료기기의 빅데이터를 분석하여 미숙아들의 감염여부를 기존의 2시간 전에 예측하던 것을 24시간 전에 예측할 수 있도록 개선하였다. 이를 통하여 유아 사망률을 대폭 감소시켰으며, 결과적으로 의료비 절감과 의료산업의 혁신 사례로 볼 수 있다3).
미국의 IT분야 리서치 전문업체인 Gartner는 데이터가 21세기 원유이고, 미래 경쟁력을 좌우하는 핵심이라고 전망하였다. 기업들은 이미 다가선 데이터 경제시대를 이해하고 데이터 시대를준비해야 한다고 하였다. McKinsey는 빅데이터를 활용하면 기업 및 공공분야 경쟁력 확보와생산성 개선, 비즈니스 혁신, 신규 비즈니스 창출이 가능할 것으로 예측하였다.
2. 데이터 과학자
데이터 과학자(Data scientist)는 데이터 분석을통하여 가치를 창출하는 전문가를 의미하며, 최근들어 선진국을 중심으로 인기가 치솟고 있는 신규직종이다. 미국의 공영방송인 NPR은 “최근기업들은 머리는 수학/통계지식으로, 손은 컴퓨터 해커 수준으로(IT 기술로), 눈은 예술적 안목을 가진 사람을 찾는데 애를 먹고 있다”라고 보도하였다. 데이터 과학자의 특성을 잘 표현한 말이다. 예술적인 안목을 가져야 한다는 의미는 거대한 쓰레기 더미 같은 빅데이터를 수집, 정제,분류, 요약하여 중요한 의미를 발견하고, 직관적으로 이해할 수 있도록 가시화하는 것으로 예술가의 영역과 비슷한 것이다.
데이터 과학자가 가져야 할 역량을 벤다이어그램으로 표현하기도 한다. [그림1]은 데이터 과학자가 가져야 할 역량으로 IT 기술(Hacking Skills), 수리 통계 지식(Math & Statistics Knowledge), 현업 지식(Substantive Expertise)을 들고 있다.이 세가지를 겸비한 전문가를 데이터 과학자라고 한다. 그림에서 IT 기술과 현업지식을 겸비한 사람을 위험인물(Danger zone)으로 묘사하고 있다는 점이 흥미롭다. 수학/통계학적인 지식없이 빅데이터를 처리하고 분석하여 결과를 의사결정에 사용한다면 위험한 상황이 초래될 수 있다는 의미이다. 특히, 그 의사결정이 병원에서 생명을 다루거나 중요한 국가 정책을 결정하는 것이라면 수학 및 통계학적인 분석 이론의 뒷받침이필수적이라는 의미이다.
맥킨지 보고서의 예측에 따르면 2018년까지 미국에서만 150만명의 데이터 분석 기반의 관리자가 추가로 필요하다고 전망하였고2), 이는 기업내 재직자 교육의 중요성을 의미하고 있다. 앞으로 관리자로 진출할 직원들은 조직 내 빅데이터를 분석하고, 그 결과를 활용하여 과학적인 의사결정을 해야 할 것이라는 의미로 볼 수 있다.
미국 등 선진국에서는 데이터 과학자를 양성하는 대학내 학위과정과 자격증 과정을 활발하게 개설하고 있다4). 특히, 데이터 과학자들의 연봉이나 취업율도 유사학과 졸업생에 비하여 훨씬우수함이 벤치마킹 결과 나타나고 있다5). 노스캐롤라이나 주립대학교의 데이터 과학자 석사과정 졸업생을 밴치마킹한 결과 MIT Finance 전공자나 카네기 멜론 정보시스템 전공자와 비교하여 급여는 유사하고, 취업율의 경우 10% 이상이 높다는 사실이 밝혀졌다.
3. 빅데이터 기술
빅데이터는 기존의 데이터에 비하여 크기가 크고, 비정형 데이터(숫자 데이터와 달리 그림이나 영상, 문서처럼 형태와 구조가 복잡해 정형화 되지 않은 데이터)를 포함하고 있으며, 실시간 분석이 요구되는 경우가 많으므로 기존의 컴퓨팅 기술과는 다른 기술이 요구된다. 먼저 데이터가 크기 때문에 하나의 컴퓨터에 데이터를 저장하는 것이 불가능하다. 그래서 수백대, 수천대의 컴퓨터를 연결하여 구성한 클라우드 컴퓨터에 데이터를 분산저장하여 저장공간을 넓히고,분산 병렬처리하여 처리 속도를 높이는 기술이 필요하다. 또한 비정형 데이터를 포함하는 경우가 많으므로 다양한 멀티미디어 처리 기능과 자연어 처리 기술이 요구된다. 마지막으로 대규모데이터를 실시간으로 처리하고 분석하는 요구가증가하고 있으며, 이를 위하여 메인 메모리 데이터베이스 등 실시간 처리 기술이 요구된다.
분산처리를 위해서는 Hadoop과 같은 특별한 파일 시스템과 NoSQL, Hive 등의 빅데이터용 데이터베이스 관리 시스템이 필요하다. [그림2]는 빅데이터 처리를 위한 요소 기술을 정리한 표이다. 좌측 하단의 Aggregator는 다양한 소스로부터 빅데이터를 수집하는 기술과 도구들이다. 그우측에는 데이터 저장기술로써 Hadoop 파일 시스템과 NoSQL 등의 데이터베이스 도구들이 있다. 중간 좌측에는 실시간 분석기술들이 있으며, 그 우측에는 배치 분석 기술들이 있다. 마이닝 기술이나 통계 기술(R)이 여기에 배치된다. 상단에는 분석결과를 가시화하거나(Visualization) 사용자와 인터페이스 하는 기술들이고, 우측에는 관리 및 모니터링 기술들이 배치되어 있다.
이러한 기술들은 대부분 오픈소스라는 점에서 특징이 있다. 즉, 소프트웨어 자체에서 수익이 발생하는 것이 아니라, 이들 기술의 활용과 관련된 컨설팅과 데이터를 수집하고 관리하며 분석하는 곳에서 가치가 발생하는 것이다.
4. 빅데이터 활용 비즈니스
빅데이터 관련 사람과 기술은 궁극적으로 비즈니스 혁신과 새로운 비즈니스 창출로 이어져야가치가 있다. 최근 선진국을 중심으로 빅데이터를 활용한 비즈니스 혁신 사례가 속출하고 있다. 그저 쌓아놓고 있던 데이터가 깨어나서 비즈니스에 유용한 가치를 창출하고 있는 것이다.
–제조업체들은 생산장비에서 쏟아지는 대용량데이터를 분석하여 불량률을 획기적으로 줄이고있으며,
–카드사, 유통사들은 고객의 구매 정보를 분석하여 개인화된 마케팅에 활용하고 있고,
–통신, 교통, 물류 기업들도 사람 및 상품의 이동경로가 비즈니스에 상당한 기회를 줄 수 있다는 사실을 파악했으며,
–광고회사는 현재 주변에 모인 고객(좌석에 앉은고객)의 취향을 실시간으로 반영한 옥외광고(좌석 화면)을 제공하고 있고,
–정유회사는 전세계 곳곳에 설치된 시추시설에센서를 부착하여 중앙집중방식으로 관리 및 유지보수를 함으로써 시설관리 비용을 획기적으로 절감하고 있으며,
–병원에서는 빅데이터 분석을 통하여 미숙아의사망률을 획기적으로 줄이고 있고, 임상데이터와 SNS 데이터 및 의료보험 데이터를 통합하여 개인 맞춤식 진료가 가능하게 되고,
–구글 자동차, 구글 번역기, IBM 왓슨 등은 빅데이터 기반 비즈니스의 창출을 예고하고 있다
[그림3]은 기존의 비즈니스 데이터에 빅데이터를 추가하여 통합 분석함으로써 비즈니스를 혁신하는 과정을 보여주고 있다. 아마존 사이트는 빅데이터 분석 기반의 실시간 추천 시스템에서매출의 30%를 달성하고 있으며, 대만의 고속전(THSRC)은 센서를 통하여 지상선의 두께, 바퀴의 순환, 온도 등을 포함하여 320,000개 항목의 데이터를 실시간으로 수집하여 분석함으로써 99.15%의 경우 6초 이내 정시도착과 출발이 가능하게 되었고, 승객 안전을 획기적으로 개선하였다6).
빅데이터를 비즈니스에 활용하면 이상현상을 감지할 수 있으며, 가까운 미래를 예측함으로써 사후감지 보다는 사전예방 체계를 갖출 수 있다. 이상현상의 감지는 다양한 산업 분야에서 중요한 의미를 가진다. 제조업에서는 수율(불량) 관리나 제조설비 고장을 예측하는데 사용되며, 금융업에서는 신용카드 부정사용이나 리스크 관리에 활용된다. 통신업체에서는 고객이탈 감지에,공공분야에서는 대기나 수질오염을 감시하는데 활용된다.
볼보 자동차의 경우 신차의 운행 과정에서 각종센서가 수집하는 자료를 본사의 서버로 보내서축적하고, 제품개발에서 찾기 어려운 결함과 고객의 요구를 분석해 낸다. 과거 50만대의 차량이 팔린 후 알 수 있는 결함을 지금은 1,000대정도 판매된 시점에서 포착하여 대규모 리콜 사태를 방지하며, 그 결과 비용을 절감한다.
정유회사인 H사의 경우 전 세계에 흩어져 있는시추시설의 수많은 장치에 이상 징후가 나타나면 빠르게 대처해야 막대한 손실을 줄일 수 있다. 이를 위한 인력 배치와 운영에 고비용을 사용하고 있었으나 최근 시설당 4만여개의 센서를부착하고 소수의 전문 인력들이 중앙에서 전 세계 장비를 집중적으로 관리할 수 있도록 함으로써 시설관리 비용과 고장으로 인한 손실을 대폭 줄였다. 시설별로 부착된 4만여개의 센서로부터생성되는 데이터를 분석하여 장비 또는 부품의교체 주기, 이상 예측, 시설 및 장비별 효율성을분석하는 것이 가능해졌기 때문이다.
의생명 빅데이터의 경우 빅데이터 중에서도 가장 큰 볼륨, 최고의 분석 난이도와 가치를 가지고 있는 분야이다. 유전체 등 생명과학 분야의 빅데이터에서 환자의 의무기록, 거주지역 정보, 식생활습관, 직업이력 등 광범위한 데이터의 수집과 분석을 통하여 치료 방법을 개선할 수 있고, 이를 통해 의료비용 감축과 의료기술의 획기적 발전이 가능하게 된다. 제약 및 R&D 데이터, 임상/병상 데이터, 사고/보험/비용 데이터, 환자행동 및 감정 데이터를 통합하여 분석하면 명실상부한 개인 맞춤식 의료가 가능하게 되어 의료 기술의 획기적 발전과 의료비 절감이 예상된다(미국의 경우 의료비의 8%까지 절감 예상)2).
5. 기업의 분석지능 7, 8)
분석지능(Analysis Quotient)이란 빅 데이터로부터 조직의 전략 계획을 수립하고, 운영 프로세스를 개선하며, 전체적인 의사결정에 활용하는 정도를 의미한다. 즉, 빅데이터 분석을 기반으로 통찰력을 얻으며, 미래 상황까지 예측하는 ‘분석지능(AQ)’이 미래의 불확실성을 극복하고, 기업(조직)이 생존하기 위한 필수 덕목으로 되고 있다. MIT Sloan Management와 IBM 연구소의 공동조사결과에 따르면 조직의 분석지능은 다음 4단계로 구분되며, 분석지능이 높을수록 과학적인 의사결정을 신속하게 함으로써 리스크 관리능력과 혁신 능력이 뛰어난 것으로 조사되었다.
- 1단계 이제 막 데이터 분석에 관심을 갖기 시작한 조직
- 2단계 어느 정도 데이터를 활용하지만 비즈니스와 연계하지는 못하는 조직
- 3단계 과거 데이터를 분석할 수는 있어도 미래를 예측하지는 못하는 조직
- 4단계 과거와 현재, 미래를 예측할 수 있는 데이터를 모두 분석하고 활용해 성과를 창출하는 조직
‘우리 조직은 어느 단계에 속해 있는가?’에 대해MIT Sloan Management Review에서 CEO 3,000명을 설문조사한 결과 Top-Performing 회사가 그렇지 않은 회사에 비해서 5배 이상의 분석능력을 갖고 있음을 발표하였다.
6. 지속가능한 빅데이터 활용 - 빅데이터 거버넌스 6, 9)
빅데이터의 활용이 강조될수록 빅데이터에 대한 체계적인 관리(거버넌스)가 중요한 문제로 부각될 것이다. 이는 자동차가 널리 활용되면서 법규나 제도 및 조직과 인력이 확충된 것과 유사한 문제이다.
실시간으로 쏟아지는 빅데이터의 분석 결과로부터 미래에 관한 통찰력을 얻고, 중요한 의사결정에 활용하며, 이러한 효과가 지속가능하기 위해서는 빅데이터 거버넌스(데이터의 품질보장, 프라이버시 보호, 데이터 수명관리, 데이터 소유 및 관리권의 명확화 등)가 함께 정착되어야 한다. 품질이 낮은 데이터의 분석결과는 오
류를 포함하므로 중요한 의사결정에 활용될 수없을 것이다. 개인의 프라이버시를침해하는 데이터가 적절히 관리되지 못하면 빅브라더의 우려가 현실화될 것이다. 폭증하는 데이터의 수명(Lifecycle)이 제대로 관리되지 못하면 IT 비용 증가는 물론 각종 규제에 대응할 수 없을 것이다.이러한 기술적인 문제가 완비되더라도 데이터관련 문제를 전담하고 책임지는 조직과 인력이 없다면 빅데이터의 효과는 일회성에 그치거나위험한 상황으로 진전할 것이다.
빅데이터의 활용 효과가 지속가능 하기 위해서는 빅데이터 활용과 함께 거버넌스 문제를 함께고민해 나가야 한다. 빅데이터를 활용하여 조직의 업무를 혁신적으로 개선하고 미래에 관한 통찰력을 얻고자 하는 곳에서는 빅데이터 거버넌스 프로그램을 함께 수립함으로써 빅데이터 활용의 효과를 지속가능하게 해야 한다. 현재 빅데이터의 활용에 관해서는 충분한 강조가 이루어지고 있으나 거버넌스에 관한 논의는 전무하여 지속성을 걱정하게 된다.
7. 결론
빅데이터를 기반으로 다양한 분야에서 글로벌시장을 주도하는 ‘개인화된 지능형 서비스’ 제공역량이 기업, 국가의 경쟁력을 좌우하는 빅데이터 시대가 도래하였다. 대규모 정보를 수집, 전송하는 정보자원 인프라와 이를 기반으로 실시간으로 정확하게 데이터를 분석하는 기술력, 다양한 서비스에 적합한 분석모델을 고안하는 인적 인프라, 효과적인 데이터 자원의 체계적인 수집, 관리가 미래 사회에서 국가와 기업의 경쟁력을 좌우하는 핵심 요소가 될 것이다. 이를 위하여 조직은 데이터 자원, 데이터 과학자, 빅데이터 기술이라는 세가지 요건을 갖추는데 노력하여 비즈니스 혁신과 새로운 비즈니스 창출에 원동력으로 삼아야 할 것이다. 특히, 조직의 CEO들이 빅데이터 분석을 통한 과학적 의사결정을 하겠다는 조직 문화의 확산이 빅데이터 시대에 경쟁력을 높이는데 가장 중요한 요소가 될 것이다. 또한, 빅데이터의 활용을 강조하는 만큼 빅데이터 거버넌스에도 관심을 가져야 하는 시점이다.
[참고문헌]
1) 선진국의 데이터기반 국가미래전략 추진현황과 시사점, IT &Future Strategy, 한국정보화진흥원(NIA) 제 2호, 2012.4.6
2) James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers, Big data: The next frontier for innovation, competition, and productivity, McKinsey Global Institute, 2011.5.
3) 빅데이터, 세상을 바꾸다(http://vimeo.com/37513263), KBS 시사기획창, 2012.2.10.
4) 조완섭, 빅데이터 시대, 데이터 과학자 양성 방안, 과학기술정책, 과학기술정책연구원, 2013.10.
5) Michale Rappa, Master of Science in Analytics : Goals, Learning, and Outcomes, NC State University, Internal Report, 2011.6.
6) 조완섭 외, 빅데이터 거버넌스, 홍릉과학출판사, 2014년초 번역출판예정(http://bigdatagov.chungbuk.ac.kr, 원저: Sunil Soares, Big Data Governance – An Emerging Imperative, MC Press, 2012.10)
7) From Novice to master: Understanding the AnalyticsQuotient Maturity Model, IBM, 2011.
8) Steve LaValle, et al., Big Data, Analytics and the Path From Insights to Value, MIT Sloan Management Review, Vol. 52, No.2, 2011 Winter
9) Gwen Thomas, The DGI Data Governance Framework, The Data Governance Institute.