'빅 데이터'라는 용어가 쟁점이 되고 있는 이유는 '지금까지는 IT에서 분석하지 않았던 정보'를 앞으로는 관리 항목 안에 넣어두고, 유의미한 정보로 활용해야 되기 때문입니다.
로그 파일, 전자거래 정보, 웹 검색 기록, e메일 데이터, SNS 데이터와 사진, 동영상에 이르기까지 비정형 데이터의 폭증 속에서 기업들의 고민은 이 비정형 데이터를 어떻게 활용할 것인가 하는 점입니다. 이런 데이터들을 불과 얼마 전까지만 해도 IT에서 분석하지 않았던 것이자만, 업무의 숨어 있는 패턴을 끄집어 내거나, 고객의 특성을 파악하는 데서 매우 의미 있는 정보를 제공해 줄 수 있습니다.
데이터 폭발의 시대, 기업의 45% '정보 전략 없다'
최근 인터넷을 오가는 정보는 기하급수적으로 늘어나는 추세입니다. 전세계적으로 60초 동안 무려 1억 7,000만개의 e메일이 오가고, 구글에서는 60초 동안 70만 개의 검색이 이루어집니다. 유튜브에서는 10초에 600개의 동영상이 업로드된다는군요.
이처럼 많은 정보 가운데 유의미한 정보들은 무엇이 있는지 파악하고, 정보를 제대로 관리/운용해서 자동으로 최적화되고 비즈니스에 도움이 되도록 가공해주는 일. 그리고 이러한 정보들을 제대로 전달해주는 하드웨어, 잘 지켜주는 보안 기술들이 어우러져 '빅 데이터'를 핸들링하게 됩니다.
문제는, 데이터가 이처럼 기하급수적으로 늘어남에도 불구하고, 보통의 기업은 그들이 가지고 있는 정보의 5% 정도만 활용하고 있다는 점입니다. 한 설문조사 결과 기업의45%는 자신들이 갖고 있는 정보를 어떻게 활용할지 구체적인 전략도 세우지 못했다고 합니다. '정보를 효율적으로 활용하고 있나?'는 물음에는 36%가 잘 활용하지 못한다고 답했으며, '정보를 100% 잘 활용하고 있나?'는 물음에는 아무도 그렇다고 대답하지 못했습니다.
전문가의 시대는 갔다. 데이터를 믿어라!
최근 한국HP가 개최한 기자 대상의 행사에서 윤종기 부사장은 매우 재미 있는 예를 들어, 데이터 활용의 중요성을 설명했습니다. 발표 내용의 대부분이 리더십 분야 권위자로 꼽히는 이언 에어즈 교수(예일대)의 저서 「슈퍼 크런처(Super Crunchers)」를 소개하는 것이어서 한편의 강의를 듣는 것 같았습니다.
윤종기 부사장의 발표에서 가장 흥미로웠던 것은 이 책에 소개된 와인품질 평가와 관련된 사례입니다.
와인 평가…전문가의 품평 vs. 데이터 분석
기존에는 좋은 저장고에서 대략 10개월 숙성시킨 와인을 전문가들이 품평회를 해서 등급을 매겼다고 합니다. 얼마나 오래 숙성되었느냐, 그 와인이 어떤 지역(강수량)의 것이냐 하는 전통적인 기준도 중요하게 작용했습니다. 그런데 약 10년 전에 아셈 펠터라는 교수가 전세계 여러 지역의 수많은 와인들을 분석해본 끝에 와인의 품질을 평가하는 새로운 공식을 만들어냈습니다. 그 공식이란 바로,
와인 품질
= 12.145+(0.00117X강수량)
+(0.614X재배철 평균 기온)
-(0.00386X수확기 강수량)
위 공식을 보면 기존에 중요하게 고려되었던 재배지의 강수량은 크게 중요하지 않습니다. 강수량에 매겨지는 가산점은 0.00117에 불과하니까 말입니다. 오히려 포도가 재배되는 계절의 평균기온은 매우 중요한 것으로 나타났습니다. 강수량보다 500배나 가산점이 주어집니다.
아셈 펠터 교수는 이 공식을 만든 뒤 30달러를 받고 팔았는데, 업계에서는 "괴짜가 나타났다"고 신기한 눈으로 바라보는 정도였습니다. 그런데 그가 "올해 어느 지역에서 생산된 와인은 가치가 2배 될 거다"는 예측을 한 것이 적중했고, 그 다음해도 이 같은 예측이 맞아떨어졌습니다. 당연히 와인 업계에서는 "전문가의 품평이 정확하냐?", "데이터가 중요하냐?"를 놓고 논란이 일었습니다.
중요한 것은, 와인을 담그면 그 후로 10달 동안 오크통 안에 있기 때문에 그 기간에 어떤 변수가 있는지 제대로 예측할 수 없다는 점입니다. 결국 기존의 품평 방식에서는 단지 개봉하기 10개월 전에 예측된 내용만 계속 믿어야 했고, 오류도 적지 않았습니다. 이처럼 '기존의 경험에 기초한 예측'에 기댈 때 상시적으로 존재하는 위험을 제거하려면 데이터를 어떻게 이용(분석, 가공)할 것인지 제대로 정책을 세워야 합니다.
실업급여를 많이 주면 실업급여 지출이 줄어드는 마법
실업급여와 관련된 사례도 매우 흥미롭습니다. 단순히 '실업자가 새로운 직장을 구할 때까지 정부가 일정 금액을 보조해주는 정책' 정도로 생각해 왔는데, 이 속에도 '데이터'와 관련된 얘기가 숨어 있었습니다.
이 책에 따르면, 실업자에게 실업급여를 주는 데 있어 구직활동을 활발히 하는 사람에게 실업급여를 많이 주는 정책을 썼을 때 정부의 실업급여 지출이 20% 가량 줄어들었다고 합니다. 얼핏 생각해보면 실업급여를 많이 주면 구직 활동을 더 게을리하게 될 것 같지만, 실상은 정반대인 겁니다.
결국 구직 활동을 더 열심히 하는 사람에게 실업급여로 지원을 잘 해주면, 사람들의 구직 활동을 독려하는 효과가 있어서 실업자가 줄어들고 전체적인 실업급여 지출도 줄어드는 것 같습니다. 이렇게 결과를 놓고 보면 수긍이 가는데, 이런 내용을 데이터로 분석하기 전이라면 막연한 예측으로 '실업급여를 주면 구직 활동을 게을리하게 될 거야'라고 판단해 버려서 실업급여를 줄이는 정책을 구사할 가능성이 다분할 것 같습니다.
미국에서는 최근, 의사가 환자를 검진해서 최정적으로 진단을 내리기 전에 자신이 내린 진단이 맞는지를 각종 데이터에 기반해 확인할 수 있게 해주는 소프트웨어가 나와서 주목을 받고 있다고 합니다. '데이터'와 '데이터의 분석•활용'에는 성역이 없는 것 같네요.
트위터, 페이스북에 별 생각없이 수다를 떤 내용이 비즈니스 전략에 영향을 줄 수 있는 정보가 된다고 생각하니, 사소한 데이터 하나도 함부로 취급해서는 안 되겠다는 생각이 듭니다.
문득, 'SNS에 무심코 남긴 한 마디도 이처럼 중요한 정보가 될진데, 수천만 명의 개인정보를 해킹한 사람들은 그 정보를 얼마나 잘 활용할까?' 하는 생각을 해보게 됩니다. 또, 그 정보를 잃어버린 기업들은 과연 어떨까요? 원래 그랬던 것처럼 대다수 고객의 개인정보 같은 것에는 여전히 별 신경도 안 쓰고 있을까요? 억울하고 불안해서 잠이 오지 않아야 정상일텐데 말입니다.
<김재철 기자>mykoreaone@bitnews.co.kr
'클라우드컴퓨팅' 카테고리의 다른 글
태풍과 지진을 이기는 <IT재해복구 5계명> (1) | 2012.07.03 |
---|---|
빅데이터…날씨와 편의점 매출의 상관관계 (2) | 2012.03.12 |
퀀텀, 백업·관리 강화로 데이터 급증 해결책 제시 (0) | 2011.11.23 |
“전략적 IT활용의 열쇠는 서버 가상화” (1) | 2011.11.08 |
가상서버 관리 빅3는? (0) | 2011.07.28 |