소셜네트워크서비스(SNS)의 빅데이터를 활용해 예능 멤버를 뽑고, 자살 예보 시스템을 구축하는 시대다. 빅데이터 전문가가 21세기 가장 유망한 직업으로 손 꼽히고, 너도나도 데이터 분석 교육을 받고 싶어한다. 그러나 막상 배우려 보면 하둡, R, 파이썬 등 툴도 많고 하나 같이 어려워 보인다.
데이터 분석을 하나도 모르는 백지 상태에서 시작하려면 뭘 어떻게 해야 할까? ‘빅데이터 분석 전도사’로 유명한 서진수 더알음 대표를 만나 빅데이터 전문가란 무엇이며, 어떻게 될 수 있는지, 무엇을 할 수 있는지 물었다.
하루에도 몇 번씩 빅데이터라는 말을 듣게 되는데, 대체 빅데이터가 뭡니까?
예전에는 여론조사를 하더라도 많아야 2000명 정도에게 전화 설문을 하는 정도에 지나지 않았습니다. 표본이 작으니 모집단인 전체의 의견을 대표한다고 보기 어려웠죠. 그러나 정보의 저장, 처리 기술이 발전하면서 엄청난 양의 데이터를 모을 수 있게 됐습니다. 데이터가 엄청나게 많으니 잘 파헤치면 무엇인가 멋지고 근사한 걸 찾아낼 수 있지 않을까 기대하게 됐죠.
그런데 재미있는 건 빅데이터라는 용어는 처음에는 “처치 곤란하게 너무 크다(too big to handle)”는 말에서 만들어졌습니다. 뭔가 멋진 걸 찾을 수 있는 광활한 영역인데, 정작 찾아 내기는 너무 어렵다는 뜻을 동시에 내포하고 있기도 하죠. 굉장히 매력적인 분야입니다.
다루기 어려운데도 대중적인 인기 단어로 뜨는 이유가 뭘까요?
실생활에 바로 도움을 주기 때문이죠. 빅데이터나 데이터 분석은 결코 전문가의 전유물이 아닙니다. 동네 김밥집 아줌마도 내일 근처 학교에서 소풍을 가면 어떤 김밥이 잘 팔릴지, 비 오는 날 잘 나가는 메뉴가 뭔지 미리미리 예측해서 재고가 남지 않게 조절합니다. 과거의 수많은 경험을 토대로 미래를 예측하는 거죠. 내일 어떤 맥주가 잘 팔릴까? 이번 시즌에는 어떤 패션이 유행할까? 등 우리 삶은 굉장히 많은 경험에 기반한 예측을 필요로 합니다.
그런데 데이터에 기반하지 않으면 선입견에 빠지거나 한 두 가지 사례로 섣부르게 예단해버리는 오류에 빠지기 쉽습니다. 한 마디로 ‘감(感)’이 좋으면 대박 나고, 운 나쁘면 쪽박 차는 거죠. 물론 감을 무시할 수는 없습니다. 언어로 표현할 수 없는 수많은 경험적인 데이터를 분석해서 예측해낸다는 건 데이터 분석과 마찬가지거든요. 대개 우뇌적인 사고가 강한 분들은 좀더 감각적인 예측에 강하고 이 분들의 감이 잘 들어 맞습니다. 일명 신 내린 경영자들이죠. 그러나 현대 사회의 대다수 사람들은 수리와 언어에 강한 좌뇌적인 사고를 합니다. 언어로 표현하기 어려운 ‘too big to handle’ 데이터를 바탕으로 합리적이고 과학적인 의사결정을 해낼 수 있는 방법이 필요하죠. 빅데이터 분석이 바로 그 방법입니다.
일명 감 좋은 경영자들이 독단에 빠져 회사에 재앙을 가져오는 걸 방지하기 위해서라도 데이터의 분석 결과가 꼭 필요합니다. 예를 들어 어떤 사람이 매주 금요일에 마트에 가서 맥주를 산다고 칩시다. 맥주 안주로 땅콩을 즐기는 경영자는 개인 취향에 빠져 땅콩을 묶음 판매할 수 있습니다. 그런데 데이터를 분석해보니 비슷한 패턴을 가진 사람들은 땅콩보다 육포를 안주로 선호한다면, 이 사람에게 “이번 주말에 육포를 세일한다”는 정보를 보내줄 수 있겠죠. 데이터 분석이 감에 의존하는 경영자의 독단을 막고 매출로 이어지는 예입니다.
비단 대기업 뿐만 아니라 동네 구멍가게도 고객의 소비 패턴을 분석하면 언제 어떤 품목을 세일하면 좋을지, 마일리지 적립을 더 해주는 게 나은지, 값을 깎아 주는 게 좋은지, 일정 금액마다 스탬프를 모아 몇 개 모으면 좋은 상품을 주는 게 좋은지 판단할 수 있습니다. 데이터 분석이 더 이상 감에 의존하지 않고 현실적인 이득을 얻는 수단이 됩니다.
빅데이터는 생각보다 즉각적인 효과가 있네요. 말씀하신 것처럼 실생활에 직접 이득을 얻을 정도로 데이터 분석을 해내려면 어떤 걸 알아야 합니까?
제가 무척 안타깝게 생각하는 부분입니다. 빅데이터 분석을 위해 뭘 공부해야 하냐는 질문을 검색해 보면 기초적인 C 언어, 데이터 구조, 자료 구조, 자바 프로그래밍, 리눅스, 아파치, 하둡, SAS, 오라클, R, 파이썬 등을 모두 다 알아야 한다는 답변을 흔히 볼 수 있습니다. 이건 마치 컴퓨터를 다루려면 전기회로도는 기본이고 기계어, 반도체 집적기술 등을 알아야 한다고 주장하는 꼴입니다. 현실은 어떻습니까? 타자 칠 줄 알고, 마우스 클릭할 줄 알면 꼬맹이도 컴퓨터를 다룹니다. 스마트해진 세상이라 이제는 터치 하나로 다 되죠. 기술이 발전할수록 기계가 커버하는 영역이 넓어지고, 일반 이용자가 알아야 할 부분은 적어집니다. 빅데이터 분석 역시 몇 년 사이에 기술이 눈부시게 발전해서 이제 특수 전문가가 아닌 이상 모든 걸 다 알 필요는 없습니다.
정말 실생활에, 특히 경제적으로 도움이 될만한 데이터 분석을 하고 싶다면 R만 배우면 됩니다. 그나마도 모두 알 필요 없이 R의 여러 기능 중 자신에게 필요한 일부 기능만 배우면 되죠. 안타깝게도 아직은 마우스 클릭만으로 데이터 분석이 되는 좋은 소프트웨어가 없기 때문에 직접 입력을 위해 영어 타자는 칠 줄 알아야 합니다.
데이터 분석을 하려면 R 프로그래밍만 알면 된다니 의외네요. 다른 것보다 R이 특별히 중요한 이유가 있나요?
기술의 발전에는 크게 세 가지의 공통점이 있습니다. 어떤 신기술이 나타나면 초창기에는 하드웨어가 득세하죠. 하드웨어의 복잡함을 이해하고 다루는 고난도 기술 전문가가 필요합니다. 그런데 이 기간은 별로 길지 않습니다. 기계나 기술은 버전이 올라갈수록 기계가 더 많은 범위를 커버하도록 자동화되고 쉽게 이용할 수 있도록 대중화됩니다. 물론 고난도 전문가가 필요하지만 극소수죠. 하드웨어가 안정되고 자동화되기 시작하면 소프트웨어가 주목 받게 마련입니다.
데이터 분석 역시 엄청난 양의 데이터를 저장하고 처리하기 위한 하드웨어적인 기술 분야가 중요했던 때도 있었고, 지금도 그 기술자가 필요하기는 합니다. 그러나 이제 해당 분야는 초심자보다는 경력자를 원하고 소수의 전문가가 많은 하드웨어를 관리할 수 있는 단계에 들어 섰습니다. 일반인과 무관하죠.
소프트웨어 중심 단계에 들어서면 수많은 툴들이 겨루는 춘추전국시대를 지나서 한 두 개가 사실상 표준으로 자리 잡게 됩니다. 이 때 중요한 건 두 가지입니다. 판매자(vender)에게 종속된 기술은 판매자의 몰락과 함께 사라져 버립니다. 그리고 끝까지 살아 남는 건 결국 오픈소스(open source)죠. 벤더에게 종속되는 기술이 오래 갈 수 없다는 사실은 큰 돈 들여 MCP, OCP, SCJP, CCIE 등의 자격증을 따야 이력서 한 줄을 채울 뿐이기 때문입니다. 결국 인정 받는 건 경력과 실력이라는 걸 현장에서 경험한 분들이라면 누구나 공감할 것입니다. 누구나 쉽게 공짜로 이용할 수 있는 오픈소스가 결국 대세가 됩니다. 굳건했던 유닉스의 아성도 리눅스에 무너졌고, 각종 사이트 유료 제작툴도 오픈소스인 워드프레스에 밀리고 있습니다.
공짜니까요. 대중화되기 쉽고, 여러 사람이 쓰다 보면 자연스레 발전해 나갑니다. R도 마찬가지입니다. 데이터 분석의 수많은 툴 중 R이 영향력을 넓히고 있는 이유는 다른 거 없습니다. 공짜이기 때문입니다. 데이터 분석이 더 대중적인 영역이 되면, R의 영향력도 더 커지고, R을 이용해 또 다른 부가가치 프로그램을 만들어내는 사람이 돈을 벌게 될 것입니다. 누군가의 성공이 촉매제가 돼 R의 이용자가 더 많아지고, 그럼으로써 발전하는 선순환이 본격 가동돼 굳건히 자리잡게 되는 거죠.
R이 무료이긴 하지만 너무 어렵던데요? 과연 대중화될 수 있을까요?R은 아주 복잡하고 어렵습니다. 프로그래밍이니까요. 그러나 저처럼 R의 모든 것을 파악하고 이해해서 책 쓰려는 사람 외에는 모든 것을 다 알 필요가 없습니다. 영어 타자를 칠 줄 알고, 어떤 데이터를 분석하겠다 또는 어떤 것들을 예측해겠다는 목적 의식을 갖고 있는 분이라면 R이나 통계, 코딩 등을 전혀 모르는 백지 상태에서 시작해도 40시간 정도만 배우면 원하는 걸 해낼 수 있습니다.
제가 약 3년 정도 직장인, 대학생 등 다양한 사람들에게 R을 여러 번 강의했는데, 아무 것도 몰랐던 직장인이 가장 습득이 빠르더군요. 한 30시간을 배우면 본인이 원하는 걸 해보고 잘 안되는 부분을 물어봐서 완성할 정도 수준이 되는 겁니다. 반면에 “R을 배운다”가 목적인 학생들은 몇 달을 배워도 큰 진전이 없습니다. “R로 무엇을 하고 싶다”는 목표가 있는 분은 필요한 부분만 집중하지만, R 자체가 목적이면 너무 복잡하고 어려워서 금세 질려 버리죠.
알고 보면 R은 분야별로 많이 쓰이는 부분들이 있습니다. 보건의료 쪽을 위한 패키지, 금융을 위한 패키지, 마케팅을 위한 패키지 등이 나뉘어 있기 때문에 누구나 원하는 것을 해내는 건 40시간 정도만 배우면 충분합니다.
R이 대중화되면 데이터 분석 전문가로서 입지도 위태로운데 (웃음), 앞으로 어떤 포부를 갖고 계세요?
다른 사람보다 데이터 분석을 먼저 시작한 사람으로서 가장 원하는 건 데이터 분석이 누구에게나 필요하고, 누구나 할 수 있는 일이라는 걸 알리는 겁니다. 모든 기술의 정점에 모든 사람이 다가가야 하는 건 아닙니다. 일반인에게는 삶의 질을 높일 수 있는 일반적인 수준으로 기술이 대중화돼야 합니다. 그럼에도 불구하고 아직까지 데이터 분석은 전문가의 영역이라는 인상이 너무 강해서 안타깝습니다. 데이터 분석을 쉽게 접함으로써 동네 미용실 매상을 올려주고, 야쿠르트 아줌마가 안정적인 판로를 찾게 돕고 싶습니다.
또 하나 빅데이터 전문가로서 책임감을 느끼고 힘쓰는 분야는 공공복지입니다. 이 분야는 정말 엄청나게 방대한 데이터를 토대로 정밀한 분석을 해야 하므로 몇몇 전문가만이 해낼 수 있는 어려운 프로젝트가 많습니다. 정책의 효과나 교통량을 예측하고, 빅데이터를 토대로 복지의 사각지대를 줄이는 방법을 연구하고, 탄소 배출량을 조절하는 등 정부와 함께 진행하는 활동이 있습니다. 데이터 분석 전문가로서 우리 모두의 삶을 개선하는데 기여할 수 있다는 점에 항상 감사하며 공헌하려고 노력하고 있습니다.
출판이나 방송출연, 무료 지식 나눔 특강 등도 모두 같은 맥락의 활동인가요?
우선 제 책을 사랑해주시는 분들께 감사 인사를 올립니다. R은 분명히 복잡하고 어렵습니다. 그래서 어려운 R을 어렵게 설명해주는 책이나 강의가 아주 많죠. 그렇지만 저는 모든 사람이 R의 모든 것을 알려고 버둥거릴 필요 없다고 생각하기 때문에 쉽게 사례 중심으로 모든 걸 설명하려 노력합니다. 여러 사례를 보면 자기가 필요한 것과 유사한 예가 있게 마련이거든요. 책에서든 강의에서든 R로 비정형 데이터와 정형 데이터를 분석하고, 워드 클라우드를 비롯해 다양한 형태의 그래프로 시각화하는 방법을 가르쳐 드릴 때 꼭 가장 기본인 프로그램 설치부터 설명합니다.
‘R라뷰’에서는 정부 3.0으로 공개된 각종 공공기관의 실제 공공 데이터를 분석하여 실습할 수 있도록 예제를 수록하고 있죠. 누구나 쉽게 직접 해볼 수 있게 하려고 공공 데이터를 쓴 겁니다. 열심히 강의한 후 “빅데이터 분석이나 통계가 일부 전문가의 전유물이 아니라 나도 할 수 있다는 걸 알았고, 열심히 공부해서 업무에 직접적인 도움을 얻고 싶다”는 긍정적인 반응을 접하면 보람을 느낍니다. 방송 역시 대중이 데이터 분석을 더 친근하게 느끼게 하는 좋은 방법이라 생각해 기꺼이 출연 요청을 수락했습니다.
데이터 분석을 공부하고자 하는 사람들이 많은데, 마지막으로 한 말씀 해주신다면?
툴과 기법에 매몰돼 특정 도구를 완벽히 알려 노력하지 마십시오. 그렇게 학습하면 어떤 분야든 재미없고 따분하게 마련입니다. 더군다나 IT 기술은 시간이 지날수록 자동화되게 마련이고, 오늘날 R을 완벽 이해하려는 여러분의 노력은 물거품이 될 가능성이 높습니다.
도구의 편리함을 최대한 이용하세요. R로 무엇을 분석해서 무엇을 만들어낼지 아는 게 가장 중요합니다. 만약 잘 모르겠다면 제가 수 년 간 강연을 펼치면서 많은 사람들에게 “두루 응용하기 좋은 데이터 분석 사례”로 추천 받아 모아둔 비정형 데이터와 정형 데이터 분석 사례를 접해 보시기를 추천합니다.
R은 결국 도구일 뿐 가장 중요한 건 사람입니다. 누구에게나 데이터 분석은 필요하고, 누구나 할 수 있다는 말을 다시 한 번 강조하고 싶습니다.
서진수
도서출판 더 알음(www.ar-eum.com)의 대표. 고용노동부 우수 강사 표창을 수상한 서진수 대표는 국가정보원, 연세대, 국민대, 이화여대, 성균관대, 건국대, 인하대, 한국외대 등에서 R을 활용한 데이터 분석 특강을 여러 차례 진행해 온 유명 강사이기도 하다. 15년 동안 여러 회사의 데이터베이스 구축 및 운영 업무를 진행하며 8권의 오라클 관련 서적을 집필한 베스트셀러 작가이기도 하다. 여러 기관의 요청으로 오라클 전문 교육을 진행하다 데이터 분석으로 강의 영역을 넓혔다.
저서인 ‘R라뷰’, ‘R 까기’ 등은 다소 어려운 빅데이터 분석 분야의 입문서로 널리 알려져 있다. 최근 데이터 분석을 배우려는 직장인이 붐을 이루면서 ‘가장 쉽고 재미있는 R 강의’로 유명세를 더해 TV프로그램(TV조선 ‘알맹이’ 토크쇼) 패널로도 출연 중이다. 무료 지식 나눔 특강 및 정부의 공공복지 증진 사업에 참여하는 등 사회공헌 활동도 왕성하며, 2014년 하반기부터 마소캠퍼스에서 정기적으로 직장인을 위한 R 강의를 진행하며 현실적인 도움을 주는 R 데이터 분석 방법을 가르치고 있다.