내 낡은 서랍 속의 바다, 빅 데이터

Topics/ETC 2012. 12. 20. 13:59 posted by Minery

손 종 수 (2012.12.01.)


그룹 패닉 3집에는 ‘내 낡은 서랍 속의 바다’라는 곡이 있다. 이 곡은 다음과 같은 노랫말로 시작한다.

내 바다 속에는 깊은 슬픔과 헛된 고민들 회오리 치네

이 곡은 가수 이적이 자신의 오래된 서랍을 열면서 떠오른 기억들이 동기가 되어 만들어졌다고 한다. 필자 역시 살면서 생긴 잡동사니들을 넣어두기 위한 큰 박스가 세 개있다. 물건을 사면 같이 딸려오는 품질 보증서라든지 고장이 난 이어폰, 충동구매로 샀다가 한 번도 쓰지 않은 스피커까지 순서나 정돈이 없이 꾹꾹 들어차 있다. 일 년에 그 박스들을 열어 보는 것이 몇 번이나 될까? 몇 번 열어보지도 않을 그 박스들을 보물이라도 되는 냥 소중히 간직하고 있다. 필자가 그 박스들을 간직하고 있는 이유는 그 안에 들어있는 물건들이 소장할 정도로 가치가 높기 때문이 아니라 그것들을 통해 과거에 필자가 했던 생각이나 느낌을 되찾을 수 있기 때문이다.
2000년대 이후 정부, 기업, 교육 계 등 할 것 없이 모든 분야에서 급속한 정보화가 이루어져 왔다. 이 과정에서 기술적 한계와 표준의 부재로 인하여 데이터들은 마치 낡은 서랍 속에 아무렇지 않게 쑤셔 넣어진 잡동사니들처럼 쌓이게 되었다. 빅 데이터란 낡은 서랍 속에 넣어둔 잡동사니들 중에서 뭔가를 찾고 싶은데 잡동사니가 너무 많아서 찾는 시간이 너무 오래 걸린다는 것이 문제가 되어 제시된 표어와 같은 용어이다. 자, 그럼 이제 빅 데이터의 정의를 짚어보자. 빅 데이터의 정의는 다양한 것이 있지만 보통은 맥킨지(McKinsey)와 IDC의 정의를 인용한다.

  • 일반적인 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 데이터(맥킨지)
  • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처(IDC)

정의에서 볼 수 있듯 빅 데이터는 통상적인 데이터베이스 시스템에서 처리하기 어려운 수준의 데이터를 의미한다. 그리고 이 데이터는 일정한 형태를 지닌 데이터가 아니라 다양한 형태를 가지고 있어서 데이터를 정리하는데도 엄청난 시간과 노력이 필요하다. 마치 때때로 컴퓨터에 저장시켜 놓은 예전 파일을 찾는데 많은 시간을 쏟곤 하는 것처럼 말이다. 저장 시켜둔 파일의 개수가 1만개조차 되지 않는데도 컴퓨터 안의 어디에 있는지 모르겠다며 포기한 경험을 우리는 다들 한번쯤은 가지고 있다. 만약 파일의 개수가 수천억 개라면 어떨까? 빅 데이터에서 다루는 데이터의 크기는 어떤 데이터냐에 따라 조금씩 다르긴 하지만 보통 몇 테라바이트에서 몇 만 테라바이트에 이르기도 한다. 이 거대한 비정형의 데이터에서 의미 있는 무언가를 찾아내고자한다면 우리는 무엇을 해야 할까? 빅 데이터는 이 문제를 해결하기 위한 시스템과 방법론을 모두 포함한다.

낡은 서랍 속에 숨어있는 가치를 찾아서
빅 데이터의 적용 분야는 컴퓨터가 쓰이는 모든 분야에 가능하지만 가장 크게 당면한 문제인 웹 데이터에 대해 적용하는 문제를 생각해보도록 하자. 굳이 빅 데이터를 언급하지 않더라도 2000년대 이후로 웹에는 엄청난 양의 데이터가 쌓이고 있다. 헌데, ‘스마트 혁명’을 시작으로 많은 사람들이 웹에 자신들의 이야기와 사진, 동영상을 쏟아내고 있다. 이로 인하여 웹에 적재되고 있는 데이터의 양은 그 전과 비교할 수 없을 정도로 많아지고 있다. 자료가 많아지고 있다는 것은 찾을 수 있는 정보가 많아진다는 의미이므로 우리에게 축복으로 생각할 수 있다. 그러나 다른 한편으로, 엄청나게 많아진 데이터로 인하여 원하는 정보를 찾는 것이 어려워졌다고도 할 수 있다. 이에 몇몇 선구적 연구자들은 엄청나게 쌓인 데이터 속에 그 전까지 우리가 활용하지 못했던 보석과 같이 아름답고 귀한 무언가가 있을지도 모른다고 생각했다. 그래서 이들은 방대한 양의 데이터를 분석하고 처리하기 위해 컴퓨터 몇 백대를 연결한 클러스터 서버를 구축하기도 하고 슈퍼컴퓨터를 사용하기도 했다. 빅 데이터를 분석할 수 있는 컴퓨터 시스템을 구축하고 나면 그 다음 문제에 바로 직면하게 된다. 그것은 수많은 데이터를 분석하기 위한 시스템으로 무엇을 할 것인가의 문제이다. 이 문제는 어느 분야의 기업, 조직이냐에 따라 달라지는데 미국의 온라인 쇼핑몰 업체인 아마존은 고객의 구매성향을 분석하기 위하여 빅 데이터 처리를 사용한다. 역시 미국의 거대 검색 업체인 구글에서는 사용자 맞춤형 광고를 서비스하기 위하여 빅 데이터 처리를 사용한다.
빅 데이터를 분석하면 어떤 가치를 얻을 수 있을까? 빅 데이터는 데이터를 데이터 하나하나 살펴보는 것이 아니라 큰 시각에서 흐름을 본다. 예를 들어, 인터넷 뉴스에 달려있는 댓글들을 모두 수집하여 하나의 데이터 세트로 저장 한 후 이를 분석하면 특정 기간 동안의 여론을 파악할 수 있다. 혹은 어느 지역에 사는 사람들의 모든 트위터 메시지를 분석하여 지역의 이슈를 파악할 수 있다. 축적된 데이터를 큰 시각으로 보았을 때 우리는 사회 현상, 관심사의 변화, 환경 정보의 특징 등을 파악하는 것이 가능하다. 이는 기존 데이터베이스 시스템으로는 거의 파악하기가 불가능한 것으로 빅 데이터 처리를 위한 시스템과 정리되지 않은 데이터를 정리하기 위한 기술이 반드시 필요하다.

낡은 서랍 속을 정리하는 기술 – 시맨틱 웹
시맨틱 웹(Semantic Web)은 빅 데이터의 대두와는 별개로 1999년에 팀 버너스 리(Tim Berners Lee)에 의해 제안된 차세대 웹 기술이다. 기존 웹에서는 자료를 자동적으로 처리하기가 어렵기 때문에 모든 웹 페이지, 웹 이미지, 웹 비디오 등의 웹 자원에 온톨로지라는 의미 주석을 달아서 컴퓨터 스스로 웹의 자료를 처리하도록 고안된 것이 시맨틱 웹이다. 시맨틱 웹은 논리학에 기반을 둔 기술 로직(Description Logic)을 사용하고 있으며 모든 자료를 논리적으로 처리할 수 있다. 따라서 시맨틱 웹을 사용하면 정리되지 않은 낡은 서랍 속의 데이터들을 가지런하게 정리하고 컴퓨터 시스템이 자료를 읽고 처리할 수 있도록 정형화시키는 것이 가능하다. 그러나 문제는 자료들에 의미 주석을 다는 것 또한 쉽지 않다는 것이다. 그리고 이로 인해 아직까지는 빅 데이터 분야에서 시맨틱 웹을 적극적으로 활용하고 있지 못하고 있는 실정이다. 게다가 빅 데이터와 시맨틱 웹을 동시에 연구한 연구자가 거의 드물기 때문에 두 기술을 동시에 활용하려면 학문간 융합 연구가 반드시 필요하다고 할 수 있다.

마치며
1970년대, 1980년대의 컴퓨터 시스템에는 데이터가 부족했다. 따라서 그 당시의 학자들은 데이터를 설계하고 쉽게 만드는 방법에 대해 연구했다. 그리고 부족한 데이터 속에서 의미 있는 정보를 찾아내기 위해 다양한 알고리즘과 방법론을 연구해왔다. 이 방법론들은 지금까지도 컴퓨터 관련 학과들의 기초 전공과목으로 개설되고 있다. 그러나 최근 들어 우리는 데이터 범람의 시대를 맞이하게 되었다. 이 데이터의 범람의 시대에 안타깝게도 우리는 데이터의 모든 것을 활용하지는 못하고 있기도 하다. 이제 전통적인 데이터 처리 기법 위에 비정형 대용량 데이터를 처리하기 위한 방법론과 기술을 얹어야할 시기이다. 내 낡은 서랍 속의 바다에서 물건들을 목록화하고 물건들에 담긴 소중한 기억들을 기록하지 않으면 언젠가 나이가 들어 모두 잊을지도 모르는 것처럼, 쌓여가고 있는 데이터에 숨어있는 보석같은 정보들을 우리는 활용하지도 못한 채 지나가버릴지도 모른다. 이 시대는 빅 데이터라는 화두를 통해 우리에게 쌓여있는 데이터들을 분석하고 가치 있는 정보를 찾아내라고 사명을 내리고 있는 것이 아닐까?


 ※ 이 글은 제가 KUSZINE에 기고하여 출판된 글입니다. http://blog.naver.com/ks_enter/110153588348