내 낡은 서랍 속의 바다, 빅 데이터

Topics/ETC 2012. 12. 20. 13:59 posted by Minery

손 종 수 (2012.12.01.)


그룹 패닉 3집에는 ‘내 낡은 서랍 속의 바다’라는 곡이 있다. 이 곡은 다음과 같은 노랫말로 시작한다.

내 바다 속에는 깊은 슬픔과 헛된 고민들 회오리 치네

이 곡은 가수 이적이 자신의 오래된 서랍을 열면서 떠오른 기억들이 동기가 되어 만들어졌다고 한다. 필자 역시 살면서 생긴 잡동사니들을 넣어두기 위한 큰 박스가 세 개있다. 물건을 사면 같이 딸려오는 품질 보증서라든지 고장이 난 이어폰, 충동구매로 샀다가 한 번도 쓰지 않은 스피커까지 순서나 정돈이 없이 꾹꾹 들어차 있다. 일 년에 그 박스들을 열어 보는 것이 몇 번이나 될까? 몇 번 열어보지도 않을 그 박스들을 보물이라도 되는 냥 소중히 간직하고 있다. 필자가 그 박스들을 간직하고 있는 이유는 그 안에 들어있는 물건들이 소장할 정도로 가치가 높기 때문이 아니라 그것들을 통해 과거에 필자가 했던 생각이나 느낌을 되찾을 수 있기 때문이다.
2000년대 이후 정부, 기업, 교육 계 등 할 것 없이 모든 분야에서 급속한 정보화가 이루어져 왔다. 이 과정에서 기술적 한계와 표준의 부재로 인하여 데이터들은 마치 낡은 서랍 속에 아무렇지 않게 쑤셔 넣어진 잡동사니들처럼 쌓이게 되었다. 빅 데이터란 낡은 서랍 속에 넣어둔 잡동사니들 중에서 뭔가를 찾고 싶은데 잡동사니가 너무 많아서 찾는 시간이 너무 오래 걸린다는 것이 문제가 되어 제시된 표어와 같은 용어이다. 자, 그럼 이제 빅 데이터의 정의를 짚어보자. 빅 데이터의 정의는 다양한 것이 있지만 보통은 맥킨지(McKinsey)와 IDC의 정의를 인용한다.

  • 일반적인 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 데이터(맥킨지)
  • 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처(IDC)

정의에서 볼 수 있듯 빅 데이터는 통상적인 데이터베이스 시스템에서 처리하기 어려운 수준의 데이터를 의미한다. 그리고 이 데이터는 일정한 형태를 지닌 데이터가 아니라 다양한 형태를 가지고 있어서 데이터를 정리하는데도 엄청난 시간과 노력이 필요하다. 마치 때때로 컴퓨터에 저장시켜 놓은 예전 파일을 찾는데 많은 시간을 쏟곤 하는 것처럼 말이다. 저장 시켜둔 파일의 개수가 1만개조차 되지 않는데도 컴퓨터 안의 어디에 있는지 모르겠다며 포기한 경험을 우리는 다들 한번쯤은 가지고 있다. 만약 파일의 개수가 수천억 개라면 어떨까? 빅 데이터에서 다루는 데이터의 크기는 어떤 데이터냐에 따라 조금씩 다르긴 하지만 보통 몇 테라바이트에서 몇 만 테라바이트에 이르기도 한다. 이 거대한 비정형의 데이터에서 의미 있는 무언가를 찾아내고자한다면 우리는 무엇을 해야 할까? 빅 데이터는 이 문제를 해결하기 위한 시스템과 방법론을 모두 포함한다.

낡은 서랍 속에 숨어있는 가치를 찾아서
빅 데이터의 적용 분야는 컴퓨터가 쓰이는 모든 분야에 가능하지만 가장 크게 당면한 문제인 웹 데이터에 대해 적용하는 문제를 생각해보도록 하자. 굳이 빅 데이터를 언급하지 않더라도 2000년대 이후로 웹에는 엄청난 양의 데이터가 쌓이고 있다. 헌데, ‘스마트 혁명’을 시작으로 많은 사람들이 웹에 자신들의 이야기와 사진, 동영상을 쏟아내고 있다. 이로 인하여 웹에 적재되고 있는 데이터의 양은 그 전과 비교할 수 없을 정도로 많아지고 있다. 자료가 많아지고 있다는 것은 찾을 수 있는 정보가 많아진다는 의미이므로 우리에게 축복으로 생각할 수 있다. 그러나 다른 한편으로, 엄청나게 많아진 데이터로 인하여 원하는 정보를 찾는 것이 어려워졌다고도 할 수 있다. 이에 몇몇 선구적 연구자들은 엄청나게 쌓인 데이터 속에 그 전까지 우리가 활용하지 못했던 보석과 같이 아름답고 귀한 무언가가 있을지도 모른다고 생각했다. 그래서 이들은 방대한 양의 데이터를 분석하고 처리하기 위해 컴퓨터 몇 백대를 연결한 클러스터 서버를 구축하기도 하고 슈퍼컴퓨터를 사용하기도 했다. 빅 데이터를 분석할 수 있는 컴퓨터 시스템을 구축하고 나면 그 다음 문제에 바로 직면하게 된다. 그것은 수많은 데이터를 분석하기 위한 시스템으로 무엇을 할 것인가의 문제이다. 이 문제는 어느 분야의 기업, 조직이냐에 따라 달라지는데 미국의 온라인 쇼핑몰 업체인 아마존은 고객의 구매성향을 분석하기 위하여 빅 데이터 처리를 사용한다. 역시 미국의 거대 검색 업체인 구글에서는 사용자 맞춤형 광고를 서비스하기 위하여 빅 데이터 처리를 사용한다.
빅 데이터를 분석하면 어떤 가치를 얻을 수 있을까? 빅 데이터는 데이터를 데이터 하나하나 살펴보는 것이 아니라 큰 시각에서 흐름을 본다. 예를 들어, 인터넷 뉴스에 달려있는 댓글들을 모두 수집하여 하나의 데이터 세트로 저장 한 후 이를 분석하면 특정 기간 동안의 여론을 파악할 수 있다. 혹은 어느 지역에 사는 사람들의 모든 트위터 메시지를 분석하여 지역의 이슈를 파악할 수 있다. 축적된 데이터를 큰 시각으로 보았을 때 우리는 사회 현상, 관심사의 변화, 환경 정보의 특징 등을 파악하는 것이 가능하다. 이는 기존 데이터베이스 시스템으로는 거의 파악하기가 불가능한 것으로 빅 데이터 처리를 위한 시스템과 정리되지 않은 데이터를 정리하기 위한 기술이 반드시 필요하다.

낡은 서랍 속을 정리하는 기술 – 시맨틱 웹
시맨틱 웹(Semantic Web)은 빅 데이터의 대두와는 별개로 1999년에 팀 버너스 리(Tim Berners Lee)에 의해 제안된 차세대 웹 기술이다. 기존 웹에서는 자료를 자동적으로 처리하기가 어렵기 때문에 모든 웹 페이지, 웹 이미지, 웹 비디오 등의 웹 자원에 온톨로지라는 의미 주석을 달아서 컴퓨터 스스로 웹의 자료를 처리하도록 고안된 것이 시맨틱 웹이다. 시맨틱 웹은 논리학에 기반을 둔 기술 로직(Description Logic)을 사용하고 있으며 모든 자료를 논리적으로 처리할 수 있다. 따라서 시맨틱 웹을 사용하면 정리되지 않은 낡은 서랍 속의 데이터들을 가지런하게 정리하고 컴퓨터 시스템이 자료를 읽고 처리할 수 있도록 정형화시키는 것이 가능하다. 그러나 문제는 자료들에 의미 주석을 다는 것 또한 쉽지 않다는 것이다. 그리고 이로 인해 아직까지는 빅 데이터 분야에서 시맨틱 웹을 적극적으로 활용하고 있지 못하고 있는 실정이다. 게다가 빅 데이터와 시맨틱 웹을 동시에 연구한 연구자가 거의 드물기 때문에 두 기술을 동시에 활용하려면 학문간 융합 연구가 반드시 필요하다고 할 수 있다.

마치며
1970년대, 1980년대의 컴퓨터 시스템에는 데이터가 부족했다. 따라서 그 당시의 학자들은 데이터를 설계하고 쉽게 만드는 방법에 대해 연구했다. 그리고 부족한 데이터 속에서 의미 있는 정보를 찾아내기 위해 다양한 알고리즘과 방법론을 연구해왔다. 이 방법론들은 지금까지도 컴퓨터 관련 학과들의 기초 전공과목으로 개설되고 있다. 그러나 최근 들어 우리는 데이터 범람의 시대를 맞이하게 되었다. 이 데이터의 범람의 시대에 안타깝게도 우리는 데이터의 모든 것을 활용하지는 못하고 있기도 하다. 이제 전통적인 데이터 처리 기법 위에 비정형 대용량 데이터를 처리하기 위한 방법론과 기술을 얹어야할 시기이다. 내 낡은 서랍 속의 바다에서 물건들을 목록화하고 물건들에 담긴 소중한 기억들을 기록하지 않으면 언젠가 나이가 들어 모두 잊을지도 모르는 것처럼, 쌓여가고 있는 데이터에 숨어있는 보석같은 정보들을 우리는 활용하지도 못한 채 지나가버릴지도 모른다. 이 시대는 빅 데이터라는 화두를 통해 우리에게 쌓여있는 데이터들을 분석하고 가치 있는 정보를 찾아내라고 사명을 내리고 있는 것이 아닐까?


 ※ 이 글은 제가 KUSZINE에 기고하여 출판된 글입니다. http://blog.naver.com/ks_enter/110153588348


교수님의 지시로 두 중국인 학생(왕청, 운봉)이 집단지성, 소셜네트워크, 시맨틱웹, 온톨로지 기술에 대한 요약 발표자료를 작성했다.

두 석사 1학기생이 입학한지 한달도 채 되지 않은 상황에서 이정도 해낸걸 보니 제법 능력자들인 것 같은 느낌이다.

Lab. meeting (10년 3월 22일)

Personal/랩세미나 2010. 3. 23. 14:38 posted by Minery

랩미팅 (2010년 3월 22일 오후 4시)
참석자 : 정인정, 손종수, 권경락, 김도형, 배운봉, 왕청

1. Collective intelligence and Social network analysis 관련 튜토리얼
발표자 : 교수님
소셜네트워크 분석 기법에 대한 간략한 소개가 있었음

2. Collective intelligence 관련 종수 논문의 발전향 정하기
1) 표2 부분 protege와 비교한 부분에서 다른 방법과의 비교도 추가
2) 집단지성으로 온톨로지를 생성하는 것이 어떤 것들이 있는지 조사할 것
3) 특허 추진할 것
4) 2006년 8월 정보과학회 33권 8호 '온톨로지 생성을 위한 위키시스템' 참조할 것
5) 2008? 2009? 10월 20일 IEEE서울 국제 학회 '시맨틱 웹 tech using CI of mobile SN' - Lee hongchul, Hyejin Jin참조할 것 그리고 automatic ontology generation using extended ... keyword, LHC, Sim Joon도 참조할 것
6) 논문에서 온톨로지 생성한 결과를 formal lang.으로 표현할 것
7) 투고할 SCI 논문지 리스트를 작성할 것
8) Ontology auto generation methods 몇개 참조해봐라 -  PhD논문
(이메일로 종수가 받은거)

3. 기타
식약청 프로젝트의 결과물 - 정보과학회 춘계 학술대회 논문 준비할 것

본 논문은 RFID 환경을 갖춘 박물관에서 온톨로지를 이용하여 박물관 이용자들에게 지능형 서비스를 제공하기 위한 방법을 제시한 논문이다. 박물관 이용자들이 지능형 서비스를 받기 위하여 RFID 태그 및 리더를 이용한 상황인지 기술이 필요한데 이 논문에서는 2*3CM이라는 콘텍스트 모델을 사용하여 해결하였다.

* 이 자료는 본인이 찾아 읽은 논문을 리뷰한 것일 뿐 저자가 아닙니다.

My publications

Personal/My papers 2008. 11. 19. 15:18 posted by Minery

Journal

Jong-Soo Sohn, In-Jeong Chung, Dynamic FOAF Management Method for Social Network in the Social Web Environment, Journal of Supercomputing (ACCEPTED) (SCI)


Jong-Soo Sohn, In-Jeong Chung, Cooperative Ontology Generation Method Using ACO, INFORMATION (ACCEPTED) (SCIE)


Jong-Soo Sohn, Un-Bong Bae, In-Jeong Chung, Content Recommendation Method Using Social Network Analysis, Wireless Personal Communications (ACCEPTED) (SCIE)


Wang Qing, 손종수, 정인정, FOAF와 SNA를 이용한 개선된 인터넷 자원 추천 방법. 한국정보처리학회 논문지 B, 19(3), 165-176, 2012.6
FOAF와SNA를이용한개선된인터넷자원추천방법.pdf


배운봉, 손종수, 정인정, 소셜네트워크 기반의 콘텐츠 추천 방법, 한국정보처리학회 논문지B, 18권 5호, 279-290, 2011.10
소셜네트워크기반의콘텐츠추천방법.pdf


손종수, 정인정, RSS와 OLAP 큐브를 이용한 FOAF의 동적 관리 기법. 지능정보연구, 17(2): 39-60.2011.
RSS와_OLAP_큐브를_이용한_FOAF의_동적_관리_기법.pdf


권경락, 류재환, 손종수, 정인정. 개선된 패스트리를 이용한 지능형 생산관리 시스템. 정보처리학회 논문지 D 제16-D권 제4호 pp. 621-630. 2009년 08월 31일.
JBCRGX_2009_v16Dn4_621.pdf


손종수, 정인정, Fuzzy OWL을 이용한 사용자 Context의 표현 및 추론, 한국지능정보시스템 학회논문지 지능정보연구 14권 1호, 2008. 3, pp. 35~45
dbpia1053675.pdf


Conference



Jong-Soo Sohn, Qing Wang, In-Jeong Chung, Generation of User Interest Ontology Using ID3 Algorithm, LNEE 215, IT Convergence and Security 2012, Vol. 2, pp 1067-1074, 2012 (SCOPUS)

ICITCS2012-INTEREST-CoverIndexContent.pdf


Jong-Soo Sohn, Jin-Hyuk Yang, In-Jeong Chung, Improved View Selection Algorithm in Data Warehouse, LNEE 215, IT Convergence and Security 2012, Vol. 2, pp 921-928, 2012 (SCOPUS)

ICITCS2012-DWH-CoverIndexContent.pdf


Jong-Soo Sohn, Do-Hyung Kim, In-Jeong Chung, Ontology based ID3 tag management system, ICTC2012, 2012 (SCOPUS)

MP3-4-4.pdf


Jong-Soo Sohn, In-Jeong Chung, Dynamic FOAF Management Method for Social Network in the Social Web Environment, HPGC2012, 2012 (PRESENTATION) (BEST PAPER AWARD)

137.pdf


Jong-Soo Sohn, Un-Bong Bae, In-Jeong Chung, Content Recommendation Method Using Social Network Analysis, HPGC2012, 2012 (PRESENTATION)

136.pdf


왕동승, 손종수, 정인정, 사용자 중심 소셜 시맨틱 웹 프레임워크. KCC2012, 185-187, 2012.8

UserCentralizedSocialSemanticWebFramework.pdf


손종수, 조수환, 정인정, 온라인 소셜 네트워크에서의 휴리스틱 최단경로 탐색 방법, KCC2012, 384-386, 2012.8

HeuristicShortestPathFindingMethodintheOnlineSocialNetwork.pdf


Wang Qing, 손종수, 정인정, SNS에서 Decision Tree를 이용한 온톨로지 생성 방법. 한국인터넷정보학회 2011년도 추계 학술발표대회 논문집, 163-164, 2011.11

SNS에서_Decision_Tree를_이용한_온톨로지_생성_방법.pdf


배운봉, 손종수, 정인정, 매개 중심성 분석을 이용한 콘텐츠 추천 방법. 한국인터넷정보학회 2011년도 추계학술발표대회 논문집, 167-168, 2011.11

매개_중심성_분석을_이용한_콘텐츠_추천_방법.pdf


손종수, 정인정, SNS를 이용한 자연재해 감지 시스템.  한국인터넷정보학회 봄 정기 학술대회 논문집, 403-404. 2011.

SNS를_이용한_자연재해_감지_시스템.pdf


김도형, 손종수, 정인정, 소셜 네트워크에서의 온톨로지를 이용한 지능형 뮤직 챠트의 설계, 제 35회 한국정보처리학회 춘계학술발표대회 논문집 제 18권 제1호, 2011.05.

[KIPS_춘계]_소셜_네트워크에서_온톨로지를_이용한_지능형_뮤직_챠트.pdf


Kyunglag Kwon, Jaehwan Ryu, Jongsoo Sohn, Injeong Chung. Intelligent Process Control System with RFID Cuboid. The 11th International Conference on Electronic Commerce (ICEC'09) pp. 1-8. Aug. 12-15. 2009. (Grand Formosa Regent Hotel, Taipei, Taiwan)
Download link : http://portal.acm.org/citation.cfm?doid=1593254.1593256

Kyunglag Kwon, Yeochang Yoon, Jaehwan Ryu, Jongsoo Sohn, Injeong Chung. RFID Warehouse Management in the Small and Medium Enterprises based on Manufacturing Industry. The 3rd International Conference On Ubiquitous Information Technology & Application (ICUT) pp. 80-86. Dec. 18-20. 2008. (Equatorial Hotel, Ho Chi Minh, Vietnam)
Focus.pdf

손종수, 권경락, 정인정. ACO를 이용한 협업적 온톨로지 생성 방법. 제34회 한국정보처리학회(KIPS) 추계학술대회 논문집 제17권 제2호 pp. 512-515. 2010. 11. 12-13. (서울 이화여자대학교)
손종수_정보처리_추계학술발표대회_2.pdf

왕청, 권경락, 손종수, 정인정. FOAF 및 소셜 네트워크 분석 기법을 이용한 핫 이슈 추출 기법. 제34회 한국정보처리학회(KIPS) 추계학술대회 논문집 제17권 제2호 pp. 531-534. 2010. 11. 12-13. (서울 이화여자대학교)
10_정보처리_가을_왕청논문 (3).pdf

배운봉, 왕청, 권경락, 손종수, 정인정. 소셜 네트워크 기반의 콘텐츠 추천 시스템의 개발. 제34회 한국정보처리학회(KIPS) 추계학술대회 논문집 제17권 제2호 pp. 523-526. 2010. 11. 12-13. (서울 이화여자대학교)
10_정보처리학회_가을_배운봉-소셜 네트워크 .pdf

권경락, 배운봉, 왕청, 손종수, 정인정. RFID와 ERP 연계를 통한 인적 자원 관리 시스템의 개발. 제34회 한국정보처리학회(KIPS) 추계학술대회 논문집 제17권 제2호 pp. 516-518. 2010. 11. 12-13. (서울 이화여자대학교)
kips20101112ERP.pdf

손종수, 김도형, 정인정. 온톨로지를 이용한 의약품 정보 지식의 구축 사례. 2010 한국컴퓨터종합학술대회 논문집 Vol. 37, No.1 pp317-322
온톨로지를_이용한_의약품_정보_지식의_구축.pdf

류재환, 손종수, 정인정. 지능적 생산관리를 위한 온톨로지 기반의 상황인지 모형. 한국지능정보시스템학회 추계학술대회 논문집 pp. 163-168. 2009. 11.
kips20091103.pdf

윤여창, 손종수, 정인정. 형식개념분석(FCA)을 이용한 RDF 자동생성. 한국지능정보시스템학회 추계학술대회 논문집 pp. 156-162. 2009. 11.
2009지능정보시스템학회_윤여창.pdf

손종수, 정인정. RSS와 OLAP 큐브를 이용한 FOAF의 동적 관리 기법. 한국지능정보시스템학회 추계학술대회 논문집 pp. 149-155. 2009. 11. (우수논문상)
손종수2009가을KIISS학회논문.pdf

김도형, 윤여창, 손종수, 정인정. 온톨로지를 이용한 MP 3 메타데이터 관리 시스템. 2009 경영정보학 춘계통합학술대회 논문집 pp. 117. 2009. 06. 12.
[Final]_온톨로지를_이용한_MP3_메타데이터_관.pdf

류재환, 권경락, 윤여창, 손종수, 정인정. RFID 기반의 상황인지 생산관리 시스템. 제31회 한국정보처리학회(KIPS) 춘계학술발표대회 논문집 제16권 제1호 pp. 569-572. 2009. 04. 23-24. (부산 해운대 한화리조트)
ERP20090424.pdf

손종수, 류재환, 정인정, 집단지성을 이용한 온톨로지 생성 시스템의 설계, 2008 한국지능정보시스템학회 추계 학술대회 논문집, 2008. 11, pp 141~147
KIISS_C2008B_0006.pdf

공신조, 손종수, 윤여창, 정인정, 온톨로지를 이용한 효율적인 RFID 데이터 관리 및 활용에 관한 연구, 2008 한국지능정보시스템학회 추계 학술대회 논문집, 2008. 11, pp 148~154
KIISS_C2008B_0007.pdf

권경락, 손종수, 류재환, 윤여창, 정인정, ERP와의 연계를 통한 RFID 입출고 관리 시스템, 2008 한국지능정보시스템학회 추계 학술대회 논문집, 2008. 11, pp 301~308
ERP_RFID.pdf

손종수, 정인정, Fuzzy OWL을 이용한 사용자 context의 표현 및 추론, 한국지능정보시스템학회 2007 추계 학술대회 논문집, 2007. 11, pp 451~456
JJSHAD_2007_y2007m11a_451.pdf

손종수, 공신조, 정인정, 수동형 RFID 태그 위조 방지를 위한 알고리즘, 한국지능정보시스템학회 2007 추계 학술대회 논문집, 2007. 11, pp 423~429
RFID태그위조회피방법(2).pdf

손종수, 정인정, 자동적 상황인지를 위한 동사의 표현, 한국지능정보시스템학회 2006 추계 학술대회 논문집, 2006. 11, pp 122~127 (우수논문선정)
dbpia0786650.pdf

이지홍, 양진혁, 손종수, 정인정, UML을 이용한 효율적인 온톨로지 재사용에 관한 연구, 한국지능정보시스템학회 2006 춘계 학술대회 논문집, 2006. 6, pp 265~269
dbpia0737350.pdf

김태석, 양진혁, 이지홍, 손종수, 정인정, 지능형 전자상거래를 위한 온톨로지의 효율적인 생성, 2005 한국지능정보시스템학회 추계 학술대회 논문집, 2005. 11, pp 273~279
dbpia0696056.pdf



Patents
(출원) 커뮤니티 서비스 기반의 콘텐츠 추천 시스템 및 컨텐츠 추천방법. 출원번호: 10-2012-0034568, 발명자: 손종수, 왕청, 이동근, 정인정. 2012.04.03


(출원) 콘텐츠 추천 방법 및 그 시스템. 출원번호: 10-2012-002838, 발명자: 손종수, 배운봉, 송태성, 정인정. 2012.03.20

(출원) FOAF 데이터 관리 방법 및 장치. 출원번호: 10-2011-0144904, 발명자: 손종수, 정인정. 2011.12.28


(등록) 데이터베이스로부터 온톨로지를 생성하는 방법 및 그 장치. 출원 번호 : 10 - 2007 - 0073755, 발명자 : 정인정, 양진혁, 손종수, 이지홍, 김태석

(등록) 통합 모델링 언어를 이용한 웹 서비스 온톨로지 생성 방법, 출원 번호 : 10 - 2007 - 0073756, 발명자 : 정인정, 양진혁, 손종수 , 이지홍, 이윤수



Etc.

서시오, 손종수, 김태섭, 류승완, 조충호. 지능형 빌딩 에너지 관리 시스템 연구 동향. 정보통신산업진흥원 주간기술동향 통권 1487호. 2011.03.18
file58981-148701.pdf