인문학 > 인문학

국내서도 ‘빅데이터 인문학’

시대 활짝 열린다

근현대 신문-잡지 ‘디지털 분석’ 활기

회전 스캐너가 1000년 이상 축적된 행정 의료 선박의 입출항 기록, 지도, 계약서 등 이탈리아 베네치아 국가기록보관소의 온갖 고문서를 자동으로 스캔한다. 문자 인식 알고리즘이 이를 디지털화해 거의 잊혀졌던 과거의 ‘사건’ 약 100억 건을 살려낸다. 스위스와 이탈리아 연구진의 ‘베네치아 타임머신’ 프로젝트다. 이를 통해 과거 베네치아의 시대별 사회적 네트워크가 재구성됐다. 과거가 살아난 것이다. 또한 2010년 공개된 ‘구글 엔그램 뷰어’는 500년간 발간된 800만 권의 책을 순식간에 검색해 특정 단어가 사용된 빈도의 추이를 그래프로 그려준다.

빅데이터 처리 기술이 발전하면서 인문학 연구의 새로운 도구가 되고 있다. 국내에도 ‘빅데이터 인문학’이 점차 활기를 띠고 있는 중이다. 디지털 원문이 구축된 근현대 신문과 잡지를 통해 단어에 담긴 개념의 변화를 추적하는 연구가 성과를 내고 있다.

잡지 데이터를 분석해 근대 한국인의 ‘제국(帝國)’에 대한 인식을 살핀 허수 서울대 국사학과 교수의 연구도 그중 하나다. 그의 논문 ‘어휘 연결망을 통해 본 제국의 의미’는 19세기 말부터 1942년까지 발간한 잡지 가운데 전산화된 19종의 기사 1100만 어절에서 ‘제국’을 키워드로 3098건의 용례를 추출해 분석했다. 그 결과 1896∼1910년에 ‘제국’은 대체로 국제 질서를 주도하는 강대국을 가리켰던 데 비해, 1920∼1933년에는 문화주의를 바탕으로 비판적인 맥락에서 사용한 경우가 급증한 것으로 나타났다. 대한제국을 가리키던 ‘아(我) 제국’, ‘우리 제국’이 1934∼1942년에는 일본 제국을 가리키는 용어로 변한 것도 특징이다.

허 교수는 동아일보 기사를 분석해 1970, 80년대 한국의 ‘민중’ 개념에 관한 연구를 내놓기도 했다.

국문학계에도 방대한 데이터를 분석한 연구가 꾸준히 나온다. 이재연 울산과학기술원(UNIST) 기초과정부 교수의 논문 ‘생활과 태도’의 부제는 “기계가 읽은 ‘개벽’과 ‘조선문단’의 작품 비평어와 비평가”다. 두 잡지에 실린 작품 평에 자주 나오는 단어, 특정 비평가와 함께 등장하는 비평 용어를 알고리즘으로 분석했다. 그 결과 염상섭(1897∼1963)이 ‘태도’라는 비평 용어를 다채롭게 활용해 창작 방식 전반을 평가했다는 것이 드러났다. 이는 기존에는 주목하지 않았던 지점이다. 근대 작가들의 잡지 투고 네트워크를 분석한 결과 ‘근대 문학의 거목’ 춘원 이광수(1892∼1950)가 통념에 비해 영향력이 적은 것으로 나왔다.

빅데이터 인문학의 발전을 위해서는 말 그대로 ‘빅데이터의 구축’이 필수적이다. 미국 영국이 디지털 인문학을 선도하는 가운데 동아시아에서는 대만이 앞서가고 있다. 대만은 1830∼1930년 신문·잡지·단행본·교과서·문집을 망라하는 1억2000만 자가량의 데이터베이스를 2008년 구축해 활용하고 있다.

국내에서는 고려대 민족문화연구원이 ‘물결 21’ 작업을 하고 있다. 고려대팀은 2000∼2013년 발간된 국내 4개 신문의 기사 5억9200만 어절을 분석하는 시스템을 구축했다. 이 시스템에서는 특정 단어의 출현 빈도와 공기어(共起語·함께 등장하는 단어) 분석이 가능하다. 이를 통해 신문 빅데이터에 드러난 북한의 모습, 한글에 대한 사회적 관심의 변화를 추적한 논문이 나왔다. 1946년 이후 동아일보 기사에 대한 시스템 구축도 최근 마무리됐다.

한림대 한림과학원은 1900∼1930년대 잡지의 원문을 분석해 민족, 계급 등에 대한 개념의 형성과 의미 변천을 연구하고 있다. 근대 잡지 25종의 디지털화와 어학적 분석, 웹페이지 공개를 준비하고 있다. 송인재 한림과학원 교수는 “대만 일본 등의 연구진과 협력해 동아시아 국가별 개념의 역사를 상호 비교할 수 있도록 할 것”이라고 말했다.

글 조종엽 기자
제공 : 동아일보

  • 위비톡
  • 카카오톡
  • 카카오스토리
  • 페이스북
  • 트위터
  • 구글플러스

이 코너의 다른기사