김형중 논설위원, 결측치 데이터 연구의 신성, 김재광 교수와 대담
김형중 논설위원, 결측치 데이터 연구의 신성, 김재광 교수와 대담
  • 김형중 논설위원 (khj@koreaittimes.com)
  • 승인 2020.08.12 09:49
  • 댓글 0
이 기사를 공유합니다

김재광 교수

Iowa State University 김재광 교수

 

결측치 처리가 빅데이터 분석의 걸림돌인데 부분대체법(fractional imputation)을 제안해 주목을 받고 있는 김재광 교수와 서면 인터뷰를 했다.

문: 김교수께서 통계학 분야의 콕스(Cox) 상을 받으셨는데 어떤 상이고 한국인 중에 받은 분이 있는지 확인해 보신 적이 있는지?

답: 아, 그건 5년전 일이다. 콕스(Gertrude M Cox)라는 여성 통계학자의 이름으로 응용통계분야에 중요한 업적을 남긴 사람 1명씩 선발해서 매년 주는 상이다. 콕스는 여성으로는 처음으로 1949년 국제통계학회(Interantional Statistical Institute) 와 1956년 미국통계학회 (American Statistical Association) 의 회장을 역임했고 실험설계 (Experimental Design) 의 저자로 잘 알려져 있다. 한국 사람 중에는 제가 처음 콕스 상을 받았다.

최근에 세계 수리통계학회( Institute of Mathematical Statistics) 에서 제가 펠로우로 선정되었다. 그 이전에 한국인으로서 펠로우가 된 분은 서울대학교의 박병욱 교수와 김용대 교수가 계신다.

문: 김교수께서 Iowa State University (ISU)에 부임하기까지의 과정을 간략하게 정리해 달라.

답: 저는 2000년 아이오와 주립대학교에서 박사학위를 받고 미국의 회사에서 2년 정도 있다가 한국으로 돌아와 외대에서 2년, 연대에서 4년 반을 보내고 난 후 모교인 ISU에 부교수로 임용이 되어 미국으로 왔다.

문: ISU에서 교수로 자리잡기까지 어려움은 없었나?

답: 제가 미국에서 가르친 경험이 없어서 과연 미국으로 이민을 가서 잘 정착할수 있을지에 대한 확신이 없었다. 합격통지서를 받고서 수락할 때까지 심적 부담이 컸던게 가장 어려운 부분이었던 것 같다.

문: 빅데이터 분석에서 이전에는 결측치 (missing data) 를 어떻게 처리했나? 김교수께서는 어떤
방법을 개발하셨는지?

답: 서베이를 기반으로한 자료에서 무응답 비율이 점차 증가하기 시작했는데 2000년대 들어서는 단순히 무시할수 있는 상황이 아니였고 이를 통계학적으로 제대로 처리할 필요성이 증가했다. 이와 관련한 연구들이 많았는데 하버드 대학의 루빈(Donald Rubin) 교수가 다중대체법 (multiple imputation) 이라는 방법을 제안해서 많이 사용했다. 저는 그의 방법에서 어떤 문제점이 있음을 발견하고 이를 이론적으로 밝히고 이러한 문제점을 보완할 새로운 부분대체법(fractional imputation)을 개발했다. 제가 개발한 부분대체법은 베이지안 관점이 아닌 빈도론적 관점을 채택하였고 여러 개의 데이터를 만들지 않고 하나의 데이터에 결측을 처리하는 방식이라 사용자 입장에서 더 편리하다. 처음에는 루빈 교수 측에서 이러한 제안에 상당한 저항과 불만을 보였는데 지금은 제법 보급되었다. 최근에는 무시하기 힘든 결측데이터 (non-ignorable missing data) 자료를 처리하는 것에 대해서도 제가 많은 연구를 했다.

또한 미국정부 기관의 통계 관련 자문 및 프로젝트를 여러 개 했는데, 하나는 미국 센서스국의 소득 자료에서의 결측 문제를 부분대체법으로 처리하고 이에 대한 추정량의 분산을 구하는 프로젝트를 수행했다. 또한 미국 농림부의 지원으로 작물별 농지면적을 추정하는 문제를 인공위성 사진 판독 자료와 서베이 자료를 결합하여 다층모델 (multi-level model) 을 써서 소지역 추정 방법을 개발했는데 지금도 사용하고 있다. 그 외에도 국제보건기구 등의 지원으로 과테말라와 남수단 같은 지역의 빈곤 통계 자료를 응답자기반 (respondent driven) 샘플링 기법으로 생산하는 일도 도와주었다.

문: ISU에서 교수 생활이 한국 대학에서의 그것과 차이가 있다면 어떤 게 있나?

답: 연세대에 있을 때에는 이렇게 있다가는 곧 안주하겠다는 생각이 들었는데 미국으로 나오면서 안주할 수가 없게 되었다.

문: 통계학이 수학의 서자 취급을 받는다는 불평이 있는데 분야가 다르지 않나?

답: 저는 학문의 구분이 크게 의미가 없다고 생각한다. 수학자가 통계학을 연구하지 말아야 하는 것도 아니고 제가 다른 응용수학 분야를 연구하지 말아야 할 이유도 없다. 실제로 다양한 학문분야의 전문가들이 학제간 공동연구를 같이 할 때 더 의미있는 연구결과를 얻게 되는 경우가 많이 있다.

문: 통계학이 중요한 이유를 좀 설명해 주실 수 있을까?

답: 통계학이 중요한 이유는 통계학자보다는 오히려 다른 분야에서 데이터를 바탕으로 지식을 발견하고 이를 바탕으로 가치를 창출하는 분들이 더 잘 알고 잘 설명하실 것 같다. 데이터를 바탕으로 보다 객관적인 판단을 하고자 하는 모든 분야에서 통계학적 접근법이 필요하다고 짧게 답변드리겠다.

문: 미국에 진출하고 싶어하는 한국의 후배 교수들에게 한 마디 해주고 싶다면 무슨 조언을 해주고 싶으신지?

답: 요즘 트럼프 정권이라 미국에 진출하고 싶어하는 한국의 후배 교수들이 계신 지 모르겠다(^^). 다만, 저는 도전하는 자세는 젊은 사람의 특권이라고 생각하고 미국의 연구중심 대학에 자리를 잡아 연구자로 성장하는 꿈을 키우는 것은 충분히 가치있는 일이라고 생각한다.

문: 앞으로 학문적 계획이 있다면?

답: 네, 지금 쓰고 있는 책 (Statistical Methods for Handling Incomplete Data) 개정판이 내년에 완성되면 저는 조금 다른 분야를 공부하고 싶다. 현재 생각으로는 머신 러닝이나 데이터통합 (data integration) 과 같은 분야를 연구할 계획을 가지고 있다.

문: 삶에서 재미 있었던 일화 같은 게 있다면 하나 소개를 부탁한다.
답: 돌이켜보면 지난 시절들이 대부분 만족스러운데 그 중에서 특히 하나를 꼽으라면 아이들이 어릴 때 미국 국립공원과 유럽에 가족 여행을 갔던 것들이 가장 즐거운 기억이 되는 것 같다. 아이들이 크니까 안가려고 한다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • ABOUT
  • CONTACT US
  • SIGN UP MEMBERSHIP
  • RSS
  • 2-D 678, National Assembly-daero, 36-gil, Yeongdeungpo-gu, Seoul, Korea (Postal code: 07257)
  • URL: www.koreaittimes.com | Editorial Div: 82-2-578- 0434 / 82-10-2442-9446 | North America Dept: 070-7008-0005 | Email: info@koreaittimes.com
  • Publisher and Editor in Chief: Monica Younsoo Chung | Chief Editorial Writer: Hyoung Joong Kim | Editor: Yeon Jin Jung
  • Juvenile Protection Manager: Choul Woong Yeon
  • Masthead: Korea IT Times. Copyright(C) Korea IT Times, All rights reserved.
ND소프트