-
논문 표절 (plagiarism)Professional 2008. 4. 10. 10:54
황우석 교수 사태로 논문 표절 문제가 헤드라인을 오래 장식했었다. 자성의 목소리도 높았고, 제도적인 보완도 했다. Nature cover story가 아닌 연구라 하더라도 academic dishonesty는 경계해야 한다. 하지만 때론 어떤 행위가 문제가 되는지 사람들이 잘 모르는 경우가 있는 것 같다. 여기 저기서 줏어들은 얘기를 적어본다.
전산학 분야에서는 학술대회가 저널보다 더 권위가 있는 경우가 대부분이다. Citeseer에서 제일 영향력있는 10개 논문게재지를 보면 10번째에서야 Journal of Artificial Intelligence Research 저널이 있을 정도이다. 해서 소위 top conference의 학술대회장들은 표절된 논문을 잡아내는게 큰 관건이다.
두 개의 학회에 동시에 논문을 접수시켰다. 우리 분야에서 이건 금기시된다. 저널에 20% 살을 더 붙였다 하더라도 학회와 저널에 동시에 접수시키는 것 역시 금기시된다. 일단 어디든 동시다발 접수는 안된다. Top conference간에는 학술대회 위원들이 조금 겹치기 때문에, 설마 하면서 제출할 지 모르지만, 두 개의 학술대회에 다 적용되는 논문이라면, 양쪽에서 다 활동하는 위원에게 할당될 확률도 높다고 보면 된다. (학술대회에 이미 나간 논문에 20% 살을 더 붙여 저널에 보내는 것을 가지고 publication right을 학술대회가 갖는지, 저널이 갖는지 갑자기 궁금해졌다.)
몇몇 사람의 논문을 교묘하게 짜집기해서 논문을 만들기도 한단다. 좋은 논문을 가지고 짜집기하다보니 학술대회 심사위원들의 것들이 포함되서 심사위원들이 자신들의 논문에서 인용된 그림이나 자기가 쓴 서론을 알아보고 말았단다. 이런 경우 학술대회장에게 통고하는데, 학술대회장이 follow-up해서 해당 기관의 장에게 통고를 하는데, 그렇게 하지 않으면 그 학술대회 역시 권위를 잃고 만다. 근데 요새는 저자들이 약아서 gmail 계정에 소속 기관을 밝히지 않는 경우도 있단다.
학술대회 논문제출 시한까지 논문이 채 준비되지 않으면 학술대회장에게 하루만 시간을 더 내달라고 애걸하는 이멜은 나도 몇 번 보내봤다. 이런 경우는 참 양심적인 경우이다. PDF 형식으로 제출하는 논문을, PDF 화일의 뒷부분을 잘라서 일단 접수시킨다. 그런 다음, 막상 심사위원들이 프린트해서 보려면 열리지가 않아 다시 보내라고 할 때 좀더 작업한 논문을 보내는 꽁수를 쓰기도 한단다. 이런 걸 막기 위해 논문을 업로드할 때 아예 프린트가 되는지 확인하는 프로그램을 짠 있는 친구도 있었다.
학술대회 논문 및 리뷰 관리가 장난이 아니다가 보니까 Workshop on Organizing Workshops, Conferences, and Symposia for Computer Systems라는 워크샵을 해야될 정도가 되었다.
나는 논문 표절을 당한 경우가 있다. 국내 모 학술지에서 특정 주제로 기획을 한 회에 논문을 내달라는 요청을 받아서 외국 학술대회에 발표된 논문을 한글로 요약해서 학술지에 내었다. 근데 막상 학술지에 인쇄가 되고 보니 외국인 공동저자들의 이름이 다 빠진 것이 아닌가. 바로 정정 기사를 내달라고 부탁했는데, 담당 편집인도 몰랐다고 하면서 사과를 했지만, 그 이후로는 감감무소식이다. 논문을 바로 철회했어야 했는데.
전에는 한 번 이런 실수도 한 적이 있다. 네트워크에서 패킷 지연을 측정해서 회사내 다른 부서로 발표를 하러 가는데, 측정을 한 학생 왈, 패킷 지연값이 마이너스가 있었단다. 발표 일정이 너무 급해서 그냥 프로그램 버그려니 하고 학생말을 귀기울여 듣지 않은게 화근이였다. 막상 발표 때 질문을 통해서 마이너스 값이 도대체 얼마나 있었나 알아보니까 두 자릿수가 넘었단다. 맙소사. 프로그램 버그가 아니라 측정 시스템 자체에 문제가 있어서 지연값 전체가 잘못된 것이였다. 회사내 과제 발표였으니 망정이지 논문이였다면 어쩔뻔했던가. 연구에서는 어느 한 부분도 "그렇겠지, 되겠지" 넘어가면 안됨을 뼈저리게 느꼈던 경험이였다. (막상 이렇게 문제를 일으킨 데이터가 또 예상밖의 결과를 내어놓아 머리를 갸우뚱하게 했는데, 그게 인터넷에서의 라우팅 문제점을 지적해내는 자료가 되었다. 절대 예상밖의 자료라고 버리면 안 된다!!!)
전산 분야에서는 negative한 결과는 발표하기 어렵고, 또 누가 어떻게 한 걸 다시 확인했다하는 논문도 어렵다. 둘다 "scientific validation process"로 중요함에도 불구하고 분야의 특성상 새로운 시스템을 만들어서 지금보다 성능이 50% 이상 좋아져야지, 옛날한 거 또 하고, 이렇게 하면 안 된다는 연구 결과는 매력이 없는 탓이다. 그러다보니 연구 내용에 대한 검증은 학술대회나 저널의 리뷰어가, 그리고 나중에 논문을 읽어보고 다시 해보려는 학생들의 몫이 된다. 해서 나는 논문에 쓰인 데이터 및 코드는 가능한한 모두 공개한다. 가끔씩 그 때 그 논문의 코드나 데이터 달라고 하는 이멜이 올 때마다 뒤져 보내주는 수고를 덜 수 있을 뿐더러, 사용하려는 사람도 나한테 따로 이멜을 보내지 않아 편하다.
논문 표절은 막상 문제가 생겼을 때 얼마나 단호하게 대처하느냐가 다음에 표절을 막을 수 있는 중요한 관건이다. 표절을 해도 아무런 제재가 없으면 해도 되는 줄 알고 자꾸 한다. 다른 사람들 얘기들으면서 참 별 꽁수를 다 쓴다는 생각도 들었지만, 나는 학생들을 제대로 지도하고 있나 되돌아보는 기회도 되었다.