김대중 전대통령 서거 - 삼가 고인의 명복을 빕니다
태그 : 구글
2008/07/16   "이론의 종말" _크리스 앤더슨 [13]
"이론의 종말" _크리스 앤더슨

[Originally published the cover story, "The End of Science", Wired Magazine: Issue 16.07]

이론의 종말

자료의 홍수 앞에 과학적 방법론은 쇠락하는가?
_ CHRIS ANDERSON (Editor-in-Chief of "Wired" Magazine, and the author of "The Long Tail")
 

Illustration: Marian Bantjes
 
"모든 모형은 틀렸다, 하지만 일부는 쓸만하다."
라고, 통계학자 George Box가 30년 전 주창하였고, 그가 옳았다. 하지만 우리에게 무슨 선택의 여지가 있었나? 오직 모형만이, 우주론적 방정식들에서 인간행동에 관한 이론들에 이르기까지, 일관적으로, 혹여 불완전하더라도, 우리 주변의 세상을 설명할 수 있어 보였다. 지금까지. 오늘날 Google 같은, 광대하고 풍성한 정보의 시대에 성장한 회사들은 굳이 잘못된 모형에 기댈 필요가 없다. 사실, 그들은 모형 자체가 필요 없다.
 
60년 전, 디지털 컴퓨터에 의해 정보는 가독적이 되었다. 20년 전, 인터넷에 의해 가용적이 되었다. 10년 전, 최초의 검색 엔진 정보 수집기들이 정보를 하나의 데이터베이스로 바꾸었다. 오늘날 구글을 비롯한 회사들은 역사상 최고로 '측정'된 시대를 날아들며, 대규모의 자료를 인간 조건의 실험실처럼 다루고 있다. 이들은 페타바이트Petabyte 시대의 아이들이다.
 
페타바이트 시대는 다르다. 왜냐하면 많은 것은 다른 것("more is different")이기 때문이다. 킬로바이트는 플로피 디스크에 저장되었다. 메가바이트는 하드 디스크에 저장되었다. 테라바이트는 디스크 배열에 저장되었다. 페타바이트는 구름에 저장된다. 이 진보를 거쳐가며, 우리는 서류철의 비유에서 시작해서 캐비넷, 도서관까지 비유를 확장시켰으며, 페타바이트까지 확장된 지금은, 글쎄, 더 이상 쓸만한 집합적 비유가 남아있지도 않다.
 
페타바이트 수준에선, 정보는 삼, 사차원 정도로 단순한 분류와 순서의 문제가 아니라 불가지 차원의 통계적 문제가 된다. 이는 완전히 새로운 접근을 요청한다. 우리로 하여금 자료의 보루--총체성 속에서 시각화될 수 있는 어떤 속성--을 포기토록 요구하는 접근을. 이는 우리에게 일단 수학적으로 분석한 후에 맥락을 구성하게끔 강요한다. 예를 들어, Google은 오직 응용수학만을 이용하여 광고업계를 평정했다. Google은 문화니, 광고의 규범에 대해 일절 아는 척하지 않았다. 대신, 다만, 더 좋은 자료와, 더 좋은 분석도구가 있으면 승리할 수 있다--고 가정했을 뿐이다. 그리고 Google은 옳았다.
 
Google의 설립 철학이 말하는 바는, 왜 이 페이지가 저 페이지보다 훌륭한 것인지, 우리는 알 수 없다는 것이다. 만약 진입링크의 통계치가 그렇다고 한다면, 그걸로 충분하다. 어떤 의미론적 분석이나 인과론적 분석도 필요 없다. Google은 바로 이 방법을 이용하여 해당 언어에 대해 아무것도 모르면서도 번역을 하는 것이다(동등한 총체적 자료가 주어진다면, Google은 불어를 독어로 번역하듯 간단하게 클링곤어{스타트렉에 나오는 전투종족의 언어}파시{페르시아어}로 번역할 수 있다). 또한 바로 이것이 광고나 싸이트 내용에 대해 어떤 것도 이해하지 않은 채로 싸이트 컨텐츠에 적합한 광고를 제공하는 방법인 것이다.
 
지난 3월의 O'Reilly Emerging Technology Conference의 연설에서, Google의 연구소장인 Peter Norvig는 George Box의 격언에 대한 개정을 제안하였다: "모든 이론은 틀렸다. 그리고 점차 이론 없이도 성공할 수 있다."
 
이는 대량의 자료와 응용수학이 다른 모든 도구들(세상에 나타났을지도 모를)를 대체하는 세상이다. 인간행동에 관한 모든 이론에서 벗어나서, 언어학에서 사회학으로. 분류학이니, 존재론이니, 심리학 같은 건 싹 잊어버려라. 사람들이 그런 행동을 하는 이유 따위를 누가 알겠는가? 중요한 것은 그들이 그런 행동을 한다는 것이고, 우리는 그 행동들을 사상초유의 충실성을 유지하며 추적하고 측정할 수 있다. 자료만 충분히 모이면, 그 다음은 숫자들이 스스로 말한다.
 
허나, 여기서 논하는 목표는 광고가 아니다. 과학이다. 과학적 방법론은 실험 가능한 가설들 위에 세워졌다. 모형들이란, 대부분의 경우, 과학자들의 마음 속에서 시각화된 체계이다. 이 모형들은 시험되고, 세상이 어떻게 작동하는지에 관한 이론적 모형들을 실험은 승인하거나, 기각한다. 이것이 지난 수백 년간 과학이 해온 방식이다.
 
과학자들은 상관관계가 인과관계가 아님을 인식하도록 훈련 받았기 때문에, 단순히 X와 Y간의 상관(단지 우연일 수 있으므로)에 기초하여 결론을 내리지 않는다. 대신, 두 현상을 연결하는 현상의 기저에 놓인 작동기제를 이해하여야 한다. 일단 모형을 세우면, 확신을 갖고 자료들을 연결 지을 수 있다. 모형 없는 자료는 소음에 불과하다.
 
하지만 광대한 자료 앞에서, 과학을 향한 이 접근--가설화, 모형, 시험--은 진부한 것이 된다. 물리학을 생각해보라. 뉴턴의 모형은 진실에 대한 조야한 근사값들이었다(분자 수준에선 틀렸지만, 여전히 쓸만한). 백 년 전, 통계적으로 기반한 퀀텀 역학은 더 나은 그림을 제시했다. 퀀텀 역학 역시 또 하나의 모형이지만, 또 그렇듯, 역시, 흠이 있지만, 더 복잡한 이면의 현실에 대한 스케치임에 틀림없다. 물리학이 지난 몇 십 년(자료가 고갈된 학과의 "아름다운 이야기"{초끈이론 등} 시절)동안 n차원의 대통합모형에 관한 이론적 공론으로 휩쓸린 이유는, 가설을 기각하기 위한 실험을 실행할 방법을 모르기 때문이다--에너지가 너무 강하다. 가속기가 너무 비싸다. 등등.
 
이제 생물학도 같은 방향을 향하고 있다. 우리가 학교에서 배운 "우성적", "열성적" 유전자들에 대한 멘델적 절차를 엄격하게 선도하는 모형들은, 뉴턴의 법칙보다 훨씬 더 심한 현실의 단순화로 드러났다. 유전자 단백질 상호작용의 발견과 후성설의 다른 측면들은 DNA에 대한 운명론적 관점에 도전하였으며, 심지어 환경이 세습적 특질에 영향을 끼칠 수 있다는, 한 때 유전적으로 불가능한 것으로 간주되었던 증거들까지 제시하고 있다.
 
짧게 말해, 우리가 생물학에 대해 배울수록, 이를 설명할 수 있는 모형에서 멀어지는 우리 자신을 발견하게 되는 것이다.
 
이젠 더 나은 해결책이 있다. 페타바이트 덕분에 우리는 "상관으로도 충분하다"고 할 수 있게 되었다. 이제 모형을 찾아 헤매는 것을 그만둘 수 있다. 뭐가 나타날지에 대한 가설 없이도 자료를 분석할 수 있다. 사상 최대 규모의 컴퓨팅 클러스터에 숫자들을 때려 넣고 통계적 알고리즘이 패턴들을 찾아내도록 할 수 있다. 과학이 찾아낼 수 없었던 패턴들을.
 
이 방식의 가장 훌륭한 실용적 예시는 J. Craig Venter가 사용한 '샷건 유전자 시퀀싱'이다. 고속 시퀸서들과 여기서 나오는 자료를 통계 분석할 수 있는 슈퍼컴퓨터 덕분에 Venter는 개별 조직을 시퀀싱하는 것에서 생태계 전체를 시퀀싱하는 것으로 나아갈 수 있었다. 2003년, 그는 Cook 선장{18세기 영국왕립해군의 선장, 최초로 호주 동쪽 연안과 뉴질랜드를 탐색한 유럽인}의 항해를 추적하며 광대한 바다를 시퀀싱하기 시작했으며, 2005년엔 공기를 시퀀싱하기 시작했다. 그 과정에서 박테리아 와 기타 생명체 수천 종이 새롭게 발견되었다.
 
"새로운 종을 발견한다"는 말에 독자들이 Darwin과 되새의 스케치들을 상기한다면, 과학의 옛 방식에서 벗어나지 못한 것일지 모르겠다. Venter는 그가 발견한 종들에 대해 거의 아무것도 할 말이 없다. 그것들이 어떻게 생겼는지, 어떻게 살아가는지, 생태학에 대한 다른 어떤 것도 알지 못한다. 심지어 전체 지놈조차 모른다. 그가 아는 것이라곤 오직 통계적인 "삐릭!"(blip) 뿐이다. 즉, 데이터베이스 내에 다른 시퀀스와 다른, 특유한 시퀀스란 새로운 종을 의미한다는 것만을 알고 있는 것이다.
 
이 시퀸스는 다른 시퀀스--우리가 기존에 알고 있는 종들과 유사한--와 상관관계를 가질 수 있다. 그런 경우, Venter는 그 생물에 대해 몇 가지 추측을 할 수 있다--태양을 고유의 방식으로 에너지로 변환한다든가, 동일한 조상에게서 나온 후손들이라든가. 하지만 이것 말고는, Google이 Myspace 페이지들에 대해 갖는 모형에 비해, 별반 나을 바 없는 모형을 갖고 있는 셈이다. 단지 자료일 뿐이다. 허나, Google 수준의 컴퓨팅 자원으로 분석함으로써, Venter는 동세대 누구보다도 더 크게 생물학을 진보시킨 인물이 되었다.
 
이 종류의 사고방식이 대세가 될 목전에 이르렀다. 2월에, 국제과학제단the National Science Foundation은 클러스터 탐사the Cluster Exploratory를 공표했다. 이는 6개 대학의 시초pliot 연구팀들과 연계하여, Google과 IBM에 의해 개발된 대규모 분산 컴퓨팅 플렛폼에서 실행되도록 설계된 연구들을 제정적으로 지원하기 위한 프로그램이다. 이 클러스터는 1,600개의 프로세서, 테라바이트 단위의 메모리, 수백 테라바이트의 저장장치와, IBM의 Tivoli{96년 IBM이 인수한 Tivoli의 시스템 관리 플렛폼}Google File System{구글의 분산 파일 저장 방식}Map Reduce{페타바이트 규모의 병렬 컴퓨팅을 위한 프레임워크}의 오픈소스버전등의 소프트웨어들로 구성될 것이다. Early CluE 프로젝트에는 뇌와 신경계의 시뮬레이션, 그리고 wetware와 software 중간 쯤에 위치한 기타 생물학 연구들이 포함될 것이다.
 
이정도 규모의 "컴퓨터"를 사용하는 법을 배운다는 것은 도전이 될 수 있다. 하지만 이것은 굉장한 기회다. 막대한 규모의 자료들의 새로운 가용성은, 이 숫자들을 통째로 씹어먹을 수 있는 통계적 도구들과 함께, 세상을 이해하는 완전히 새로운 방법을 제시한다. 상관은 인과를 대체한다. 일관된 모형이나 통합된 이론, 어떤 역학적 설명도 필요 없이, 과학은 진보할 수 있다.
 
우리의 옛 방식에 집착할 이유는 없다. 이제 질문을 던질 때가 되었다: 과학은 구글에게 무엇을 배울 수 있는가?



원문: "Edge" 재단 홈페이지 http://www.edge.org/3rd_culture/anderson08/anderson08_index.html

+조악한 번역을 개선시키는 참여 대환영


이글루스 가든 - 하루에 한 장~ 꾸준히 번역하기
by Solleo | 2008/07/16 18:08 | 학습만화(07~) | 트랙백(2) | 핑백(1) | 덧글(13)
<< 이전 다음 >>


태그
이자람 20분이지나니또오타때문에에러 으힝더그렸다 싱나 지겨워 결론은반성문 여자가슴 근데정말이름비슷하다 아무튼또그렸다 낚시 근데세부점수는어떻게계산했을까 no.fun 북실북실한뇌 과학벨리맞나 visits ㅋㅋㅋㅋㅋㅋ 겨울 인체계측 사천가 산타는목록을두번확인한다 잘할수있는일을잘해라 암튼이환경에서계속하면안되는듯 m-flo 희희잼따 지지지지지겨워 dudeyouaredoomed ㅋㅋㅋㅋㅋ 씨발나도어른이야 남자근육 너부터잘해
카테고리
spiked(03~)
우주벌레근무일지(04~07.)
손바닥혹성의우주벌레(08~)
bah!(05~)
지하철관음증(06~)
monology(06~)
stainedglass(06~)
simology(06~)
김박사(07~)
dreamingphill(07.)
잠수여행견문사록(07.)
학습만화(07~)
notes(∞)

이글루 파인더

메모장

Creative Commons License

달리 정하지 않는 한, 이 저작물은 크리에이티브 커먼즈 코리아 대한민국 라이센스에 의하여 이용허락되었습니다.

solleo_@_gmail.com

Visitor Map by whos.amung.us
rss

skin by Solleo