서명은 교수의 과학이야기

단백질 접기

매년 10월이 되면 과학계의 시선은 올해의 노벨상을 발표하는 스웨덴 왕립 아카데미에 쏠린다. 노벨화학상은 그중 세 번째로 생리의학상과 물리학상에 이어 발표된다. 올해 화학상은 단백질의 구조를 예측하고 새로운 단백질을 설계하는 데 기여한 공로로 University of Washington의 David Baker 및 알파고를 개발한 DeepMind의 Demis Hassabis와 John Jumper가 받았는데, 특히 DeepMind의 경우 처음 발표한지 채 10년이 되지 않은 연구 결과에 노벨상이 수여된 것은 극히 이례적인 일이다. 2019년 리튬 이온 전지를 개발한 공로로 노벨화학상을 수상한 University of Texas, Austin의 John Goodenough가 수상 당시 97세(2023년 100세를 일기로 사망)였음을 생각하면 76년생인 Hassabis와 85년생 Jumper는 정말 정말 젊은 셈이다. 어떤 연유로 받을 수 있었는지 이야기해 보자. 

단배질의 폴딩

단백질. 지방, 탄수화물과 함께 3대 영양소인 단백질 맞다. 그러나 생명체가 대사 과정을 통해 직접적으로 에너지를 얻는 탄수화물, 남는 에너지를 오래 저장하기 위해 만드는 지방에 비해 단백질은 생명체의 기계류를 구성하는 성분이라는 데 큰 차이가 있다. 즉 우리 몸을 구성하고 있는 세포 안에서 일어나는 화학반응을 관장하는 효소들, 세포들을 둘러싸 하나로 지탱해 주는 세포외기질(extracellular matrix) 등이 모두 단백질로 만들어져 있다는 뜻이다. 심지어 손톱과 머리카락의 주성분도 케라틴이라는 단백질이다. 지구상의 생명은 유전 정보는 DNA에 저장하여 후대로 전달하되, RNA를 이용해 유전 정보에 쓰인 대로 단백질을 만들어 형상을 갖추고 기능을 발휘하도록 진화했다. 따라서 단백질이 어떻게 생명체 안에서 만들어지고 쓰이는지를 알 수 있다면 생명 현상을 더욱 깊이 이해하는 시금석이 될 것이며, 나아가 단백질을 우리가 원하는 대로 조작하여 예컨대 병을 치료하고 노화를 억제하는 데 기여할 수도 있을 것으로 상상해 볼 수 있다. 지금은 단백질이 아미노산(peptide)들이 서로 공유결합으로 연결되어 있는 폴리펩타이드(polypeptide), 즉 고분자라는 사실을 당연하게 배우지만, 1900년대 한창 유기화학이 발전하기 시작할 당시에는 아미노산들을 붙이고 붙여서 이렇게 거대한 분자를 만들 수 있다는 것을 사람들이 믿지 못했다. Staudinger가 제안한 “고분자”의 개념이 큰 논쟁 끝에 결국 받아들여지고 폴리에틸렌 등의 고분자가 합성된 이래 단백질도 폴리펩타이드라는 사실을 모두 이해하게 되었다. 그 다음 문제는 개개의 단백질을 이루는 아미노산의 서열(sequence)은 어떻게 되고 서열과 단백질의 기능 사이에는 무슨 관계가 있기에 이렇게 다채로운 기능을 수행할 수 있는 것일까? 였다. 

일직선인 폴리에틸렌 사슬 하나를 따로 떼어 높은 온도에서 어떠한 형상을 이루는지 관찰해 보면, 아마도 시간이 지남에 따라 이리 저리 구부러지면서 모양을 계속 바꿀 것이다. 오랜 시간을 지켜보면서 사슬의 끝과 끝 사이의 길이를 재 본다면 평균값을 얻을 수 있고 이를 중심으로 해서 사슬 길이의 분포를 볼 수 있겠지만, 일정한 형태를 유지하려고 들지는 않을 것이라는 뜻이다. 매우 많은 탄소 원자들이 죽 연결된 폴리에틸렌 사슬은 각 원자마다 구부러질 수 있는 방향이 여러 개일 텐데, 하나의 형상만 고집할 이유가 없기 때문이다. 열역학적 관점으로는 가질 수 있는 형상의 개수가 많을수록 엔트로피가 높아지기 때문으로 설명할 수 있다. 

반면 단백질은 반복단위인 아미노산들이 아미드(amide) 결합을 통해 연결된다. 아미드 결합을 이루는 카보닐 산소와 아미드 수소는 수소 결합(hydrogen bonding)을 통해 다른 아미드 결합과 서로 상호작용할 수 있다. 즉 전자를 끌어당기는 질소에 연결되어 있는 아미드 수소는 전자가 부족하다 보니 전자가 풍부한 카보닐 산소에 가까이 가고 싶어한다. 따라서 가질 수 있는 다양한 형상 중에 수소 결합을 많이 만들 수 있는 형상이 에너지(정확히는 엔탈피)를 더 낮추어 안정화시킬 수 있다. 

이 중에 대표적인 형상이 바로 나선(alpha-helix)으로, 아미드 결합으로 연결된 18개의 아미노산이 오른쪽으로 5바퀴 감기면서 4개 떨어져 있는 아미노산들끼리 나선에 수직하게 수소 결합을 만드는 방식이다. Linus Pauling, Robert Corey, Herman Branson이 이 구조를 1951년에 제안했으며, Pauling은 1954년 노벨화학상을 받았다. 아미노산이 연결된 서열을 1차 구조(primary structure)라고 한다면, 나선은 2차 구조(secondary structure)에 해당하며 다른 대표적 2차 구조로는 판상 모양을 만드는 beta-sheet가 있다. 

자연에 존재하는 20종류의 천연 아미노산 중에는 물을 좋아하는 아르기닌 같은 종류도 있지만 소수성이 강한 페닐알라닌 같은 계열도 있다. 나선을 따라 소수성 그룹들이 배열된다면, 물에 노출되기 싫어하는 소수성 그룹들을 가려주기 위해서 나선들은 서로 뭉친다. 소위 말하는 소수성 상호작용(hydrophobic interaction)을 통해 이렇게 만들어지는 형상이 단백질의 3차 구조(tertiary structure)가 되며, 나아가 효소 등으로 기능하기 위해서는 여러 개의 폴리펩타이드들끼리 한번 더 뭉쳐 4차 구조(quaternary structure)를 만드는 일이 흔하다. 이 전체 과정을 접힘 과정, 즉 폴딩(folding)이라 이른다. 단백질이 기능하기 위해서는 서열에 설계된 정보대로 폴딩이 제대로 일어나 올바른 형상을 갖추는 것이 필수적이며, 따라서 서열-형상-기능 사이는 서로 뗄레야 뗄 수 없는 상관관계를 가진다. 예컨대 단백질 효소가 선택적으로 동작하려면 우리가 원하는 구조의 기질(substrate)만 효소 안의 반응 자리에 잘 맞게 결합할 수 있어야 하는데, 폴딩이 잘못되어 반응 자리의 모양이 기질과 맞지 않으면 아무 소용이 없는 식이다. 

폴딩은 얼마나 어려운가

1970년대에 Christian Anfinsen은 단백질이 폴딩 된 구조를 풀어서 다른 형상으로 바꾸었다가 다시 원래 조건으로 되돌려 주면 제대로 폴딩 된 구조가 돌아올 수 있음을 보였다. 이건 열역학적으로 안정한 방향으로 폴딩이 일어난다는 것을 의미한다. 하지만 모든 단백질이 그런 건 아니다. 예컨대 계란을 뜨거운 물에 삶았다가 꺼내면(즉 온도를 올렸다 내리면) 원래 흰자와 노른자로 돌아가지는 않잖는가? 즉 “Leventhal의 역설”로 불리는 문제와 같이, 단백질이 가질 수 있는 형상은 마치 폴리에틸렌처럼 엄청 많은데 어떻게 맞는 길을 찾아가는 것일까? 반대로 생각하면, 과연 서열을 안다고 해서 단백질의 폴딩 구조를 예측할 수는 있는 것일까? 한 번 더 뒤집어서 생각하면, 우리가 원하는 형상의 단백질을 인공적으로 만들기 위해서 서열을 설계해 볼 수는 있는 것일까? 

Alpha-helix와 beta-sheet를 잘 만드는 단백질 서열이 알려지고 X-ray 결정학의 발달로 더욱 많은 숫자의 단백질 폴딩 구조가 밝혀지면서 사람들은 새로운 구조의 단백질을 만들어 보고자 시도했다. 나선을 만드는 서열과 판상을 만드는 서열 등을 부분적으로 조합하는 접근에 비해 자연계에서 쓰이지 않는 아주 새로운 서열로부터 새롭고 안정한 단백질 폴딩 구조를 만드는 시도는 상대적으로 지지부진했는데, 생각해 보면 당연할 수도 있는 것이 나선 혹은 판상 구조를 안정하게 만드는데 특화된 서열들은 기나긴 진화의 과정 동안 고르고 골라서 나온 것들로 다양한 생명체들이 공통적으로 쓰고 있을 만큼 그 유용성이 입증된 것이다. 즉 자연에서 쓰이지 않는 서열로 단백질을 만들 수 있으면 자연이 수행할 수 없는 새로운 기능을 구현할 수 있겠지만, 반대로 생각하면 그 서열로 단백질을 만들어 봤자 안정한 폴딩 구조가 얻어질 수 없으니 진화 과정에서 배제되었을지도 모르는 일 아닌가? 

David Baker 그룹은 새로운 단백질을 설계하는 de novo design 분야에서 새로운 이정표를 세웠다.그룹은 2003년 93개의 아미노산으로 이루어진 Top7이라는 단백질을 설계하고 합성해서 폴딩 구조가 설계했던 대로 두 개의 나선과 하나의 판상 구조로 이루어져 있음을 증명했다. 이 구조는 자연에서 발견되는 폴딩 구조가 아니었으며, 또한 자연에 존재하는 단백질과 유사한 부분이 크게 없는 아미노산의 서열로 만들어졌다는 측면에서 진정한 de novo 단백질이라고 할 만하다. 

이들이 Top7을 설계할 수 있었던 배경은 바로 컴퓨터에 있다. Baker는 Rosetta라는 컴퓨터 프로그램을 개발해서 단백질 데이터 은행에 있는 서열 정보들을 분석해서 서로 다른 단백질인데 부분적으로 비슷한 서열이 있다면, 이런 조각들을 모아서 원래 구조를 구성할 수 있도록 최적화하는 작업을 진행하고 있었다. Rosetta를 반대로 이용하면 새로운 부분 서열로부터 안정한 구조를 예측하는 것도 가능했던 것이다. Baker 그룹은 나아가 이렇게 설계된 단백질이 효소로 동작할 수 있다는 것도 시연한 바 있다. 그 당시 컴퓨팅 파워는 커다란 단백질을 분석하고 설계하기에 충분치 않아서, 사용자들이 각자의 컴퓨터에서 계산을 분담함으로써 외계에서 오는 신호를 찾아내려고 하는 SETI@home처럼 Rosetta@home 프로젝트가 출범해서 현재도 진행 중에 있다. 

AI가 보는 폴딩

Hassabis는 13세에 체스에서 마스터 수준에 이르렀고 프로그래머이자 게임 개발자로 경력을 시작했다. DeepMind를 2010년 설립했고, 2014년 구글에 팔았으며, 알파고를 개발해 2016년 이세돌 9단을 격파하면서 전 세계를 충격에 빠뜨렸다. 

다만 DeepMind의 진짜 목표는 바둑이 아니었다. 단백질 구조 연구 분야에서는 Critical Assessment of Protein Structure Prediction (CASP)라는 대회가 있는데, 새로이 폴딩 구조가 규명된 단백질을 놓고 서열 정보만 제공한 채 누가 가장 유사한 폴딩 구조를 예측하는지 경쟁하는 것이다. DeepMind는 AlphaFold를 들고 2018년 대회에 등록해서 60% 수준의 정확도로 40% 정도였던 경쟁자들을 물리치고 우승을 차지했다. 

그것만으로도 놀랄 일인데, 2020년 DeepMind는 AlphaFold2로 돌아왔고 90%에 육박하는 정확도를 보고 다시 한번 과학자들은 말문을 잃었다. 마치 이 문제는 이제 해결되어 버렸다는 듯이… DeepMind는 AlphaFold2의 코드를 공개한 것은 물론 계산 결과를 바탕으로 2022년 2억 종에 달하는 단백질의 구조를 예측해서 공개했는데, 이 정도면 지구상에 알려진 거의 모든 단백질을 포함할 수 있는 숫자이다. AlphaFold2를 개발하는 과정에는 2017년 단백질 동역학 연구로 박사학위를 받고 DeepMind에 합류한 Jumper의 역할이 컸다고 알려져 있다. AlphaFold2는 폴딩 구조를 모르는 미지의 폴리펩타이드 서열을 받으면, 알고 있는 서열들과 비교하면서 어떤 부분들이 진화 과정에서 보존되었을지를 찾아가고 또한 사슬의 3차 구조를 만들어 보면서 어떤 아미노산들이 가까이 있을지를 예측한다. 에너지를 안정화할 수 있는 구조로 사슬의 형상을 최적화화면서 이 과정을 반복하여 결과적으로 전체 단백질의 폴딩 구조를 예측하는 것이다. 필자처럼 AI를 전공하지 않는 사람들에게 위안이 되는 부분이라면, 단지 데이터의 질이 높고 개수가 많다고 해서 AI가 모든 문제를 해결해 줄 수는 없으며 결국 분야에 대해 얼마나 사람이 이해하고 통찰력을 발휘하는지가 결국 게임을 바꿀 수 있다는 부분이 아닐까 싶다. 


어떻게 접을까

DeepMind는 올해 AlphaFold2를 더욱 개량한 AlphaFold3를 내놓았고, 아직 한계는 있지만 이제는 단백질뿐만 아니라 기질이 들어가 있는 구조나 핵산이 포함된 구조 등 복합체 구조까지도 예측하는 수준까지 나아가고 있다. 그래서 우리는 AI를 통해 서열과 구조 사이의 상관관계에 대해 훨씬 더 많이 알고 있지만, 실제로 어떻게 폴딩이 일어나는지는 또 다른 이야기이다. 앞서 이야기했듯이 단백질이 접힐 수 있는 가능성의 가짓수를 일일이 세어보기에는 우주가 탄생한 이래 지금까지 시간을 모두 써도 모자랄 수 있는 상황에서, 한번 부분적으로 잘못 접히게 되면 이걸 풀지 못하고 결국 올바른 폴딩 구조까지 도달할 수 없는 일이 생긴다. 이런 함정들을 피하기 위해서 폴리펩타이드 사슬 옆에서 손을 잡고 제대로 접히게끔 하는 길을 안내해 주는 단백질들이 존재하며, 이들을 사교계에 데뷔하는 여성을 보살피는 것 같다고 하여 샤페론(chaperone)이라 부른다. 여기에는 폴리펩타이드가 리보솜에서 합성될 때 일단 안 접혀서 어떤 형태로든 접힐 수 있는 사슬로 만들어진 다음 폴딩이 순차적으로 일어난다는 전제가 깔려 있는데, 생각해 보면 만들어지고 폴딩이 일어나는 사이에 틈이 존재할 이유가 없다. 따라서 최근의 연구 흐름은 폴리펩타이드가 만들어지면서 어떻게 폴딩이 동시에 일어나(cotranslational folding) 구조를 이루는지에 많은 관심이 쏠리고 있으며, 그 결과 자연은 만듦과 동시에 사슬을 접는 정도가 아니라 부분 부분마다 만드는 속도 대비 접히는 속도를 조절해서 그냥은 찾아갈 수 없는 폴딩 구조를 맞춘다는 것까지 알려지고 있다. 필자도 고분자를 만들면서 원하는 구조를 저절로 찾아가는 방법론을 연구하고 있지만, 우리 수준에 비해서 정말 너무나도 정교한 일을 아무렇지 않게 해내는 자연의 능력에는 그저 감탄할 뿐이다.

발행일: 2024년 2월 창간일: 2014년 7월 등록번호: 영등포, 바00169 발행인: 김동녕 편집기획: 홍보팀

한세예스24홀딩스 서울특별시 영등포구 은행로 30, 6층 T. 02)3779-0800


Copyright ⓒ 2023 hansaein All rights reserved.