컨텐츠로 건너뛰기
뉴스
서울
맑음 / 7.5 °
IT NEWS 언론사 이미지

딥마인드 알파폴드, 단백질 구조 예측 난제 해결...“게임이 바뀌었다”

IT NEWS IT News
원문보기
댓글 이동 버튼0

인공지능(AI)이 생물학의 최대 난제 중 하나를 해결했다. 단백질이 아미노산 선형사슬에서 3D 형태로 돌돌 말아 생명과제를 수행케 하는 방법을 예측했다.

2년마다 열리는 ‘단백질 접기 대회(protein-folding competition)’ 조직위원회와 구조생물 학자들은 영국에 본사를 둔 AI 회사 딥마인드(DeepMind) 성과에 대해 “딥마인드 방법이 생물학에 지대한 영향을 미칠 것이다. 그중에서도 새로운 약물 개발을 극적으로 가속화 할 것”이라고 밝혔다.


유럽생물정보학연구소(EBI: European Bioinformatics Institute)의 재닛 손튼 명예소장은 “딥마인드가 이룬 환상적인 성과는 구조생물학과 단백질 연구의 미래를 바꿀 것이다”고 말했다. 또 메릴랜드대학 섀디그로브 캠퍼스 구조생물학자이자 이 대회 CASP(Critical Assessment of Protein Structure Prediction, 단백질구조예측능력평가) 공동 창립자인 존 몰트(John Moult)는 “딥마인드는 50년 난제를 해결했다. 내 평생 이런 일을 볼 줄 몰랐다”고 말했다.

인체는 수만 개 서로 다른 단백질을 사용한다. 각 단백질은 수십에서 수백 개 아미노산으로 구성됐다. 이러한 아미노산들은 이들 사이에서 무수한 밀고 당기면서 단백질의 복잡한 3D 모양을 만든다. 이는 차례대로 기능을 결정한다.

따라서 이러한 형태를 알아내면 단백질 주머니와 틈새에 들어갈 수 있는 약물을 고안할 수 있다. 또 원하는 구조로 단백질을 합성할 수 있다면 바이오연료를 만들고 폐플라스틱을 분해하는 효소 개발을 할 수 있다.

그간 수십 년 동안 연구자들은 x-선 결정술(x-ray crystallography) 또는 극저온 전자현미경 (cryo-EM)과 같은 실험기술을 사용해 단백질 3D 구조를 해독했다. 하지만 이러한 방법은 수 개월 또는 수년이 걸릴 수 있으며 항상 작동하는 것은 아니다. 그러다 보니 생명체에서 발견된 구조는 2억 개 이상 단백질 중 약 17만 개만 해결됐다.


1960년대에 연구자들은 단백질 서열 내에서 모든 개별 상호 작용을 알아낼 수 있다면 3D 형태를 예측할 수 있다는 것을 깨달았다. 하지만 단백질 한 개당 수백 개 아미노산과 각 아미노산 쌍이 상호 작용할 수 있는 방식이 무수히 많아 시퀀스 한 개당 가능한 구조 수는 천문학적이었다. 이에 컴퓨터과학자들이 문제해결에 뛰어들었지만 진행 속도는 느렸다.

1994년 몰트와 동료들은 2년마다 열리는 CASP를 만들었다. 이 대회는 참가자에게 구조가 알려지지 않은 단백질 100여개에 대한 아미노산 시퀀스를 제시했다. 어떤 팀은 각 시퀀스 구조를 계산하고 다른 팀은 실험으로 결정했다. 그런 다음 조직위는 컴퓨터로 예측된 결과를 실험 결과와 비교해, 예측에 GDT(Global Distance Test, 정확성검사) 점수를 부여한다. 100점 만점에 90점 이상이면 실험방법과 같다고 간주한다.

1994년까지만 해도 작고 단순한 단백질에 대한 예측된 구조가 실험결과와 일치할 수 있었다. 하지만 더 크고 까다로운 단백질 경우 GDT 점수가 약 20점밖에 나오지 않았다. 2016년까지 참가팀 대부분 가장 복잡한 단백질에 대해 약 40점을 받았다. 주로 CASP 표적과 밀접한 관련이 있는 것으로 알려진 단백질 구조에서 통찰을 얻었다.


그러다가 2018년 딥마인드가 알파폴드(AlphaFold)라는 딥러닝 알고리즘을 적용하면서 상황이 완전히 달라졌다.

알파폴드는 기존 비교전략을 소프트웨어가 방대한 데이터 저장소(알려진 단백질 서열 및 구조)에 대해 훈련하고 패턴을 발견하는 방법을 학습하는 딥러닝이다. 그 결과 딥마인드는 모든 단백질 구조에서 경쟁자보다 평균 15% 이상으로 이겼다. 또 가장 어려운 목표에서는 GDT 점수를 최대 약 60점을 얻어 쉽게 이겼다.

그런데도 딥마인드는 여기서 만족하지 않았다. 알파폴드 개발을 이끌고 있는 존 점퍼(John Jumper) 연구팀은 자신들의 예측이 너무 조잡해 유용하지 못하다는 결론을 내렸다. 이후 더 나은 예측결과를 얻기 위해 사람이 직소퍼즐을 조립하는 방식을 모방한 ‘텐션 알고리즘(tension algorithm)’과‘ 딥러닝을 결합했다. 즉 작은 덩어리(아미노산 클러스터)로 조각을 결합한 다음 더 큰 전체로 덩어리를 결합한다.


연구팀은 약 128개 머신러닝 프로세서를 구축한 컴퓨터 네트워크를 사용해 기존에 알려진 단백질 17만개 구조에 대해 알고리즘을 훈련시켰다.

그 결과 올해 열린 CASP 표적 단백질 전체에서 알파폴드는 GDT 92.4점(중앙값)을 달성했다. 가장 까다로운 단백질 경우 알파폴드는 2등 예측보다 25점 높은 평균 87점을 기록했다. 심지어 X-선 결정술로 해결하기 어렵기로 악명 높은 세포막에 갇힌 단백질 구조도 밝혀냈다. 이는 단백질 접힘 문제에 대한 놀라운 발전이다.

대회 조직위는 “올해 참가한 모든 팀 성적이 높아졌다. 그중에서도 알파폴드는 게임의 판도를 바꾸어 놓았다”고 밝혔다.

심지어 조직위는 딥마인드가 속임수를 쓰고 있는 게 아닌지 의심이 들 정도였다고 한다. 그래서 고대 미생물 그룹인 고세균 종 막 단백질 구조를 예측하는 문제를 냈다. 이 문제는 CASP의 판정관이자 막스플랑크 발생생물학 연구소 진화생물학인 안드렐 루파스 연구팀이 지난 10년 동안 단백질 X-선 결정구조를 얻기 위해 교과서에 나오는 모든 방법을 동원했지만 해결하지 못했다,

하지만 앞파폴드는 매우 간단하게 문제를 해결했다. 3개 부분으로 중간에 2개의 긴 나선형 팔이 있는 상세한 단백질 이미지를 그려냈다. 이 모델을 통해 루파스 연구팀은 X-선 데이터를 이해할 수 있었고, 이후 30분만에 실험결과와 알파폴드 예측 구조가 거의 완벽하게 일치한다는 결론에 도달했다.

딥마인드는 CASP를 참가하는 조건으로 다른 모든 팀과 마찬가지로 알파폴드의 예측 방법 세부정보를 공개하기로 동의했다. 앞으로 딥마인드 방법으로 정확히 예측된 구조를 이용해 분명치 않은 X-선결정술이나 초저온전자현미경(cryo-EM) 등 데이터를 이해할 수 있어 연구자들에게 큰 도움이 될 것이다.

또한 신약 설계자는 SARS-CoV-2와 같은 새롭고 위험한 병원체 단백질 구조를 신속하게 파악할 수 있다. 이는 바이러스를 차단할 분자를 찾는 데 핵심 단계가 될 수 있다.

그런데도 알파폴드는 아직 완벽하지 않다. 이번 대회에서 단백질 하나 때문에 고전을 면치 못했다. 작은 세그먼트 52개들이 반복되는 아말감에서 각각 세그먼트들이 조립할 때 서로 위치를 ​​왜곡시켰다.

딥마인드 측은 “앞으로 단백질 구조뿐만 아니라 세포 안에서 핵심 기능을 수행하기 위해 함께 작동하는 단백질 복합체 구조를 밝히도록 알파폴드를 훈련시키려고 한다”고 말했다.

난제 하나가 해결되면 또 다른 난제가 나타나기 마련이다. 따라서 이게 끝이 아니라 많은 새로운 시작이다.

김민중 기자 science@

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1전북 우승
    전북 우승
  2. 2손흥민 MLS 신인상
    손흥민 MLS 신인상
  3. 3트럼프 관세 재판
    트럼프 관세 재판
  4. 4박진영 장관급 예우 거절
    박진영 장관급 예우 거절
  5. 5박미선 유방암 투병
    박미선 유방암 투병

이 시각 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD