[논문리뷰] Fast end-to-end learning on protein surfaces

이 논문은 학술지는 아니고 바이오 아카이브에 올라왔던 논문인데요.

바이오 아카이브는 연구자들끼리 연구 논문을 공유할 수 있는 온라인 저장소 입니다.

과학 논문 게재에 필요한 시간과 비용이 늘어나면서 심사나 수정 의 절차를 밟지 않고 연구 논문을 공유 할 수 있는 온라인 저장소 인데요. 각 분야에서 이런 저장소들이 늘어나고 있다고 합니다.

제가 가지고 온 논문은 쉽게 말씀 드리면 2탄 이라고 할 수 있고 1탄이 같은 저자들이 흡사한 연구 내용으로 네이처에 퍼블리쉬 했습니다. 네이처 학술지는 다들 아실꺼구요. 1탄의 내용은 이따 말씀드리겠습니다.

목차입니다.

단백질에 대한 간단한 인트로덕션 설명으로 시작해서

현재까지 진행되고 있는 단백질 연구에 대한 내용

그 연구의 contributions 에 이어서

본 논문의 메인 내용인 study design 에 대해서 말씀드리고

마지막으로 result 와 discussion으로 발표를 끝내도록 하겠습니다.

단백질의 구조에 대해서는 다들 한번씩 들어보셨을텐데요,

단백질은 20개의 아미노산들이 펩티드 결합을 통해서 축합된 고분자 화합물입니다.

1차는 펩타이드 결합에 의해 연결된 아미노산 서얼을 말하구요

2차는 펩타이드 결합 사슬 내에서 일정 구역에 반복적 구조를 보입니다.

3차는 2차구조가 모여서 폴딩이 되면 3차구조가 되구요

4차 구조는 3차구조가 2개이상 되면서 다량체를 이루면 4차 구조가 됩니다.

이렇게 단백질이 여러 결합으로 특정한 공간적 형태로 접히게 되면서 생물학적 기능을 수행하게 되고 이 때문에 단백질의 기능을 분자 수준으로 이해하려면 이 3차원 구조를 이해하는게 매우 중요합니다.

단백질의 기능은 여러가지가 있습니다.

소화효소는 음식물에 있는 결합의 가수분해를 촉매해서 저희의 소화를 돕구요

아미노산을 저장하기도 합니다.

예로 우유에 많은 카제인은 포유동물 새끼의 주된 아미노산 공급원이구요

이자에서 분비되는 인슐린은 혈당 조절을 하는 호르몬 단백질 이구요

이거는 전세계 사람들에게서 활발하게 일어나고 있겠네요

백신을 맞으셨다면 이 작용을 하고 있겠네요. 박테리아나 바이러스를 불황성화 시키는 면역 단백질

헤모글로빈처럼 산소를 페에서 몸으로 이동시켜주는 운반 단백질이 있구요

신경세포 말단에서 분비되는 신호분자를 감지하는 리셉터 막단백질이 있구요

지지 기능을 하는 머리카락에 케라틴, 피부에 콜라겐, 엘라스틴 단백질도 있을겁니다.

알파고를 개발한 구글 딥마인드에서 단백질 구조 예측 인공지능 알파폴드2(기술)을 발표하면서 36만 개 이상의 단백질의 3차원 구조를 예측하는데 성공했다고 이를 공개 했는데요.

앞서 말씀 드린거 처럼 단백질 구조는 단백질의 기능과 직결되어 있기 때문에 이 연구가 앞으로 어떻게 사용될지 기대됩니다만, 오늘 가지고온 논문에서는 알파폴드는 구조예즉에 그쳤고 결국에는 단백질-단백질 간의 상호작용을 예측하고 기능예측이 중요할것이고 이 연구팀에서는 단백질 surface를 이용해서 기능 예측이 가능했다 라고 말하고 있습니다.

말씀드린 사례처럼 단백질 연구가 활발하게 일어나고 있고 단백질 구조를 이해하기 위해서 여러 방식으로 연구되고 있습니다. 보시는것과 같이 그림 C 그림처럼 스틱그래프 형식으로 단백질 백본 으로 연구되기도 하고, 반복구조를 파악하기 위해서 2차구조 튜브나 리본형식으로 연구가 되기도 하고, 더 higher level 로는 molecular surface 레벨로 연구가 되기도 하는데요, 흥미로운 점은… 같은 모양의 표면도 다른 sequence나 architecture 를 가질 수 있다는 점입니다. Sequence나 structure가 다른데 기능은 같을 수도 있는거죠 그래서 sequence나 architecture level 보다는 surface 레벨에서 연구하는게 단백질간의 기능적 유사성을 찾는데 더 유리할 것이다라는게 본 연구팀의 주장입니다.

다들 이거 아시죠?

한때 엄청난 인기를 끌었던 걸로 기억하는데요. 푸딩 얼굴인식이라는 앱입니다

저도 한번 해봤던 기억이 납니다. 혹시 모르실 까봐 말씀드리면 본인의 얼굴 사진을 찍어서 업로드 하면 얼굴패턴을 인식해서 본인과 가장 흡사한 연예인을 매칭해줍니다. 벌써 이게 나 온지 거의 10년이 댔더라구요 이번에 찾아보니까 앱 출시하고 한 1년뒤에 연예인들이 초상권 소송 걸어서 1억8천만원 배상하면서 서비스가 종료됐다고 하더라구요.

이렇게 사람의 얼굴을 인식하듯이 본 연구에서는 단백질의 얼굴을 인식해서 단백질-단백질 간의 상호작용과 단백질 도킹 부위, 두가지를 예측하고자 하였습니다.

본 연구 설계에 대해 말씀드리겠습니다.

물론 surface 연구에 데이터 구조는 여러가지가 있을 수 있습니다.

Volumetric, voxel 복셀이 있구요, 점군, 이 있을 수 있구요

또는 삼각법을 기반으로 mesh 구조 가 있습니다.

본 연구에서 사용된 데이터 구조는 mesh 구조(초록색박스) 를 사용하였습니다.

제가 아까 1탄에 대해서 말씀드린다고 했는데,

이 연구팀에서 처음 massif 라는 딥러닝 어프로치를 개발했습니다. 그런데 한계점이 (precomputed) 사전 훈련 과정 과 사람이 직접 특징을 정해주는 hand-craft feature 들에 너무 의존적이고 긴 작업시간과 용량이 요구되었습니다. 그래서 이후에 dMasif를 개발했습니다. dMasif는 input 데이터에서 바로 (computing) feature를 처리해서 사전연산 되는 step 없이 end-to end 로 바로 예측이 가능하고, massif 는 직접 설계된 수제특징 등으로 추출 되었다면, dmasif에서는 단백질의 electrostatic 기반으로 화학적 feature들을 사용해서 어프로치 하였습니다. massif와 비교했을때 600배 이상 빠르게 작업이 가능하고 메모리도 1/11 적게 사용되도록 만들었습니다.

인풋데이터는 클리어한 편입니다.

Cloud of atoms 이 있고 각 atom 은 6가지의 chemical type을 가집니다.

이 여섯가지 items 들은 one-hot vector에 인코드 됩니다.

첫번째 스텝은 surface point들을 sampling 하고 정규화 시키는 것입니다.

이를 통해서 smooth function을 정의해줍니다.

이 function 들은 surface의 레벨을 알려줄거고 그 레벨을 선택하면

단백질의 surface를 설명할 수 있습니다.

그러면 좀더 자세하게 surface 포인트 들을 sampling 하는 과정에 대해 말씀드리겠습니다.

원자 point cloud 로 인코드 된 주어진 Input 단백질에서, 이 molecular surface 는 전 슬라이드에 말씀드린 원자 중심에서부터 시작해서 smooth distance function 레벨로 나타낼 수 있습니다.

Surface를 샘플링 하기 위해서 원자를 기준으로 랜덤한 point cloud (파란색) 을 생성해주구요.

Gradient descent 로 특정 원자에서의 거리를 최소화 해줍니다

그리고 만약에 단백질 안쪽에 point cloud 가 있다면 각 포인트들의 smooth distance function value로 연산 해서 지워 줍니다. 그게 이제 (d) cleaning 이 되겠구요

그리고 남은 모든 point들이 들어갈 수 있도록 cubic bin 으로 나누어줍니다. 그 후에 그 중에서 각 큐브에 하나의 포인트만 들어가도록 평균값에 준하는 샘플 포인트 하나만 남겨줍니다.

그리고 각 surface를 대표하는 하나의 포인트만 남았다면 마지막으로, distance function의 gradient를 바탕으로 normalization 해줍니다. 이 값은 나중에 function에서 n으로 사용될겁니다.

Surface point들을 샘플링하고 다음은 케미칼 피쳐에 대해서 연산하였습니다.

아까 말씀드린 파란색 포인트, 즉 surface를 샘플링할 때 사용했던 포인트 들이죠,

그 포인트에서 가장 근접한 16개의 원자 중심을 찾습니다.

케미컬 type 이랑 surface point 와 원자 중심 간 의 거리를 함께 mlp 에 넣어주고

거기에 대한 Output은 다시 두 번째 mlp에 적용 됩니다.

다음은 연산 된 surface point 들을 convolution에 적용시키게 됩니다.

Smooth gaussian window는 다음과 같이 연산 되는데 geodesic convolution에 사용됩니다.

아까 전에 cubic bin 에서 하나의 평균 포인트만 남긴다고 말씀드렸습니다.

그게 여기서 xi 이구요 그 옆에 네이버링 하는 한 포인트를 x j 라고 했을 때

두 포인트 간의 거리를 convolution 연산 합니다.

그리고 filter는 one layer mlp 든 three layer mlp 든 이 되겠구요

Mlp 의 input은 두 포인트의 3d vector 가 되겠고 각 vector 들은 local 좌표로 연산 되게 됩니다.

결국에는 vector의 final output으로 연산 하게 되구요.

각각의 포인트 클라우드에 대한 vector 들이

아까 바인딩 사이트와 인터렉션, 두가지 목적을 두고 본 연구가 진행된다고 했는데요

Convolution의 아웃풋을 mlp에 적용해서 최종 binary output 이 나오면 point side 인지 long side 인지 비교해서 결합 공간의 식별이 가능하구요

단백질 단백질 상호작용 예측은 두 단백질의 백터가 백터의 곱으로 dot product 가 연산 될거고 그런 그 사이에 쎼타 값을 알 수 있을거고 그러면 두 단백질 간의 interaction score 를 연산 하게 됩니다.

연구 결과에 대한 내용입니다.

왼쪽에 차트는

1탄과 2탄 간의 pre-train 사전 훈련 과정에 대한 내용입니다.

보시는거 처럼 세가지 magnitude 모두에서 더 빨랐다. 라는거구요

오른쪽 그래프는 ablation study 인데

초록색 보시면 concat 구조로 curvature곡률과 chemical 화학 feature 모두를 input으로 사용했을때 결과가 제일 좋았는데 Chemical feature 만 했을때는 결과는 그 와 동일했지만 curvature feature 만 input으로 사용했을때는 결과가 좋지 않았다. 라는걸 보여줍니다.