https://doi.org/10.1126/science.adq2634
Abstract
Cells have evolved mechanisms to distribute ~10 billion protein molecules to subcellular compartments where diverse proteins involved in shared functions must assemble. Here, we demonstrate that proteins with shared functions share amino acid sequence codes that guide them to compartment destinations. A protein language model, ProtGPS, was developed that predicts with high performance the compartment localization of human proteins excluded from the training set. ProtGPS successfully guided generation of novel protein sequences that selectively assemble in the nucleolus. ProtGPS identified pathological mutations that change this code and lead to altered subcellular localization of proteins. Our results indicate that protein sequences contain not only a folding code, but also a previously unrecognized code governing their distribution to diverse subcellular compartments.
요약
- 단백질 서열이 세포 내 구획화를 조절하는 코드 역할: 연구진은 단백질 서열 내 특정 코드가 존재하며, 이것이 세포 내 특정 구획(compartment)으로의 선택적 분포를 조절한다는 사실을 밝혔습니다. 기존의 단백질 접힘(folding) 코드뿐만 아니라, 서브셀룰러 로컬라이제이션(subcellular localization)을 결정하는 새로운 단백질 코드가 존재함을 제안하였습니다.
- 딥러닝 기반 단백질 위치 예측 모델 'ProtGPS' 개발: 연구진은 ESM2 기반의 변형 트랜스포머(Transformer) 모델과 신경망(classifier)을 결합하여 'ProtGPS' 모델을 개발하였습니다. 이를 통해 인간 단백질 5,480개를 학습하여, 특정 응축체(condensate) 구획 내 단백질의 존재 확률을 예측할 수 있음을 확인하였습니다.
- 새로운 단백질 서열을 생성하여 특정 구획으로 유도 가능: 연구진은 ProtGPS를 이용하여 핵소체(nucleolus)로 선택적으로 이동하는 새로운 단백질 서열을 설계하였습니다. 이를 통해 특정 응축체(compartment)로 분포하는 단백질을 유도하는 것이 가능하며, 단백질의 기능적 설계를 위한 새로운 접근법이 될 수 있음을 시사하였습니다.
- 돌연변이에 의해 단백질 위치 코드가 변화할 가능성: 연구진은 ClinVar 데이터베이스의 205,182개 인간 유전자 변이를 분석하여, 병리적 돌연변이가 단백질의 서브셀룰러 위치를 변화시킬 수 있음을 확인하였습니다. ProtGPS는 특정 병리적 돌연변이가 단백질의 세포 내 위치를 변경하는지를 성공적으로 예측하였습니다.
- 향후 질병 치료 및 단백질 설계 응용 가능성: 본 연구는 단백질의 세포 내 위치를 조절하는 코드를 이용하여, 질병과 관련된 돌연변이를 진단하고 새로운 치료 전략을 개발할 수 있는 가능성을 보여줍니다. 또한, 특정 세포 구획에서만 기능하는 단백질을 설계하는 방식으로, 신약 개발 및 세포 치료에도 적용될 수 있습니다.