https://doi.org/10.1101/2025.01.27.635039
Abstract
Liquid-liquid phase separation (LLPS) is a physicochemical process through which a homogeneous liquid solution spontaneously separates into distinct liquid phases with different compositions and properties. Driven by weak multivalent interactions, LLPS in living systems allows the dynamic compartmentalization of biomolecules to regulate and enhance various cellular processes. Despite recent advances, predicting phase-separating proteins and their key LLPS-driving regions remains limited by the versatility of models. Here, we developed Phaseek, a generalizable LLPS predicting model that combines contextual sequence encoding with statistical protein graph representations. Phaseek accurately predicts diverse LLPS-prone proteins, as well as key regions and effects of point mutations within them. Proteome-wide analysis across eighteen species suggests that LLPS is evolutionary conserved and involved in multiple biological processes. Additionally, predictions by Phaseek highlight the key physicochemical and structural properties associated with LLPS. Provided as an open-access model with a user-friendly implementation, Phaseek serves as a versatile LLPS predictor for advancing fundamental and applied research in related fields.
요약
- Phaseek: 단백질 서열 기반 액-액 상분리(LLPS) 예측 모델 개발: 연구진은 Phaseek이라는 새로운 머신러닝 기반 LLPS 예측 모델을 개발하였습니다. 기존의 LLPS 예측 모델들이 다양한 단백질에 대해 일반화하는 데 한계를 가지는 문제를 해결하기 위해, Transformer 기반의 서열 인코딩과 단백질 그래프 표현을 결합한 새로운 접근법을 도입하였습니다.
- Phaseek의 높은 예측 정확도 및 돌연변이 효과 분석: Phaseek은 다양한 생물 종의 단백질에 대해 LLPS를 정확하게 예측할 뿐만 아니라, 특정 아미노산 서열 내에서 LLPS를 유도하는 주요 영역 및 점 돌연변이(mutational effect)가 LLPS에 미치는 영향을 예측할 수 있습니다. 특히, 기존 모델들보다 높은 AUC(0.93)를 기록하며 우수한 성능을 보였습니다.
- 18개 생물 종을 대상으로 한 LLPS 진화적 보존성 연구: 연구진은 Phaseek을 활용하여 인간을 포함한 18개 생물 종의 단백질을 분석한 결과, LLPS가 진화적으로 보존된 특성이 있음을 확인하였습니다. 특히, 일부 유전자군(orthogroups)에서는 LLPS가 “올오어나 올낫싱(all-or-none)” 패턴으로 보존되어 있으며, 이는 LLPS가 세포 내 핵심적인 생물학적 과정에서 중요한 역할을 한다는 것을 시사합니다.
- LLPS 관련 단백질의 유전자 기능 연관성 분석: 연구진은 Phaseek을 이용하여 LLPS가 특정 유전자 기능(ATP 결합, 전사 조절 복합체, 핵 내 응축체 형성 등)과 강한 연관성이 있음을 확인하였습니다. 특히, 유전자 온톨로지(Gene Ontology, GO) 분석 결과 LLPS가 RNA 대사, DNA 손상 복구, 신호 전달 등과 밀접한 관련이 있음이 밝혀졌습니다.
- 단백질 서열의 물리화학적 특성과 LLPS의 관계 규명: Phaseek을 활용하여 LLPS를 촉진하는 단백질 서열의 주요 특성을 분석한 결과, 특정 아미노산 조합(예: 극성-방향족 상호작용, 전하 패턴)이 LLPS에 중요한 영향을 미친다는 점을 밝혀냈습니다. 또한, LLPS를 유도하는 핵심 서열과 일반 서열 간의 물리화학적 차이를 정량적으로 분석하여, LLPS 예측의 정확도를 높이는 데 기여하였습니다.