https://doi.org/10.1101/2025.02.27.640591
Abstract
Intrinsically disordered regions (IDRs) of proteins are defined by functionally relevant molecular grammars. This refers to IDR-specific non-random amino acid compositions and non-random patterning of distinct pairs of amino acid types. Here, we introduce GIN (Grammars Inferred using NARDINI+) as a resource, which we have used to extract the molecular grammars of all human IDRs and classified them into thirty distinct clusters. Unbiased analyses of IDRome-spanning grammars reveals that specialized IDR grammar features direct biological processes, cellular localization preferences, and molecular functions. IDRs with exceptional grammars, defined as sequences with high-scoring non-random features, are harbored in proteins and complexes that enable spatial and temporal sorting of biochemical activities. Protein complexes within the nucleus recruit specific factors through top-scoring IDRs. These IDRs are frequently disrupted via cancer-associated mutations and fusion oncoproteins. Overall, GIN enables the decoding of sequence-function relationships of IDRs and can be deployed in IDR-specific and IDRome-wide analyses.
요약
- 인간 단백질체(proteome) 전반에 걸친 IDR(내재적으로 무질서한 영역)의 분자 문법(molecular grammars)을 분석함: IDR은 특정 아미노산 조성과 패턴을 가지고 있으며, 이러한 비랜덤(non-random)한 특성이 IDR의 기능과 생물학적 역할을 결정함을 보여주었습니다.
- GIN (Grammars Inferred using NARDINI+)이라는 새로운 분석 도구를 개발하여 IDR을 30개의 클러스터로 분류함: NARDINI+ 알고리즘을 활용하여 인간 IDR의 문법적 특징을 정량화하고, 이를 기반으로 IDR을 특정 기능과 관련된 그룹으로 분류하였습니다.
- IDR의 문법적 특징이 생물학적 과정 및 세포 내 국소화(localization)와 밀접하게 관련됨을 발견함: IDR 문법이 특정 세포 소기관(예: 핵소체, 핵 스펙클)과 강한 연관성을 가지며, 단백질의 공간적 정렬(spatial organization)에 영향을 미침을 밝혔습니다.
- 특정 IDR 문법이 암과 관련된 돌연변이 및 융합 단백질(fusion proteins)과 연결됨을 확인함: 암 관련 돌연변이 및 유전자 융합이 IDR의 문법을 변화시키며, 단백질 간 상호작용과 기능을 변화시킬 가능성이 큼을 제시하였습니다.
- GIN을 활용한 IDR 분석이 단백질 기능 예측, 질병 연구, 단백질 설계 등에 활용될 수 있음을 강조함: GIN을 통해 새로운 IDR의 기능을 예측하고, 질병 관련 돌연변이를 분석하며, 특정 기능을 수행하도록 단백질을 설계하는 데 활용 가능함을 제안하였습니다.