https://doi.org/10.1101/2024.12.18.629275
Abstract
This paper introduces a novel platform for IDR Probabilistic Annotation (IPA). The IPA platform now encompasses tools for predicting ‘Linker’ regions and ‘nucleic’, ‘protein’, and ‘all’ (protein or nucleic) IDR binding sites within protein amino acid sequences. Despite its simplicity and computational efficiency, results demonstrate that IPA performs competitively with leading tools in predicting ‘protein’ and ‘all’ IDR binding sites while considerably outperforming all tools in identifying Linker regions and nucleic binding sites. An important contribution of this work is the introduction of a new output paradigm for computational feature predictions. Traditional tools typically express predictions as scores, with higher values indicating greater probabilities. However, these scores lack true probabilistic meaning and interpretability, even derived from logistic regression models. This limitation arises primarily because training data priors differ from broader populations’ unknown priors. This paper proposes applying a reverse Bayes Rule to logistic regression outputs, effectively normalizing for the priors in the training data. This adjustment produces scores representing actual probabilities, assuming 50% priors in the general population. Such scores are interpretable in isolation and enable comparability and integration across different tools, marking a significant step toward standardization in feature prediction methodologies.
요약
- 주제 및 배경: 기존 무질서한 단백질 영역(IDRs) 예측 도구는 해석이 어려운 점수를 제공하여 활용에 제한이 있었습니다. 본 연구는 확률 기반 IDR 예측 플랫폼(IPA)을 개발하여 보다 정량적이고 직관적인 예측을 가능하게 하였습니다.
- IPA 플랫폼 개발: IPA는 IDR, 단백질/핵산 결합 부위, 링크 부위를 예측하며, 기존 모델과 달리 확률 값을 제공하여 해석이 용이합니다.
- 확률 기반 접근법 적용: 역베이즈 정리(reverse Bayes rule)를 활용해 훈련 데이터 편향을 보정하고, 신뢰도 높은 확률값을 출력하도록 개선하였습니다.
- 성능 검증 및 AlphaFold2 활용: IPA는 기존 IDR 예측 도구보다 높은 정확도를 보였으며, AlphaFold2 기반 모델(IPA-AF2)을 통해 구조적 정보를 반영한 예측이 가능함을 확인하였습니다.
- 연구 의의 및 전망: 본 연구는 IDR 예측의 표준화된 확률적 접근법을 제시하였으며, 향후 단백질 기능 연구, 상분리, 신약 개발 등에 활용될 것으로 기대됩니다.