Aimble Platform

특정 질병과 관련된 타깃 단백질에 대한 혁신신약 발굴을 하는 과정은 유효물질 발굴, 선도물질 발굴, 그리고 선도물질 최적화로 나눌 수 있다. 이 과정에서 수많은 화합물들의 다양한 약물가능성 예를 들어 타깃 단백질에 대한 높은 결합력, 낮은 세포독성, 높은 용해도 또는 친유성 등에 대한 정확한 평가가 필요하다. 특히, 결합력과 독성에 대한 잘못된 평가는 임상 1, 2상에서 약물개발 실패의 각각 약57%와 30%의 요인이 되기 때문에 이에 대한 정확한 평가의 중요성은 아무리 강조해도 지나치지 않는다. 이 평가의 정확성을 위해 에임블은 자체 구축한 데이터베이스와 고속화된 도킹 솔루션, 결합력 예측 솔루션, 그리고 독성 예측 솔루션을 포함한 딥러닝 기반의 고도화된 플랫폼을 개발하고 있다. 이와 동시에 에임블의 딥러닝 모델의 정확도를 개선하기 위해서 계속해서 양자계산과 분자동역학 계산으로부터 생성한 양질의 데이터를 축적해 나아가고 있다.

고속화된 도킹 솔루션

에임블의 고속화된 도킹 솔루션은 유의미한 유효물질을 성공적으로 발굴하기 위해서 타깃 단백질에 대한 수많은 화합물들의 도킹 구조와 결합에너지(도킹스코어)를 계산하고 이 결합에너지 값에 따라 신속하게 분류해내는 자동화된 계산 툴이다. 일반적으로 도킹 솔루션의 단점은 초기에 무수히 많은 화합물들에 대한 상당한 양의 계산 시간이 필요하다는 점이다. 에임블의 도킹 솔루션은 분산 컴퓨터 시스템의 효율적인 사용으로 이러한 어려움을 극복하였다. 다시 말해서, 주어진 타깃 단백질에 대해 전처리된 여러 화합물들을 동시에 도킹시키고, 분석을 위해 결과들을 자동으로 저장하도록 한 방식을 활용하여 계산시간을 현저히 줄였다.

단백질-화합물 결합력 예측 AI솔루션

효능이 우수한 약물은 표적 단백질과 복합체를 이룰 때 결합력(binding affinity)이 높다. 에임블은 신약개발 초기에 고비용과 긴 시간의 실험에 의한 결합력 측정을 대체할 인공지능(Artificial Intelligence, AI) 기반의 결합력 예측 모델을 자체 개발하였다. 단백질과 화합물 사이에 정확한 결합에너지 예측을 위해서, 단백질-화합물 복합체의 원자 레벨로의 표현된 구조와 그에 대응되는 결합력 사이에 대한 데이터를 이용하여 개발한 기계학습 모델을 학습시켰다. 더욱이 더 믿을 만한 예측 결과를 얻기 위해서 이 모델에 물리학 기반의 도메인 지식을 응용하였다.

  • 구조 기반 특징 엔지니어링: 복합체의 결합 부위의 원자들의 공간적 배열을 그래프로 파악하여 그 기하학적 특성과 원자 주변 환경을 표현하는 최적의 특징벡터(feature vector)를 찾아냄
  • 데이터셋: PDBBind database(구조기반 결합력 예측을 위해 사용하는 표준 데이터)가 제공하는 결합구조와 결합력 중 양질의 데이터를 선별하여 대략 10,000 개의 측정 데이터 선별.
  • 모델 구축: 선별된 학습데이터를 인공신경망(Artificial Neural Net, ANN)이나 의사결정 나무(Decision Tree, DT) 등의 기계학습(Machine Learning, ML) 모델에 입력하여, 올바른 값을 출력하도록 ML 모델 훈련.
  • 결합력 예측: 앞의 훈련된 모델에 알고자 하는 복합체의 구조를 특징벡터로 입력하여 그 결합력을 예측
  • 모델 성능: PDBBind coreset(285개의 단백질-화합물 복합체)에 대한 결합력 예측 → 우수한 성능 계수[Pearson 상관 계수: 0.87, Spearman 계수: 0.86, 제곱 평균 오차(MSE): 2.63]를 결과로 얻었으며 이는 현재 AI를 이용해 가장 높은 Pearson 상관계수(0.866)를 논문에 보고한 멕시코/스페인 연구팀의 결과와 동등.
[AI모델(boosted decision tree)을 이용한 단백질–화합물 복합체의 결합력 예측 개요]

결합력 예측 인공지능 모델의 성능

약물 독성 예측 AI솔루션

신약 후보물질의 30%가 전임상/임상 단계에서 독성 이슈로 실패로 멈추게 된다. 에임블은 다중학습 AI 기술과 축적된 데이터 전처리 기술을 결합함으로써 자체개발한 독성 예측 방법을 발전시켰다. 특히, 화합물을 작은 부분으로 쪼개고 분자설명자 형태로 공들여 바꿔서 네트워크 모델에 사용하였다. 이 네트워크 모델에 다중의 기준에 따른 더 유의미한 결정을 할 수 있도록 하고, 각각의 분자설명자의 복합적인 역할에 대한 분석을 통해 독성유발인자를 확인하게 설계하였다.

[에임블의 자체 독성 데이터베이스와 기계학습 타입 및 특징벡터]
독성 카테고리 데이터크기 기계학습 타입 특징(feature)
급성독성
(Acute toxicity)
92k
  • Random Forest
  • Logistic Regression
  • Support Vector Machine
  • K-nearest-Neighbor
  • Support Vector Machine
  • Naive Bayes Classifier
  • XGBoost
<Ligand-based feature>
Physico-chemical descriptor, Fingerprint (Circular, Extended-Connectivity, Kelkota-Roth)

<Protein-ligand-interaction-based feature>>
Protein-Ligand interaction fingerprint
세포독성
(Cytotoxicity)
1,380k
발달독성
(Developmental toxicity)
2.2k
간독성
(Hepatotoxicity)
8.8k
신장독성
(Nephrotoxicity)
0.7k
안독성(Ocular toxicity) 6k
이독성(Ototoxicity) 6k
피부독성
(Skin toxicity)
2.7k
반복독성
(Repeated toxicity)
3k
심독성
(Cardiotoxicity)
200k
신경독성
(Neurotoxicity)
8k
유전독성
(Genotoxicity)
8k

데이터베이스 구축 및 독성 예측 인공지능 모델 개발

  • 독성 예측의 중요성: 신약개발에서 약물 독성을 초기 개발 단계에서부터 미리 예측할 수 있다면 이후의 비임상/임상 단계에서의 시간과 비용을 줄이는 데 큰 도움이 된다
  • 데이터셋: 독성 카테고리별 공개 데이터베이스(EPA, Tox21, PubChem 등)와 개별 논문에서 사용된 데이터를 통합하여 자체 데이터베이스(in-house database) 구축 (표  참고)
  • 특징 엔지니어링: 화합물의 토폴로지 구조를 표현하는 핑거프린트(fingerprint)와 다양한 물리화학적 특징(feature)을 추출 → 유전 알고리즘을 이용하여 특징을 선별, 최적의 조합을 찾아내 성능 극대화.
  • 모델 구축: 다양한 타입의 기계학습 모델을 테스트하고 최적의 성능을 가진 모델 선택/조합.
  • 구조 기반 독성 예측: 타깃 단백질이 존재하는 경우, 도킹이나 분자동역학(Molecular Dynamics) 시뮬레이션을 수행, 이를 바탕으로 단백질-화합물 상호작용 기반 특징 엔지니어링을 수행하여 ML 모델 구축.
  • 모델 성능: 에임블의 독성 예측 소프트웨어의 우수한 성능 [Area under curve(AUC): 0.89, Balanced Accuracy: 0.90, 그림 참고]

질병 연관 단백질 발굴 AI솔루션

세포 내에서 일어난 특정 단백질의 변형이나 돌연변이는 특정 질병과 연관될 수 있다. 따라서 상호작용하는 단백질들을 연결한 네트워크를 분석하여, 기존에는 알려지지 않은 새로운 질병 연관 단백질을 찾는 작업을 시도할 수 있다. 에임블은 최신 언어모델에 기반한 AI 방법론을 이용하여 알려지지 않은 질병 연관 단백질을 발견하고, 이를 타깃하는 혁신 신약을 개발하려 한다.

세포 내 특정 단백질의 변형 및 돌연변이 → 특정 질병과 연관 가능성 높음
상호작용하는 단백질의 네트워크를 분석 → 기존에 알려지지 않은 새로운 질병 연관 단백질 발견 가능
언어모델 기반 기계학습 방법론 → 미지의 질병 연관 단백질을 발견 → 신규 타깃 혁신 신약 개발

[단백질-단백질 상호작용 네트워크]
단백질의 상호작용 네트워크 구조 (각 노드는 단백질, 노드 연결선은 단백질들 간의 상호작용, 빨간 색으로 나타낸 노드는 특정 질병 연관 단백질을 표현)
  • 언어모델 기반 데이터 표현(data representation): 문장 내의 특정 단어(word)를 문맥에 맞춰 벡터로 표현하는 word2vec 방법론을 응용한 node2vec방법론 채택 → 네트워크의 한 노드(node)를 주변 노드와의 연결 상태를 반영하여 유클리드 공간의 한 벡터로 표현
  • 랜덤워크 기반 비지도 학습(unsupervised learning): node2vec 방법론 기반 랜덤워커(random walker)는 기설정된 전이 확률에 따라 단백질 상호작용 네트워크를 탐색하며 노드 단백질 간의 연결 구조 파악 → 각 노드의 특징벡터 추출 → logistic regression 등의 모델을 통해 특정 질병과 연관된 단백질 발견
  • 모델 성능 지표: recall@100(특정 질병에 관련된 것으로 추정된 후보 단백질100개 중 실제 연관 단백질 수의 비율) → 값이 높을수록 질병 연관 단백질에 대한 우수한 예측 성능 표현 [그림 왼쪽 그래프 참고, 그래프의 각 점은 특정 질병의 밀도(density, 질병 연관 단백질의 연결 정도)와 recall@100을 표현]
  • 각 질병군별 예측 성능: 그림의 오른쪽 사분율 막대 그래프 참고
[에임블의 AI소프트웨어의 질병 연관 단백질 예측 성능]
좌: 질병 연관 단백질의 네트워크 밀도와 예측 성능의 상관관계, 우: 각 질병군별 예측 성능