kimachnews
AI 시스템을 통한 새로운 단백질 생성 본문
AI 시스템을 통한 새로운 단백질 생성
AI 시스템을 통한 새로운 단백질 생성? MIT 연구원들은 인공 지능을 사용하여 자연에서 발견되는 단백질을 뛰어넘는 새로운 단백질을 설계하고 있습니다. 그들은 특정 구조적 특징을 가진 단백질을 생성할 수 있는 기계 학습 알고리즘을 개발했으며, 이 알고리즘은 강성이나 탄성과 같은 특정 기계적 특성을 가진 재료를 만드는 데 사용될 수 있습니다. 이러한 생물학적 영감을 받은 소재는 잠재적으로 석유나 세라믹으로 만든 소재를 대체할 수 있지만 탄소 발자국은 훨씬 적습니다. MIT, 왓슨 AI 연구소, 터프츠 대학교의 연구진은 DALL-E 2와 같은 AI 시스템에 사용되는 것과 동일한 유형의 머신 러닝 모델 아키텍처인 제너레이티브 모델을 사용했습니다. 하지만 이 모델을 사용하여 DALL-E 2처럼 자연어 프롬프트에서 사실적인 이미지를 생성하는 대신, 이들은 특정 구조적 목표를 달성하는 단백질의 아미노산 서열을 예측할 수 있도록 모델 아키텍처를 채택했습니다. 오늘 쳄에 발표된 논문에서 연구진은 이러한 모델이 현실적이면서도 새로운 단백질을 생성하는 방법을 보여줍니다. 제리 맥아피 공학 교수이자 토목 및 환경 공학 및 기계 공학 교수인 수석 저자 마르쿠스 뷸러는 단백질 형성 방식을 제어하는 생화학적 관계를 학습하는 이 모델이 고유한 응용을 가능하게 할 수 있는 새로운 단백질을 생성할 수 있다고 말합니다. 예를 들어서 이 도구는 단백질에서 영감을 받은 식품 코팅을 개발하는 데 사용할 수 있으며 이는 사람이 먹기에 안전하면서도 신선한 농산물을 더 오래 보관할 수 있습니다. 그리고 이 모델은 며칠 안에 수백만 개의 단백질을 생성하여 과학자들이 탐구할 수 있는 새로운 아이디어 포트폴리오를 빠르게 제공할 수 있다고 마르쿠스 뷸러는 덧붙였습니다. 이어서 자연이 아직 발견하지 못한 단백질을 디자인하는 것을 생각하면 연필과 종이로만 정리할 수 없을 정도로 거대한 디자인 공간이며, 생명체의 언어와 아미노산이 DNA에 의해 암호화되는 방식을 파악한 다음 함께 모여 단백질 구조를 형성해야 하며, 딥 러닝을 하기 전에는 정말 할 수 없었다고 IBM 왓슨 AI 연구소의 회원이기도 한 뷸러는 말했습니다. 이러한 뷸러의 논문에는 뷸러 원자 및 분자역학 연구소의 포스트닥인 수석 저자 보니와 스턴 패밀리 공학 교수이자 터프츠의 생명공학 교수인 데이비드 카플란이 함께합니다. 먼저 단백질은 아미노산 사슬에 의해 형성되며, 3D 패턴으로 서로 접혀 있습니다. 아미노산의 서열은 단백질의 기계적 특성을 결정합니다. 과학자들은 진화를 통해 만들어진 수천 개의 단백질을 확인했지만, 엄청난 수의 아미노산 서열이 아직 발견되지 않은 것으로 추정하고 있습니다. 단백질 발견을 간소화하기 위해 연구자들은 최근 아미노산 서열 세트에 대한 단백질의 3D 구조를 예측할 수 있는 딥 러닝 모델을 개발했습니다. 그러나 설계 목표를 충족하는 아미노산 구조의 순서를 예측하는 역문제는 훨씬 더 어려운 것으로 입증되었습니다. 머신 러닝의 새로운 등장으로 뷸러와 그의 동료들은 주의력 기반 확산 모델이라는 까다로운 문제를 해결할 수 있었습니다. 주의력 기반 모델은 매우 장거리적인 관계를 학습할 수 있으며, 이는 긴 아미노산 서열의 한 가지 돌연변이가 전체 디자인을 만들거나 깨뜨릴 수 있기 때문에 단백질 개발의 핵심이라고 뷸러는 말합니다. 확산 모델은 학습 데이터에 노이즈를 추가한 다음 노이즈를 제거하여 데이터를 복구하는 방법을 학습하는 프로세스를 통해 새로운 데이터를 생성하는 방법을 학습합니다. 설계 수요를 충족하기 위해 일련의 목표 목표를 충족하도록 조건화할 수 있는 고품질의 현실적인 데이터를 생성하는 데 다른 모델보다 더 효과적인 경우가 많습니다. 연구진은 이 아키텍처를 사용하여 구조 설계 목표를 충족하는 단백질을 형성하는 다양한 새로운 아미노산 서열을 예측할 수 있는 두 가지 기계 학습 모델을 구축했습니다. 뷸러는 바이오 의료 산업에서는 단백질의 특성을 모르기 때문에 완전히 알려지지 않은 단백질을 원하지 않을 수 있다고 말합니다. 그러나 일부 응용 프로그램에서는 자연에서 발견되는 단백질과 유사하지만 다른 작용을 하는 새로운 단백질을 원할 수 있다고 덧붙였습니다. 이러한 모델로 스펙트럼을 생성할 수 있으며, 특정 노브를 튜닝하여 제어할 수 있다고 말합니다. 2차 구조로 알려진 아미노산의 일반적인 접힘 패턴은 다양한 기계적 특성을 생성합니다. 예를 들어서 알파나선 구조를 가진 단백질은 신축성 있는 재료를 생산하는 반면 베타 시트 구조를 가진 단백질은 단단한 재료를 생산합니다. 알파 나선과 베타 시트를 결합하면 실크처럼 신축성 있고 강한 소재를 만들 수 있습니다. 이러한 연구를 바탕으로 연구진은 단백질의 전반적인 구조적 특성과 아미노산 수준에서 작동하는 두 가지 모델을 개발했습니다. 두 모델 모두 이러한 아미노산 구조를 결합하여 단백질을 생성하는 방식으로 작동합니다. 전체 구조 속성에서 작동하는 모델의 경우에 사용자가 원하는 비율의 다양한 구조를 입력합니다. 그런 다음 모델은 이러한 목표를 충족하는 시퀀스를 생성합니다. 두 번째 모델의 경우에는 과학자는 아미노산 구조의 순서도 지정하여 훨씬 더 세밀한 제어를 제공합니다. 이 모델은 연구진이 단백질의 3D 구조를 결정하는 데 사용하는 단백질 접힘을 예측하는 알고리즘과 연결되어 있습니다. 그런 다음 결과 속성을 계산하고 설계 사양과 비교하여 확인합니다. 연구진은 새로운 단백질을 유사한 구조적 특성을 가진 알려진 단백질과 비교하여 모델을 테스트했습니다. 대부분의 경우 약 50~60%의 기존 아미노산 서열과 겹치는 부분이 있었지만 완전히 새로운 서열도 있었습니다. 유사성 수준은 생성된 단백질 중 상당수가 합성 가능하다는 것을 시사한다고 뷸러는 덧붙입니다. 예측된 단백질이 합리적인지 확인하기 위해 연구진은 물리적으로 불가능한 설계 목표를 입력하여 모델을 속이려고 노력했습니다. 그들은 모델이 불가능할 것 같은 단백질을 생성하는 대신 합성 가능한 가장 가까운 솔루션을 생성한다는 사실에 깊은 인상을 받았습니다. 다음으로 연구진은 새로운 단백질 디자인 중 일부를 실험실에서 만들어 실험적으로 검증할 계획입니다. 또한, 생물학적 기능과 같이 더 많은 기준을 충족하는 아미노산 서열을 개발할 수 있도록 모델을 계속 보강하고 개선하고자 합니다. 덧붙여 지속 가능성, 의학, 식품, 건강 및 재료 설계와 같이 우리가 관심 있는 응용 분야의 경우 자연이 해온 것 이상의 것이 필요할 것입니다. 이어서 뷸러는 우리가 직면한 시급한 사회적 문제를 해결하는 데 도움이 될 수 있는 잠재적 솔루션을 만드는 데 사용할 수 있는 새로운 설계 도구를 소개한다고 하며, 단백질은 살아있는 세포에서 자연스러운 역할 외에도 생물학적 약물부터 기능성 물질에 이르기까지 다양한 기술 응용 분야에서 점점 더 중요한 역할을 하고 있습니다. 이러한 맥락에서 핵심 과제는 특정 응용 분야에 적합한 원하는 특성을 가진 단백질 서열을 설계하는 것입니다. 확산 모델을 활용하는 접근 방식을 포함한 생성적 머신 러닝 접근 방식은 최근 이 분야에서 강력한 도구로 부상하고 있다고 이 연구에 참여하지 않은 케임브리지 대학교의 물리화학 및 생물물리학 교수인 투오마스 놀스는 말합니다. 부흘러와 동료들은 설계된 단백질의 2차 구조를 맞춤화할 수 있는 설계 접근 방식을 제공함으로써 이 분야에서 중요한 발전을 보여줍니다. 이는 2차 구조 요소에 의해 특성이 좌우되는 기능성 소재의 빌딩 블록 설계를 포함한 많은 잠재적 영역에 영향을 미칠 수 있는 흥미로운 진전이라고 말했습니다. 카네기 멜론 대학교의 윌리엄 제이 브라운 기계공학 교수인 필립 르덕 교수는 이러한 특별한 연구는 대부분 존재하지 않는 새로운 단백질의 생성을 조사하는 것이기 때문에 흥미롭지만 역학 기반 방향에서 그 특징이 무엇인지 조사한다고 말했습니다. 덧붙여 개인적으로 아직 상상조차 하지 못한 기능을 가진 분자를 존재하지 않는 분자를 만들겠다는 아이디어에 매료되었습니다. 또한, 그 방향으로 나아가는 엄청난 단계라고 강조했습니다.