MIT 과학자들은 생물학 연구를 위한 AI 모델을 생성할 수 있는 시스템을 구축했습니다.
이전 이미지 다음 이미지
머신러닝 전문 지식 없이도 머신러닝 모델을 구축할 수 있나요?
MIT 생물 공학과의 의료 공학 및 과학 교수이자 Abdul Latif Jameel 건강 기계 학습 클리닉(Jameel Clinic)의 생명 과학 교수진인 Jim Collins는 여러 동료들과 함께 이 문제를 해결하기로 결정했습니다. 비슷한 난제에 직면했을 때 이 문제가 발생합니다. BioAutoMATED라고 불리는 제안된 솔루션에 대한 공개 액세스 논문이 6월 21일 Cell Systems에 게재되었습니다.
기계 학습 연구원을 모집하는 것은 과학 및 엔지니어링 연구실에서 시간이 많이 걸리고 재정적으로 비용이 많이 드는 프로세스일 수 있습니다. 기계 학습 전문가가 있더라도 적절한 모델을 선택하고 모델에 대한 데이터 세트 형식을 지정한 다음 미세 조정하면 모델 성능이 크게 바뀔 수 있으며 많은 작업이 필요합니다.
"머신러닝 프로젝트에서 일반적으로 데이터 준비 및 변환에 얼마나 많은 시간을 소비합니까?" 머신러닝 기초(ML)에 관한 2022년 Google 과정을 요청합니다. 제공되는 두 가지 선택 사항은 "프로젝트 시간의 절반 미만" 또는 "프로젝트 시간의 절반 이상"입니다. 후자를 추측했다면 당신이 맞을 것입니다. Google은 데이터 형식을 지정하는 데 프로젝트 시간의 80% 이상이 소요된다고 밝혔으며, 이는 기계 학습 용어로 문제를 구성하는 데 필요한 시간조차 고려하지 않은 것입니다.
박사 과정 5년차인 Jacqueline Valeri는 "우리 데이터세트에 적합한 모델을 찾는 데는 몇 주가 소요될 것입니다. 이는 기계 학습이나 생물학을 사용하려는 많은 사람들에게 정말 어려운 단계입니다."라고 말합니다. 논문의 첫 번째 공동 저자인 Collins 연구실의 생물공학 박사입니다.
BioAutoMATED는 주어진 데이터 세트에 적합한 모델을 선택 및 구축할 수 있고 데이터 전처리의 힘든 작업도 처리할 수 있어 몇 달이 걸리는 프로세스를 단 몇 시간으로 단축할 수 있는 자동화된 기계 학습 시스템입니다. 자동화된 기계 학습(AutoML) 시스템은 아직 상대적으로 초기 개발 단계에 있으며 현재 사용은 주로 이미지 및 텍스트 인식에 중점을 두고 있지만 생물학 하위 분야에서는 거의 사용되지 않는다고 공동 저자이자 Jameel Clinic 박사후 연구원인 Luis Soenksen 박사는 지적합니다. '20.
MIT 기계공학과에서 박사 학위를 취득한 Soenksen은 “생물학의 기본 언어는 서열에 기반을 두고 있습니다.”라고 설명합니다. “DNA, RNA, 단백질, 글리칸과 같은 생물학적 서열은 알파벳처럼 본질적으로 표준화되는 놀라운 정보적 특성을 가지고 있습니다. 많은 AutoML 도구가 텍스트용으로 개발되었으므로 이를 [생물학적] 시퀀스로 확장하는 것이 합리적이었습니다.”
게다가 대부분의 AutoML 도구는 축소된 유형의 모델만 탐색하고 구축할 수 있습니다. Valeri는 "그러나 프로젝트 시작부터 어떤 모델이 데이터세트에 가장 적합한지 알 수는 없습니다."라고 말합니다. "여러 도구를 하나의 도구 아래에 통합함으로써 개별 AutoML 도구가 자체적으로 달성할 수 있는 것보다 훨씬 더 큰 검색 공간을 허용합니다."
BioAutoMATED의 지도 ML 모델 레퍼토리에는 이진 분류 모델(데이터를 두 클래스로 나누기), 다중 클래스 분류 모델(데이터를 여러 클래스로 나누기), 회귀 모델(연속적인 숫자 값을 맞추거나 두 클래스 사이의 주요 관계 강도 측정)의 세 가지 유형이 포함됩니다. 변수). BioAutoMATED는 선택한 모델을 적절하게 훈련하는 데 필요한 데이터의 양을 결정하는 데도 도움이 될 수 있습니다.
Valeri는 "우리 도구는 더 작고 희박한 생물학적 데이터세트는 물론 더 복잡한 신경망에 더 적합한 모델을 탐색합니다."라고 Valeri는 말합니다. 이는 기계 학습 문제에 적합할 수도 있고 적합하지 않을 수도 있는 새로운 데이터가 있는 연구 그룹에 이점이 됩니다. .
Soenksen은 "생물학과 기계 학습의 교차점에서 새롭고 성공적인 실험을 수행하려면 많은 비용이들 수 있습니다."라고 Soenksen은 설명합니다. "현재 생물학 중심 실험실은 상당한 디지털 인프라와 AI-ML 교육을 받은 인적 자원에 투자해야 합니다. 그들의 아이디어가 실현될 준비가 되어 있는지 확인하세요. 우리는 생물학 분야 전문가들의 이러한 장벽을 낮추고 싶습니다.” BioAutoMATED를 사용하면 연구자는 추가 실험을 위해 다른 모델을 구축하기 위해 기계 학습 전문가를 고용하는 것이 가치 있는지 평가하기 위해 초기 실험을 자유롭게 실행할 수 있습니다.