'인공 지능(AI: Artificial Intelligenc)'의 특징은 컴퓨터가 스스로 학습하는 것을 말한다. 그 결과, 대량으로 입력된 데이터를 사용해 학습함으로써 '어떤 범주로 분류'하거나 '어떤 값을 예측'하는 일이 가능해진다. 이제 '인공 지능(AI)'은 신약 개발에까지 관여하고 있다.
0. 목차
- 코로나19와 'AI 신약 개발'
- AI를 통해 신약 개발의 위험을 줄인다.
- 신약 개발 중 어떤 과정에서 AI가 사용될까?
- AI에 대한 기본 지식
- SMILE 기법
- AI로 대체할 수 있는 다양한 신약 개발 과정
- 오픈 이노베이션
1. 코로나19와 'AI 신약 개발'
'코로나19(COVID-19)'의 백신 개발에서는 'mRNA 백신' 개발에 AI가 활용되어 개발 시간이 크게 단축되었다고 한다. 'mRNA 백신'이란 바이러스의 유전 정보 일부를 단백질의 설계도인 'mRNA'로 바꾸어 인공 합성한 백신이다. '코로나 바이러스-19'의 '막(Membrane)'에는 '스파이크 단백질(Spike Glycoprotein)'이라는 다수의 단백질이 솟아 있으며, 이것이 인간의 세표 표면에 있는 수용체와 결합해 감염된다. mRNA 백신을 개발할 때는, 단백질의 입체 구조 등을 높은 정밀도로 분석하는 일에 AI가 활용되었다.
AI를 이용해 이미 '다른 질병에 사용되고 있는 기존의 약'을 AI로 탐색해 '코로나19로 인한 폐렴'에 사용할 수 있는 약으로 재승인 받은 사례도 있다. 그렇게 재승인된 약이 '관절 류머티즘'과 '아토피성 피부염'의 치료제로 사용되는 '바리시티닙(Baricitinib)'이라는 약이다. 영국의 벤처 기업 '베네볼렌트 AI(Benevolent AI)'가 '코로나바이러스-19로 인한 염증과 면역 반응의 경로도를 사용해 염증에 관여하는 효소(키나아제)'의 기능을 저해하는 약제를 AI로 탐색하여 '바리시티닙'을 찾아낸 것이 계기였다. '베네볼렌트 AI'는 AI가 기존 약 중에서 코로나19의 치료제가 될 것을 아주 단시간에 추려내고, 최종적으로 '바리시티닙'을 선정했다. 제조사인 '일라이 릴리(ELI LILLY)'는 '베네볼렌트 AI'의 논문 발표 후에 '임상시험'을 실시하여, 바리시티닙을 실제로 코로나 치료약으로 사용할 수 있음을 확인하였다. 그리고 2021년 4월에 '바리시티닙'은 산소 흡입이 필요한 '코로나19로 인한 폐렴'에 사용할 수 있는 약으로 승인받았다.
2. AI를 통해 신약 개발의 위험을 줄인다.
제약업계에서 '신약개발'은 '고위험, 고수익(High Risk, High Return)'으로 여겨진다. 그 이유는 다음의 3가지다.
- 첫째, 연구 개발이 잘 진행되어 신약이 성공적으로 발매된 가능성은 3만 분의 1 정도밖에 되지 않는다.
- 둘째, 일관된 연구 개발에는 1조 원에 가까운 막대한 비용이 든다.
- 셋째, 순조롭게 진행되어도 연구 시작부터 판매 개시에 이르기까지 10~20년의 세월이 걸린다.
결국 대부분은 막대한 예산을 투입했음에도 불구하고, 개발 과정 중 어느 지점에서 단념할 수밖에 없는 사태에 빠져 엄청난 손실을 입게 된다. 다만, 3만 분의 1이라는 복권 당첨과 같은 확률을 뚫고 '환자가 많은데도 좋은 약이 없는 질환'에 대한 신약을 발매한 경우, 엄청난 이익을 얻을 수 있다. 예컨대 2019년에 세계에서 가장 많이 팔린 의악품은 미국의 제약사 '애브비(AbbVie)'가 개발한 자가 면역 질환 치료제 '휴미라(Humira)'로 1년 만에 268억 5100만 달러의 매상을 기록했다고 한다.
위험도가 높은 탓에 일부 대형 제약 기업을 제외하고는 처음부터 신약을 개발하기 어려운 것으로 여겨져 왔다. 그러나 2012년 무렵부터 그런 경향이 바뀌기 시작했다. AI를 사용하면 신약 개발 프로세스를 효율화할 수 있어, '시간', '비용', '인력 문제' 등을 대폭 줄일 수 있다고 생각하게 된 것이다. 계기가 된 것은, 2012년에 열린 '데이터 사이어스 경연회(Data Science Competition)'에서 미국의 제약 회사 'MSD(Merk Sharp & Dohme)'가 개최한 콘테스트였다. 이 회사는 수천에서 수만 종에 이르는 자사의 독자적인 화합물 데이터를 참가팀에게 제공하고, '신약 개발과 관련된 15종의 활성치를 예측하라'는 과제를 냈다.
대부분의 참가팀은 'SVM(Support Vector Machine)'이라는 '기계 학습(Machine Learning)' 모델의 일종을 이용했다. 그 가운데, 가장 높은 정확도로 예측해 우승한 것은 '기계 학습' 중에서도 '딥러닝(Deep Learning)'이라는 것을 사용한 팀이었다. '딥러닝'은 현재 AI의 핵심이 된 기술이다. MSD는 이때 기계 학습을 신약 개발에 사용할 수 있을 것으로 생각했던 것 같다.
3. 신약 개발 중 어떤 과정에서 AI가 사용될까?
'기계 학습(Machine Learning)'과 '딥러닝(Deep Learning)'에 대해 소개하기에 전에 먼저 '기존 신약 개발 과정'과 그 과정 중 어디에 AI가 사용되었는지 알아보자. 신약 개발은 크게 나누어 '탐색 연구', '개발 연구', '임상 연구'의 3단계로 이루어진다.
3-1. 탐색 연구
첫 번째 단계인 '탐색 연구'에서는 '목표가 되는 질병이 어떤 이상으로 인해 일어나는가?'를 밝힌다. 세포, 단백질, 유전자 등의 각 단계에서 분석해, '어떤 표적 분자에 작용하는 화합물을 찾으면 좋을지'를 확인한다. 여기서 표적 분자라 질병의 발생과 악화에 관여하는 단백질 등의 생체 분자를 말한다.
다음에 '작용하고 싶은 표적 분자'에 활성을 지닌 화합물을 찾는다. 예컨대 세포막 위의 '특정 수용체(표적 분자)'와 결합하여 질병을 일으키는 이상한 '신호(Signal)' 전달을 차단하는 화합물을 찾는다. 이 과정을 '스크리닝(Screening)'이라고 하며, 제약 회사가 독자적으로 얻은 방대한 종류의 화합물인 '화합물 라이브러리' 중에서 원하는 작용을 할 것 같은 화합물을 실험을 통해 추려 낸다. 신약 개발 과정의 출발점이 되는 '리드 화합물(Lead Compound, 선도 물질)'이 이 단계에서 채택된다. 앞에서 MSD가 실시한 콘테스트에서 이용된 기술은, 이 스크리닝 과정을 컴퓨터 안에서 수행할 때도 이용할 수 있다. 탐색 연구에는 보통 수년이 걸리는 것이 일반적이지만, AI를 이용하면 10분의 1 이하로 대폭적인 시간 단축을 기대할 수 있다.
3-2. 개발 연구
두 번째 단계인 '개발 연구'에서는 약으로서의 효과를 확인하는 '약효 약리 연구' 등을 통해 '개발 후보 화합물을 추려내는 작업'과 '비임상 시험'이 진행된다. 이 단계에서 보통 3~5년이 걸린다. 예컨대 특정 세포와 실험동물을 사용해 개발 후보 '화합물의 성질(물성)', '생태 내에서의 약효를 발휘하는 메커니즘(약리)', '독성과 대사 경로' 등을 분석한다. 그런 다음, 효과가 높고 독성과 부작용이 적은 화합물을 선택한다.
'개발 연구'의 이런 과정에도 AI가 도입되기 시작했다. '오믹스(Omics)' 데이터를 입력하고, AI가 이 데이터를 사용해 약리와 독성을 예측하는 일이 가능해졌기 때문이다. '오믹스(Omics)'란 '유전체(Genome)', '후성유전체(Epigenome)', '전사체(Transcripton)', '단백질체(Proteome)' 등에 대한 '작용', '조절', '상호 작용' 등의 방대한 데이터를 말한다. 이미 대부분의 거대 제약 회사는 IT 기업과 공동으로 '오믹스' 데이터를 분석하기 위한 AI 기술 개발과 도입을 추구하고 있다.
3-3. 임상 연구
세 번째 단계인 '임상 연구'에서는 건강인과 환자를 대상으로 '안정성', '약의 효능', '투여량', '부작용' 등을 엄격하게 검증하며, 3단계에 걸쳐 실시된다. 동시에 '원료 공급'과 '제조 체제'도 준비한다. 이 단계에서도 3~7년이라는 시간이 걸려 효율화가 요구된다. 그러나 인간을 대상으로 한 실험이고 법적 문제도 얽혀 있기 때문에, AI를 통해 시간을 단축하기는 어렵다. 임상 연구를 거쳐 국가의 심사와 승인을 받으면, 마침내 신약으로서 발매된다.
4. AI에 대한 기본 지식
이제부터 본격적인 AI 이야기를 해보자. AI라는 단어는 1956년 미국의 계산과학자 '존 매카시(John McCarthy, 1927~2011)'가 '지적인 기계, 특히 지적인 컴퓨터 프로그램을 만드는 과학과 기술'이라는 의미로 사용한 것이 최초라고 한다. 다만, 그 정의는 아직까지 확정된 것이라고 말하기 어려워, 연구자에 따라 개념이 조금씩 다른 상황이다.
4-1. '기계 학습'이란 무엇인가?
현재의 AI는 제3세대에 해당하며, 기반 기술은 2000년대에 들어 개발되었다. 주변에서 쉽게 접할 수 있는 AI의 예로는, '애플(Apple)'의 음성비서 'Siri', '아마존(Amazon)'의 음성비서 '알렉사(Alexa)', '아이로봇(iRobot)'의 청소 로봇 '룸바(Roomba)' 등이 있다. 예컨대 알렉사는 "알렉사"라고 부르면 작동해 '밤에 듣기 좋은 쇼팽의 음악을 들려줘', '텔레비전을 꺼줘'와 같은 식으로 명령하면 순식간에 회답해 명령을 실행한다.
이런 AI의 경우, 인간이 무엇인가를 학습하는 것처럼 기계 자신이 학습하도록 프로그래밍되어 있다. 이것은 '기계 학습(Machine Learning)'으로 총칭되는 것으로 '지도 학습(Supervised Learning)', '비지도 학습(Unsupervised Learning)', '강화 학습(Reinforcement Learning)' 등 여러 방법이 있다.
- 지도 학습(Supervised Learning): '지도 학습'에서는 예제와 모범 답안을 준 다음, 올바른 답을 찾을 수 있게 학습시킨다. 그다음 '빅 데이터(Big Data)'를 사용해 높은 정확도로 예측과 분류를 할 수 있게 한다. 이미 '일기예보', '화상 진료' 등 사회의 다양한 분야에서 사용되고 있다.
- 비지도 학습(Unsupervised Learning): '비지도 학습'은 모범 답안 없이, 축적된 데이터 안에서 '비슷한 것'을 추출해 '군집화(Clustering)'할 수 있게 하는 것이다. 주로 고객층을 가려내는 일에 사용된다.
- 강화 학습(Reinforcement Learning): '강화 학습'은 주어진 환경 안에서 시행착오를 반복하며 최적의 행동을 찾는 것으로, 게임 소프트웨어 등에 사용된다.
4-2. '딥러닝'이란 무엇인가?
2012년 MSD의 콘테스트에서 사용한 '딥러닝(Deep Learning)'도 '기계학습(Machine Learning)'으로 분류된다. '딥러닝'은 인간 뇌 안에서 '신경 세포(Neuron)'가 네트워크를 만들어 수행하는 정보 처리를 닮은 기술, 즉 '뉴럴 네트워킹(Neural Networking)'을 사용하는 것이 특징이다. 화상·문자·음성 등에서 뛰어난 학습 능력을 발휘하며, 현재 AI의 기반 기술이라고 말할 수 있는 개념이다.
인간의 '신경 세포(Neuron)'는 큰 '신경 세포체(Nerve Cell Body)'와 거기에서 뻗은 가늘고 긴 '신경 돌기(Neurite)', 그리고 정보 전달을 위한 접촉 구조인 '시냅스(Synapse)'로 이루어진 독특한 구조를 하고 있다. '신경 세포체'에는 '가지 돌기(Dendrite)'라는 뿔 모양의 구조가 많이 뻗어 있는데, 이것은 인접한 신경 세포의 시냅스로부터 정보를 받아들이는 입구가 된다. 주위에서 들어온 정보는 합산되어 일정한 값, 즉 생물이 '자극'에 대해 어떤 반응을 일으키는 데 필요한 최소한의 세기인 '역치'를 넘으면 '신경 세포'를 흥분시킨다. 그리고 시냅스를 통해 다음 신경 세포로 정보를 전달한다. 인간의 뇌에는 이런 '신경 세포'가 1000억 개 가량 있다고 한다. 신경 세포는 상호 작용하는 정교하고 치밀한 네트워크를 구성해 모든 정보를 처리한다.
AI의 '딥러닝'에 사용되는 '뉴럴 네트워크(Neural Network)'는 인간의 이런 신경망을 일부를 흉내 낸 '수리 모델(Mathematical Model)'이라고 할 수 있다. 인간의 신경망이 신경 세포라는 기본 단위로 이루어지듯이, '뉴럴 네트워크'는 '인공 신경 세포'라는 기본 단위로 구축된다. '인공 신경 세포'에는 하나 이상의 정보가 들어가고, 그것들이 합해져 다음 '인공 신경 세포'에 접속되도록 설계되어 있다. 결국 '인공 신경 세포'도 다수가 연결되어 '뉴럴 네트워크'를 구성한다.
'뉴럴 네트워크'에서는 정보 입력을 담당하는 인공 신경 세포를 '입력층', 입력층에서 정보를 받아 다음 인공 신경 세포의 전달하는 것을 '중간층(은닉층, 숨은층)', 정보를 출력하는 인공 신경 세포를 '출력층'이라고 한다. 입력층에서 출력층까지 층수가 많을수록 학습 능력이 높아진다. '인공 신경 세포끼리의 연결 강도'인 '가중치(W로 표시)'는 학습하는 내용에 따라 달라진다. 이 가중치는 학습 전에는 '임의적(Random)'이지만, 학습을 거듭할수록 적절한 상태가 되어 간다. 이 점도 인간의 뇌와 아주 비슷하다.
5. SMILE 기법
그러면 '딥러닝(Deep Learning)'같은 AI 기술을 사용하면, 신약 개발에서 구체적으로 어떤 일을 할 수 있을까? 연구자들이 가장 기대하고 있는 부분은 컴퓨터라는 가상공간 안에서 새로운 화합물을 생성할 수 있다는 점이다. 이미 언급했듯이 제약 회사는 기존의 '화합물 라이브러리' 안에서 '리드 화합물(Lead Compound)'을 고른다. 그렇지만 '딥러닝'을 사용하면 '논문 등에서 얻은 화학식 구조식 데이터'를 바탕으로 '그 일부를 바꿔 새로운 화합물'을 가상적으로 만들고, 그것을 화합물 라이브러리에 더할 수 있다고 한다.
5-1. 'SMILES 기법'의 규칙
이런 작업이 가능해진 배경에는, 기하학적으로 표기된 화학식 구조를 1행의 문자열로 나타내는 'SMILES(Simplified Molecular-Input Line-Entry System)' 기법의 개발과 발전이 있다. SMILES 기법은 1980년대에 등장한 것으로, 컴퓨터 안에서 구조식을 다루며, '화학 데이터베이스의 구조'와 '활성치(반응의 강도)'를 예측하게 하게 하는 '케모인포메틱스(Chemoinformatics)'라는 분야를 발전시켰다.
SMILES 기법에는 사소한 규칙이 있다. 원자는 원소 기호로 나타내고, 수소 원자는 생략하며, 인접 원자는 옆에 표시하고, 이중 결합은 =으로 나타내며, 삼중 결합은 #으로 나타내며, 단일 결합과 방향족 결합'은 생략하고, 벤젠고리 같은 방향 고리는 소문자로 나타내며, 고리 구조에서는 연결하는 원자 뒤에 숫자를 붙이는 규칙 등이다. 이런 규칙에 따르면, 예컨대 '질소 분자(N2)'의 구조식은 N#N, '프로판(CH3CH2CH3)'은 CCC, '벤젠(C6H6)'은 c1ccccc1, '질산(HNO3)'은 CC(=O)O, '멜라토닌(Melatonin)'은 CC(=O)NCCC1=CNc2c1cc(OC)cc2, '바닐린(Vanillin)'은 O=Cc1ccc(O)c(OC)c1으로 구조식을 나타낸다.
5-2. 데이터 입력 후 스크리닝 하기
컴퓨터 안에서 새로운 화합물을 생성하기 위해서는, 먼저 대량의 화합물 구조식을 SMILES 기법으로 나타낸 데이터를 입력한다. 그리고 뉴럴 네트워크의 한 방법인 '순환 신경망(Recurrent Neural Network)'을 사용해 규칙성을 배우게 한다. 그러면 AI는 예컨대 '문자열 ccc가 오면 다음에 무엇이 올 확률이 높은가?'라는 규칙을 배워 간다. 그런 다음 난수를 사용해 규칙성을 극히 일부만 깨뜨린 처리를 한다. 그러면 컴퓨터 안에서 새로운 문자열이 생겨나며, 그것을 신규 화합물로 간주할 수 있다.
이렇게 해서 '가상의 화합물 라이브러리'를 확장하면, 보다 많은 화합물을 대상으로 스크리닝 할 수 있고, 그 결과 비용·시간·인력을 대폭 줄일 수 있다. 예컨대 AI 신약 개발을 이끌고 있는 미국의 벤처 기업 '인실리코 메디슨(Insilico Medicine)'은 2019년에 독자 AI 기술을 사용해, 약 46일 동안에 생체 안의 '키나아제'라는 효소를 표적으로 한 리드 후보를 여럿 얻었다고 보고했다. 종전의 '스크리닝(Screening)'에 비해 15배나 빠른 속도였다고 한다.
6. AI로 대체할 수 있는 다양한 신약 개발 과정
새로운 화합물의 생성 외에도 AI 신약 개발에는 다음과 같은 다양한 일이 가능할 것으로 생각된다.
- 특허 정보와 선행 문헌 조사: 특허 정보와 선행 문헌을 사람이 조사하려면 많은 시간이 걸리며, 조사 결과에서 지식을 얻는 데에도 한계가 있다. AI 기술을 사용하면 단기간에 유익한 정보를 높은 정확도로 얻을 수 있다.
- 신약 재창출(Drug repositioning): 약 중에는 목표 작용 이외에 다른 작용을 하는 것이 있다. 예를 들어 '아스피린'은 처음에 해열진통제로 사용되었는데, 나중에 혈액 응고를 막는 작용도 있음이 드러나, 현재는 '항혈소판제'로 사용된다. 이런 경우를 '신약 재창출(Drug repositioning, 드러그 리포지셔닝)'이라고 한다. '아스피린'의 예는 우현히 발견되었지만, AI를 사용하면 의도적으로 다른 질병에 대한 작용을 예측할 수 있다. 항류마티스제인 '바리시티닙(Baricitinib)'을 코로나19 치료제로 사용한 것은 AI를 이용한 '신약 재창출'의 성공적인 예라고 할 수 있다.
- 합성 경로 탐색: '리드 화합물'이 발견되어도, 그것을 어떻게 대량 합성할지가 큰 문제이다. 최적의 합성 경로를 보통 방법으로는 발견할 수 없기 때문이다. 그러나 AI를 사용하면, 재료인 화합물로부터 어떤 순서로 합성할 수 있는지 쉽게 탐색할 수 있다. 게다가 높은 활성을 얻기 위해 '어떤 부분을 어떻게 바꾸면 좋은지(작용기를 부여하는 방식 등을 통해)'와 같은 관점에서 설계할 수도 있다. 이미 합성 탐색 경로를 제안하는 AI 소프트웨어가 시판되어, 많은 제약 회사가 이용하기 시작했다.
- 약리 시험: '리드 화합물의 최적화'와 '합성 경로의 탐색'이 끝나면, 쥐를 비롯한 동물에 약을 투여해 작용과 독성 등을 확인하는 '약리 시험'에 들어간다. 예컨대 뇌신경계 약의 경우 '쥐의 행동을 통해 약의 효력을 평가'하지만, 판정자의 경험과 숙련도에 따라 판정에 차이가 나는 것이 문제였다. 쥐의 움직임을 카메라로 촬영하고 그 녹화 데이터를 AI로 분석하면, 보다 객관적이도 높은 정확도로 판정할 수 있다.
- '바이오마커(Biomarker)'의 탐색: 같은 질병에 걸린 사람에게 같은 약을 투여해도, 효능과 부작용이 같다고 단정할 수 없다. '항암제'가 그 대표적인 예이다. 그래서 투여하기 전에 효능과 부작용의 정도를 예측하려는 움직임이 많아졌고, 이미 혈중 단백질과 유전자의 일부가 지표로 사용되기 시작했다. 이것을 '바이오마커(Biomarker)'라고한다. 제약 회사는 보다 많은 약에 대한 바이오마커를 얻으려고 하지만, 그러기 위해서는 대량의 데이터가 필요하고 사람이 하기에는 한계가 있다. 하지만 AI를 사용하면 방대한 수의 인자·변수·수식을 조합해 계산할 수 있어, 정확도가 높은 바이오마커 후보를 단시간에 검출할 수 있다.
7. 오픈 이노베이션
AI 신약 개발에는 'AI 전문 기업'과 '제약 회사'가 협력해 개발하는 예가 많다. AI를 사용해도 마지막 '임상 시험'과 '승인 신청'에는 방대한 비용과 경험이 필요하다. 결국, 설령 벤처 기업이 AI를 이용해 독자적으로 신약을 개발해도, 마지막에는 경험이 풍부한 제약 회사에 맡길 수밖에 없다. 종합적으로 생각하면, 처음부터 '제약회사'와 'AI 전문 기업'이 공동으로 참여하는, 협업 체제로 나아가는 것이 가장 효율적이다.
오랫동안 제약업계에는 독자적인 화합물, 노하우, 기술 등을 밖으로 유출하지 않는 비밀주의가 짙게 깔려 있었다. 하지만 AI가 도입됨에 따라, 각사의 정보를 공유하며 개발을 진행하는 '오픈 이노베이션(open innovation, 개방형 혁신)'이 활발해지고 있다. 많은 나라가 적극적으로 산학 협력의 '오픈 이노베이션'을 추진하고 있으며, 유럽에서는 신약 개발 컨소시엄 'MELLODDY: Machine Learning Ledger Orchestration for Drug Discovery)'가, 일본에서는 '일반 사단법인 라이프 인텔리전스 컨소시엄(LINC)'이 활동을 시작했다. 한국에서는 '10년 안에 의약 주권을 확보'한다는 목표 아래 '국가 신약개발사업단'이 2021년 1월에 출범했다. '국가 신약개발산업단'은 '리드 화합물부터 후보 물질 발굴', '비임상', '임상 1·2상', '사업화'에 이르기까지 신약 개발의 전 과정을 지원한다.