SURPRISER - Tistory 2024. 11. 5. 07:00

 ChatGPT는 기존의 AI Chat 서비스보다 훨씬 자연스러운 대화를 이어나갈 수 있으며, 문장에 관한 여러 가지 과제를 처리할 수 있어 '제4차 AI 붐'을 일으킬 존재로 여겨지기도 한다. '증기 기관의 출현', '컴퓨터의 출현', '인터넷의 출현' 등 기술 혁신이 일어날 때마다 인류 사회는 크게 변화하고 발전해 왔다. ChatGPT의 출현도 인류에게 비슷한 영향을 미칠 가능성이 있다고 생각된다. ChatGPT에는 어떤 기술이 사용되었으며, 어떻게 그렇게까지 성능을 향상시킬 수 있었을까? 그리고 Chat GPT는 우리의 삶에 어떠한 변화를 가져오게 될까?

0. 목차

  1. '제4차 AI 붐'의 시작
  2. GPT
  3. ChatGPT의 원리
  4. ChatGPT는 문장의 '의미'를 이해하는가?
  5. ChatGPT의 응용
  6. GPT-4
  7. 생성 AI (Generative AI)
  8. 범용 AI (AGI)

1. '제4차 AI 붐'의 시작

 Open AI는 미국 기업가 '샘 알트만(Sam Altman, 1985~)', '일론 머스크(Elon Musk, 1971~)' 등이 2015년에 설립한 AI 연구 조직이다. ChatGPT는 Open AI에서 만든 사람의 질문에 AI가 응답함으로써 다양한 과제를 처리하는 'AI Chat 서비스'의 일종이다. ChatGPT는 문장을 사용해 할 수 있는 일은 기본적으로 무엇이라도 해줄 수 있다. 문장의 요약·번역·첨삭 이외에 '소설이나 시 집필', '연설 원고의 작성', '프로그래밍(Programming)' 등도 처리할 수 있다. 전문 지식에서도 ChatGPT는 인간에 필적하는 능력을 획득하기 시작했다. GPT-4를 탑재한 ChatGPT에게 미국 변호사 시험의 모의고사를 풀게 했더니 놀랍게도 상위 10%라는 합격 수준의 성적을 거두었다. 일본의 의사 국가시험에서도 GPT-4는 2018~2022년의 과거 5년간 문제에서 모두 합격 수준을 성회했다고 한다.

 아래의 스크린샷을 보면, ChatGPT가 출력한 문장이 매우 자연스러움을 알 수 있다. 그래서 지금 Chat GPT의 고성능은 전 세계에서 큰 화제가 되고 있다. ChatGPT의 사용자 수는 공개 후 불과 2개월 만인 2023년 1월에 1억 명을 넘어섰다. 이런 점 등에서 볼 때, 2023년부터 '제4차 AI 붐'이 시작되었다'고 말해도 무리가 없을 것이다. ChatGPT 같은 AI 대화 서비스는 인터넷의 발명보다도 큰 변화를 사회에 일으킬 것으로 평가되고 있다. '메일', '웹 검색', '원격회의' 등 우리 생활과 업무는 지금 인터넷이 없으면 성립되지 않는다. 그와 마찬가지로 대화형 AI도 미래에 우리 일상에 불가결한 도구가 될 것이다.

1-1. '딥러닝'이 AI에 혁명을 일으켰다.

 AI 기술은 대략 2015년 무렵부터 사회에 빠르게 보급되었다. 이것을 '제3차 AI 붐'이라고 한다. 1950년대 후반부터 1960년대에 걸쳐 '제1차 AI 붐'이, 1980년대부터 1990년대 초에 걸쳐 '제2차 AI 붐'이 일어났다. '제3차 AI 붐'의 불쏘시개 역할을 한 것은 '딥러닝(Deep Learning)'이라는 기술이다. '딥러닝'은 컴퓨터가 스스로 학습하는 '기계 학습(Machine Learning)'의 일종으로, '뇌신경(Cranial Nerve)'의 메커니즘을 모방해 AI에게 학습시키는 '뉴럴 네트워크(Neural Network)'라는 방법을 발전시킨 것이다.

 '딥러닝'은 이미지 인식 분야에 혁명석인 성능 향상을 가져오면서 주목받았다. 딥러닝을 이미지 인식에 사용할 때의 이점은 이미지의 특징을 AI 자신이 찾아내게 한다는 점이다. 기존 기계 학습에서는 예를 들어 꽃 사진을 보고 무슨 꽃인지를 판정하는 AI를 만들면 '색깔과 꽃잎 형태에 주목하라'는 식으로 주목해야 할 점을 사람이 가르쳐야 했다. 하지만 '딥러닝'을 사용하면 일단 대량의 이미지를 읽어 들이기만 하면, 주목해야 할 특징을 AI가 스스로 추출한다. 게다가 AI가 추출하는 특징에는 사람이 인식할 수 없는 미묘한 특징도 포함되어 있다. 그래서 '딥러닝'을 구사함으로써 AI는 사람보다도 높은 정확도로 이미지를 인식할 수 있다. 현재는 얼굴 인식이나 감시 카메라의 영상 분석 등 사회의 여러 영역에서 이미지 인식 AI가 활용되고 있다.

 '딥러닝'은 '자연어 처리' 분야에서도 혁신을 불러왔다. '자연어 처리(Natural Language Processing)'란 '프로그래밍 언어(Programming Language)'가 아니라 사람 사이에 일상적으로 사용하는 언어를 컴퓨터에게 처리시키는 기술이다. '자연어 처리'에서는 '언어 모델(Language Model)'을 사용해 문장을 생성한다. '언어 모델'이란 인간의 언어를 이해하기 위한 일련의 '프로그램'이다. 언어 모델을 사용하면 어떤 단어의 다음에는 어떤 단어가 오기 쉬운지, 예를 들어 '오늘의 날씨는'이라는 말 다음에는 '맑다'는 단어가 오기 쉽다는 점을 사용해 문장을 출력시킬 수 있다. 올바로 출력시키기 위해서는 AI에게 대량의 문장을 읽어 들이게 해서 어떤 단어 다음에 어떤 단어가 오기 쉬운지 그 특징을 인식시켜야 한다. 이때 딥러닝 기술이 활용된다.

반응형

1-2. 트랜스포머(Transformer)

 2018년 이후 언어 모델의 예측 정확도는 빠르게 향상되었다. 그 계기가 된 것은 2017년 '구글(Google)' 연구팀이 개발한 '트랜스포머(Transformer)'라는 알고리즘이다. 2017년, 구글의 연구팀은 'Attention Is All You Need'라는 제목의 논문을 발표했다. 이 논문의 제목은 Transformer의 가장 중요한 특징인 '셀프 어텐션(Self-attention)'만 있으면 '자연어 처리'를 할 수 있음을 의미한다. 또 추출한 특징 가운데 무엇이 도움이 될지는 목적과 문맥에 따라 달라진다. 중요한 점은 학습하는 데이터의 어떤 특징에 '주의(Attention)'을 기울이느냐 하는 것이며, 그 주의를 기울이는 방법을 학습하는 메커니즘이 바로 '셀프 어텐션(Self-attention)'이다.

 '자연어 처리'를 예로 들어 구체적으로 살펴보자. Transformers는 문장 다음에 단어를 예측하는 메커니즘이다. 예컨대 '내일은 일이 있으니 오늘은 침대에 들어가 일찍'이라는 글이 주어졌다면, 그다음에 '잔다'라는 단어가 올 것을 예측할 수 있어야 한다. 그러나 기존의 여러 방법에서는 기본적으로 서로 이웃하는 단어끼리의 관계만 고려할 수 있었다. 즉 '잔다'라는 단어를 예측하기 위한 실마리는 '일찍'이라는 직전의 단어밖에 없었다. 이렇게 되면 '일찍'이라는 단어를 통해 '일어나다' 또는 '나가다'같은 단어가 유도될 수도 있다. 여기서 활약하는 것이 '셀프 어텐션(Self-attention)'이다. '셀프 어텐션'을 사용하면 직전 단어뿐만 아니라, 문장 안에 있는 단어와 단어의 관계성을 폭넓게 학습할 수 있다. 위의 예문이라면 '잔다'에 대해 '내일', '일', '침대', '일찍' 등의 단어와의 관계성을 학습하는 것이다. 이런 과정을 통해 '내일'이나 '일'이라는 떨어진 위치에 있는 단어와의 관계성도 고려해 '잔다'라는 단어를 예측할 수 있다. 즉, Transformer를 사용함으로써 폭넓은 문맥과 단어의 의미를 고려해 적절한 문장을 생성할 수 있다. Transformer를 사용한 처리를 할 때는 단어를 수학적인 '벡터(Vector)'로 변환하고 그들의 '내적(Inner Product)'을 계산함으로써 벡터의 거리를 측정한다.

 ChatGPT에 사용되는 AI 'GPT(Generative Pre-trained Transformer)'는 '트랜스포머(Trnasformer)'를 응용한 것이다. ChatGPT가 길고 복잡한 문장을 적절하게 이해하거나 생성할 수 있는 것은 Transformer, 나아가서는 '셀프 어텐션(Self-attention)' 덕분이라고 할 수 있다.

반응형

2. GPT

 ChatGPT는 Transformer를 기초로 해서 개발된 대화 서비스이다. GPT의 T 부분이 그것을 나타낸다. GPT(Generative Pre-trained Transformer)'란 OpenAI에서 개발한 AI이다. GPT는 대량의 문장 데이터를 학습한 AI이며, Transformer 기술을 사용해 문장의 특징을 분석한다. 이 AI가 탑재되어 있어서 ChatGPT는 자연스럽게 대화할 수 있다. GPT처럼 대량의 문장 데이터를 학습해 인간과 같은 수준의 언어 능력을 획득한 AI를 가리켜 '대규모 언어 모델(LLM: Large Language Model)'이라고 한다. 2018년에 GPT의 최초 버전인 'GPT-1'이 공개되었고, 2019년에 'GPT-2', 2020년 6월 11일에 'GPT-3', 2022년 11월 30일에 'GPT3.5', 2023년 3월 14일에는 'GPT-4'가 공개되었다. GPT는 '파라미터(Parameter)' 수가 늘어날수록 '예측 정확도' 성능이 향상되는 것이 특징이다. 이것을 '스케일의 법칙'이라고 한다. '파라미터(Parameter)'란 '뉴럴 네트워크(Neural Network)'에 들어 있는 인공 신경 세포끼리의 결합을 비롯한 AI 설계와 관련된 변수이다. GPT의 파라미터 수는 버전이 올라갈수록 빠르게 증가하고 있다.

모델 공개 파라미터 수
GPT-1 2018년 1.17억
GPT-2 2019년 15억
GPT-3 2020년 6월 11일 1750억
GPT-3.5 2022년 11월 30일 3550억
GPT-4 2023년 3월 14일 비공개
GPT-5 ?  

2-1. GPT는 대량의 '빈칸 채우기 문제'를 풀어 언어 능력을 향상시켰다.

 GPT-3는 인터넷에서 수집한 45TB라는 많은 양의 문장 데이터를 사전 학습했다. 이것은 약 4조 단어에 해당하며, 영어판 '위키피디아(Wikipedia)'와 '뉴스 기사', '개인 블로그', '과학 논문' 등 다양한 문장이 포함되었다. 이 대량의 문장 데이터를 사용해 GPT는 언어의 기초를 배웠다.

 '사전 학습'의 구체적인 방법은 학습시킨 문장 데이터의 단어 일부를 가리고 그것이 원래 무슨 단어였는지를 알아맞히게 하는 것이었다. 예를 들어 데이터에 들어 있는 '귀엽기 때문에 고양이가 좋다'는 문장의 '좋다' 부분을 가린 글을 자동으로 생성하고, 가린 단어를 GPT에게 예측시킨다. 이런 '빈칸 채우기 문제'를 대량으로 풂으로써 GPT는 다음에 올 단어를 정확하게 예측할 수 있게 되었다. 이 방법을 사용하면 '빈칸 채우기 문제'와 '해답'의 세트를 자동으로 생성할 수 있다. 실은 기존 방법에서는 AI에게 학습시키는 데이터에는 인간이 해답을 제시해야 했으며, 이 해답이 붙은 데이터를 만드는 데 시간이 아주 많이 걸렸다. 그러나 GPT의 학습에서는 원래의 문장 데이터 일부를 가리는 방법으로 '빈칸 채우기 문제'가 만들어지기 때문에 사람의 손을 더하지 않아도 된다. 이 덕분에 많은 문장 데이터를 자동으로 사전 학습시킬 수 있어 성능이 비약적으로 향상되었다.

반응형

3. ChatGPT의 원리

3-1. ChatGPT는 어떻게 자연스러운 문장을 생성할 수 있는가?

 GPT는 인터넷 등에서 수집한 문장 데이터를 사용해 학습함으로써 어떤 문장의 다음에 올 단어를 예측해 출력할 수 있다. GPT를 이용하는 ChatGPT도 기본 메커니즘은 같다. 문장 다음에 올 단어로서 적절할 가능성이 가장 높은 단어의 줄을 차례로 예측하고 출력해 문장을 구성하는 것이다. 그러나 학습을 끝낸 GPT만으로는 사람과 대화를 하는 ChatGPT에 사용하기에는 불충분하다. 우선 GPT는 언어의 기초 지식을 배운 상태이기 때문에 '질문에 응답한다'는 대화형 AI의 기능에는 최적화되어 있지 않다. 예컨대 질문의 표현이 약간만 바뀌어도 올바로 응답하지 못하기도 한다. 그래서 다양한 질문에 올바로 응답하는 능력을 길러야 한다.

 또 GPT 학습의 바탕은 인터넷에 있는 다양한 문장이며, 게다가 그 문장들은 날 것이다. 그래서 학습 데이터 안에는 편견과 차별적 표현 등이 들어 있는 경우도 있는데, 질문에 그런 문장을 그대로 대답에 버릴 가능성도 있다. 실제로 '메타(Meta)'에서 2022년 11월 15일에 공개한 '갤럭티카(Galactica)'라는 대화형 AI는 차별적인 문장을 출력하는 것이 알려져 불과 3일 만에 공개가 중지되었다. 이런 문제는 '갤럭티카(Galactica)' 이외의 대화형 AI에서도 종종 발생한다. 그래서 ChatGPT 개발에서는 자동으로 이루어지는 사전 학습 후에 사람이 만든 데이터를 사용한 미세 조정이 이루어졌다. 이런 과정을 통해 자연스럽게 대화할 수 있고 부적절한 표현을 하지 않게 된다. 이 과정은 대규모 언어 모델 'GPT'를 대화 서비스 ChatGPT로 만드는 과정이라고 할 수 있다. 사전 학습을 끝낸 언어 모델을 목적에 맞춰 미세 조정하는 것을 '파인튜닝(Fine Tuning)'이라고 한다.

 그러면 때때로 ChatGPT가 거짓말을 하는 이유는 무엇일까? 그것은 ChatGPT가 학습이 충분하지 않았기 때문이다. ChatGPT는 질문 다음에 이어질 확률이 가장 높은 단어를 나열함으로써 문장을 구성한다. 이 메커니즘은 ChatGPT가 때때로 질문에 틀린 응답과 엉뚱한 대답을 출력하는 것과 관계가 있다. 이 점은 사람에게 견주어보면 이해하기 쉽다. 예컨대 당신이 상대성 이론에 대해 설명하라는 말을 들었다고 하자. 이때 상대성 이론을 잘 알지 못하면 '아인슈타인'이나 '빛의 속도' 등 상대성 이론을 설명하기 위한 적절한 단어를 연상할 수 없다. 그러면 당신은 '상대성'과 '이론'이라는 말에서 연상되는 단어를 사용해 어떻게든 그럴듯한 설명을 하려고 할 것이다. ChatGPT가 '터무니없는 거짓말'을 하는 것도 이런 현상이다.

반응형

3-2. 파인튜닝(Fine Tuning)

 ChatGPT는 '지도 학습(Supervised Learning)', '보수 모델 학습(Fine Tuned Model Learning)', '강화 학습(Reinforcement Learning)'의 3단계로 '파인튜닝(Fine Tuning)'된다.

  1. 지도 학습(Supervised Learning): '지도 학습(Supervised Learning)'이란 '인터넷의 문장을 그대로 답으로 사용하는 사전 학습(비지도 학습)'과는 달리, 사람이 질문과 응답의 세트를 만들어 GPT에게 학습시키는 방법이다. 예를 들어 'DNA의 두 가지 주요 기능은 무엇인가?(질문) → 유전 정보의 보존과 유전 정보의 전달(응답)'같은 질문과 응답을 쌍을 사람이 약 1만 3000개 만들어 학습시켰다. 그 밖에도 문장의 요약과 문장의 감정 분석을 했다. 감정 분석은 예를 들면 '이 영화는 재미있다'라는 문장을 '긍정적'이라고 분류하는 것'이다. 이런 과정을 통해 ChatGPT는 학습하지 않았던 문제의 답을 알게 되고, 질문에 알기 쉽게 답하는 방법을 배워 질문에 어느 정도 응답할 수 있게 된다.
  2. 보수 모델 학습(Fine Tuned Model Learning): '보수 모델 학습'은 마지막의 '강화 학습'을 위한 준비이다. 실은 '강화 학습'에서는 사람 대신 '보수 모델(Fine Tuned Model)'이라는 AI가 GPT의 교사 역할을 한다. 그래서 이 단계에서는 먼저 '보수 모델'을 사람이 교육해 교사 역할을 하게 한다. 먼저 사람이 GPT에게 질문을 해서 여러 개의 응답을 출력시키고, 사람이 그 응답의 순위를 매긴다. 순위를 매기는 기준은 '올바른 정보인가 아닌가?', '기분을 상하게 하는 내용은 아닌가?', '사용자의 과제를 해결할 수 있는 내용인가?'의 3가지이다. 즉 오류가 없고 차별적인 표현 등이 들어 있지 않으며, 동시에 알기 쉬운 응답이 높은 평가를 받는다. 이 순위 매기기를 '보수 모델'에게 학습시켜 다양한 질문의 응답에 대해 '좋은 응답인가 아닌가?'를 판단할 수 있게 한다.
  3. 강화 학습(Reinforcement Learning): '강화 학습'에서는 모수 모델을 사용해 GPT를 학습시킨다. GPT에게 질문을 해서 응답을 출력시키고, GPT가 출력한 문장을 '보수 모델'에게 평가하게 한다. '보수 모델'에 의한 평가는 GPT에게 파인튜닝 되어 GPT는 더 좋은 응답의 글을 생성할 수 있다. 이 강화 학습을 거듭함으로써 성능을 더 높인다.
반응형

4. ChatGPT는 문장의 '의미'를 이해하는가?

 ChatGPT는 잘 생각해 보면 문장의 다음에 올 단어를 예측할 뿐이다. 그래서 'ChatGPT는 말의 의미를 이해하지는 못한다'라고 생각하는 사람이 많다. 그러나 전문가 중에는 'ChatGPT가 말의 추상적 의미를 충분히 이해한다.'고 생각하는 사람들도 많다. 이것은 대체 어떤 의미일까?

 분명히 ChatGPT는 다음 단어를 예측할 뿐이며, 예를 들어 '사과'라는 단어가 입력되면 그와 관련이 깊은 '빨갛다', '과일' 등의 단어를 출력할 뿐이다. 그러나 생각해 보면 ChatGPT는 학습을 통해 '사과'라는 단어가 '빨갛다'나 '과일' 등의 단어와 관련이 깊음을 이해하고 있는 것이다. 나아가서는 '아이작 뉴턴(Isaac Newton)'이 떨어지는 사과를 보고 만유인력의 법칙을 발견했다는 것, 사과가 '아이폰(iPhone)'을 만드는 회사 Apple의 로고인 것도 알고 있다. 즉, 사과가 어떤 경우에 어떻게 사용되는지, 사회에서 어떤 함축된 의미를 지니는지도 알고 있는 것이다. 그리고 이들 지식을 문맥에 따라 제대로 끌어낼 수 있다. 이것은 적어도 기호적인 의미에서 '사과는 무엇인가?'라는 개념을 형성하고 있는 것과 다를 바 없다. 즉, 사과의 감촉이나 맛 등 실제 세계의 상호 작용을 수반하지 않는 범위에서이기는 하지만, ChatGPT는 사과라는 개념을 이해한다고 봐도 무리가 없을 것이다.

 그러면 ChatGPT는 어떤 메커니즘으로 개념을 이해하는 걸까? 그것은 아직 정확하게 밝혀지지 않았다. 그러나 어디까지나 하나의 가설이지만 GPT의 '뉴럴 네트워크(Neural Network)' 속에 형성되는 '구조'가 개념에 대응하는 것이 아닐까 생각할 수는 있다. GPT는 학습을 통해 '뉴럴 네트워크'끼리의 연결, 즉 '뉴럴 네트워크'의 구조를 형성하고 그것에 의해 어떤 단어가 입력되었을 때 다음 단어를 예측할 수 있다. 한편, 어떤 단어에 대한 개념이란 그 단어와 관련된 단어 끌어내기, 즉 다음 단어를 예측하기 위해 필요하다고 할 수 있다. 이 유사성으로 '뉴럴 네트워크의 구조'가 개념에 대응한다고 생각할 수 있다.

반응형

4-1.' ChatGPT가 가진 개념'과 '사람이 가진 개념'은 다른 것인가?

 그러면 'ChatGPT가 가진 개념'과 '사람이 가진 개념'은 다른 것일까? 사과를 예로 들어 말하면 ChatGPT는 현실에 존재하는 사과의 '촉감', '색깔', '맛' 등을 직접 이해하는 것은 아니다. 그래서 사과 등의 구체적인 사물에 대해서는 ChatGPT가 사람처럼 사과를 이해하는 것은 아니다. 그런 의미에서 ChatGPT의 개념은 사람과는 다르고 불완전하다고 할 수 있다.

 한편, 사람이 개념을 형성하는 메커니즘이 ChatGPT가 개념을 형성하는 메커니즘과 유사하다고 생각되는 상황도 있다. 예컨대 우리가 '상대성 이론(Theory of Relativity)'이라는 개념을 이해할 때는 책을 읽거나 해서 '상대성 이론의 영향은 광속에 가까운 속도로 날아가는 로켓을 생각하면 알기 쉽다' 또는 '상대성 이론에 따르면 중력이란 시공의 휘어짐으로 설명할 수 있다.'같은 내용을 학습한다. 이런 과정을 통해 우리는 '광속에 가까운 속도로 날아가는 로켓' 등을 실제로 체험할 수는 없어도 상대성 이론을 추상적으로 이해할 수 있다. 그리고 우리가 상대성 이론에 대해 설명하라는 말을 들으면 '상대성 이론'과 관련이 깊은 단어인 '광속(Speed of Light)', '아인슈타인(Einstein)', '시공(Space-Time)', '중력(Gravity)' 등의 단어를 사용해 설명할 것이다. 이것은 ChatGPT가 어떤 단어를 설명할 때 그것과 관련이 깊은 다른 단어를 출력하는 일과 같다고 할 수 있다.

반응형

5. ChatGPT의 응용

 지금까지 설명한 방법으로 학습한 ChatGPT는 '문장 요약', '토론 연습', '결혼식 축사 작성', '번역', '계산기', '프로그래밍' 등 매우 다채로운 일을 처리할 수 있다. ChatGPT가 기존 IT 서비스와 크게 다른 점은 기능이 미리 정해져 있지 않고, 사용자의 발상과 사용 방식에 따라 새로운 기능을 개척할 수 있다는 점이다.

 ChatGPT의 기본적인 사용법 중 하나는 '알지 못하는 것을 질문'하는 것이다. 예컨대 밖에서 걷다가 문득 '하늘은 왜 푸를까?'라는 의문이 들었다고 하자. 그 답을 아는 방법 중 하나는 '구글(Google)'을 비롯한 검색 엔진에서 검색하는 것이다. 예를 들어 '하늘이 푸른 이유' 등이라고 입력하면 여러 사이트가 표시된다. 그러나 이 경우, 검색 엔진은 답을 직접 가르쳐 주는 것이 아니라, 올바른 답이 쓰여 있을 것으로 예측되는 사이트를 표시해 줄 뿐이다. 그에 비해 ChatGPT는 '하늘은 왜 푸를까?'라고 질문하면 응답을 문장으로 보여준다. 또 응답에서 이해하기 어려운 부분이 있으면 '초등학생도 알 수 있도록 쉽게 알려줘' 등으로 지시하면 응답을 유연하게 변경해 준다. 이것은 기존 검색에는 없던 특징이다. The New York Times에서는 ChatGPT가 인터넷 검색을 근본부터 바꿀 가능성이 있다고 보도했으며, '구글(Google)'에서는 경영상의 최고 비상사태를 의미하는 '코드 레드(Code Red)'를 발동했다.

 그러나 ChatGPT는 틀린 정보를 알려줄 수도 있기 때문에, 주의를 기울여야 한다. 사용자는 ChatGPT가 제시하는 정보를 그대로 받아들일 것이 아니라, 여러 자료를 대조하는 등의 방법으로 그 내용이 옳은지 아닌지를 확인하는 것이 좋다. 또 중요한 것은 ChatGPT의 메커니즘과 학습법을 이해하는 것이다. 예컨대 GPT-3.5는 2021년 9월까지의 데이터를 학습했기 때문에 최신 시사 정보는 알지 못한다. 이런 ChatGPT의 한계를 이해하면 더욱 유용하게 사용할 수 있을 것이다.

반응형

6. GPT-4

 2023년 3월 15일 Open AI에서는 'GPT-4'를 공개했다. 그리고 Open AI는 'ChatGPT Plus'라는 유료 서비스에 등록함으로써 GPT-4의 일부 기능을 사용할 수 있게 하였다. OpenAI에서 발표한 기술 보고서에 따르면, 일반적인 대화를 할 때는 GPT-4와 GPT-3.5의 차이가 그다지 크지 않다고 한다. 그러나 상당히 복잡하고 전문적인 과제가 되면 그 차이가 나타난다. '미국 변호사 시험' 이외에도 미국의 대학 진학 시험인 'SAT'의 수학 등에서도 GPT-3.5에 비해 높은 점수를 받았다. 물론 지금까지와 마찬가지로 질문에 틀린 응답을 할 가능성은 여전히 있다. 그러나 그 빈도는 줄었으며 '기술', '역사', '수학' 등의 9개 분야에서 이전의 모델보다 응답의 정확성이 향상되었다. 평균적으로는 응답의 정확성이 19% 향상되었다.

 나아가 GPT-4에서는 새로운 기능으로 '이미지 인식(Image Recognition)'이 추가되었다. 즉, 문장뿐만 아니라 이미지도 읽어 들일 수 있다. 그래프와 논문의 이미지를 보게 하고 그 내용을 요약하도록 시키거나, 수기로 쓴 메모를 보여 주고 홈페이지를 작성하게 하는 등 응용의 폭이 더 넓어졌다고 할 수 있다.

반응형

7. 생성 AI (Generative AI)

7-1. 이미지 생성 AI

 ChatGPT와 나란히 최근에 화제가 된 것이 '이미지 생성 AI(Image Generation AI)'이다. '이미지 생성 AI(Image Generation AI)'란 '이런 그림을 그려라'라고 글로 지시하면, 그에 따른 이미지를 생성해 주는 AI이다. 예컨대 '불고기를 먹는 Elon Musk'라는 지시문을 입력하면, 실제로 불고기를 먹는 Elon Musk의 이미지를 생성해 준다. OpenAI에서 2022년 7월에 공개한 'DALL-E2'와 영국의 벤처기업 Stability AI에서 2022년 8월에 공개한 '스테이블 디퓨전(Stable Diffusion)' 등이 있다. '이미지 생성 AI(Image Generation AI)'란 간단하게 말하면 인터넷에 올려진 대량의 이미지를 읽어 들이고, 그 특징을 학습해 사용자가 입력한 지시문과 합치하도록 그들 이미지를 재구성해 주는 AI이다. Stable Diffusion에서는 인터넷에 올려진 23억 장이나 되는 이미지 데이터를 학습해 이미지를 생성한다. Stable Diffusiond을 예로 '이미지 생성 AI'의 메커니즘을 살펴보자.

 먼저 학습에 사용한 이미지의 내용과 그것을 나타내는 단어를 연결시키는 AI가 필요하다. 예컨대 고양이가 찍힌 이미지라면, 그 이미지와 '고양이'라는 단어를 연결시킨다. Stable Diffusion은 OpenAI에서 개발한 'CLIP'이라는 기술을 채용한 AI에 의해 이미지 내용과 단어를 연결시킨다. CLIP는 Transfomer를 응용해 이미지와 문장의 관계를 많은 데이터로부터 학습한다. 그래서 CLIP은 어떤 이미지를 읽어들이면, 그 이미지에 무엇이 찍혀 있는지를 인식하고, 그것에 대응하는 말을 자동으로 생성해 준다. 반대로 CLIP에게 글을 주면, 그것에 대응하는 이미지를 골라낼 수 있다. 이런 과정을 통해 지시문 내용으로부터 만들어야 할 이미지의 특징을 결정할 수 있다.

 이미지를 생성할 때는 불필요한 신호 '노이즈(Noise)'가 많은 '더미(Dummy)' 이미지를 준비하고, 거기서 조금씩 노이즈를 제거해 목표로 하는 이미지를 생성한다. 이런 방법을 취하는 이유는 이미지를 학습할 때 '확산 모델(Diffusion Model)'이라는 기술을 사용하기 때문이다. '확산 모델'에서는 학습용 이미지에 조금씩 노이즈를 더해 이미지를 열화시키고, 그 뒤 반대로 노이즈를 조금씩 제거함으로써 원래의 이미지를 복원한다. 그러면 AI는 노이즈가 많은 이미지로부터 어떻게 노이즈를 제거하면 원래의 이미지가 복원될지를 학습한다. 다양한 이미지에 대해 이런 작업을 함으로써 노이즈가 많은 더미 이미지를 바탕으로 다양한 이미지를 만들어낼 수 있다. 말하자면, '이미지의 빈칸 채우기 문제'를 많이 풀면 '이미지 생성 AI(Image Generation AI)'의 성능이 높아진다. 이런 메커니즘을 통해 Stable Diffusion은 글로 지시하여 다양한 이미지를 생성할 수 있다.

반응형

7-2. 뇌 디코딩 (Brain Decoding)

 AI의 진화는 뇌 연구에도 커다란 영향을 미치고 있다. 일본 오사카 대학교의 '다카기 유' 조교수, '니시모토 신지' 교수 연구팀은 2023년 3월, Stable Diffusion을 사용해 뇌 활동을 아주 정밀하게 이미지화하는 데 성공했다. 어떤 이미지를 보고 있느 피험자의 뇌 활동을 읽어내고 그 데이터를 Stable Diffusion에 입력함으로써, 원래 보고 있던 이미지를 매우 정밀하게 재현하는 데 성공한 것이다. 이처럼 뇌 신호를 읽어내고 해동하는 기술을 '뇌 디코딩(Brain Decoding)'이라고 한다.

 시람의 시간은 뇌의 '시각 영역'이라는 영역의 신호에 의해 생긴다. 그래서 시각 영역의 뇌 신호를 해독할 수 있으면, 원리적으로는 시작을 재현할 수 있다. 실은 시각 영역의 정보를 '이미지 디코딩(Image Decoding)'이라는 AI에 입력해 이미지화하는 기술은 이전부터 존재했다. 그러나 기존 방법으로는 이미지의 재현 수준에 한계가 있었다. 그 이유의 하나는 뇌 신호 데이터를 얻는 방법이다. 데이터의 정확도가 가장 높은 것은 뇌에 전극을 삽입해 전기신호를 직접 측정하는 방법이다. 그러나 이 방법은 뇌를 다치게 할 위험이 있어서, 일반적으로는 뇌 혈류 변화를 읽어 내는 'fMRI(기능적 자기 공명 영상)'라는 장치를 사용해 뇌 신호를 간접적으로 얻는다. 그러나 이 방법으로는 얻은 데이터는 정확도가 떨어져 애매한 이미지밖에 재현할 수 없다는 과제가 있었다. 연구팀은 그 과제를 극복하기 위해 Stable Diffusion을 사용했다.

 실험의 흐름을 간단하게 설명한다. 머저 어떤 이미지 X를 피험자에게 보여주고 그때의 시각 영역 뇌 신호를 fMRI로 얻는다. 그리고 fMRI의 데이터를 이미지 디코더에 입력함으로써 이미지 X를 일단 재현한다. 단, 이 단계에서는 이전처럼 정확도가 낮은 이미지밖에 얻지 못한다. 재현된 이미지 X의 데이터는 Stable Diffusion의 학습용으로 사용된다. Stable Diffusion으로부터이미지 X를 출력시키기 위해서는 이미지 X를 나타내는 텍스트가 필요하다. 그리고 이 텍스트도 실은 피험자의 fMRI 데이터로부터 읽어 낼 수 있다. 예를 들어 당신이 사과를 보고 있을 때, 뇌는 그것이 언어적으로 '사과'라는 것을 '고차 시각 영역'이라는 영역에서 이해한다. 그래서 연구팀은 '고차 시각 영역'의 뇌 신호로부터 얻은 언어 정보도 Stable Diffusion에 입력했다. 그러자 출력된 이미지에는 이미지 X가 매우 정확하게 재현되어 있었다. 뇌에서 얻은 '이미지'와 '언어' 양쪽 정보를 Stable Diffusion에게 입력해 매우 정밀한 이미지를 얻었다. 이 기술을 응용하면, 사람이 뇌에서 생각한 이미지나 꿈의 내용을 해독하고 매우 정확하게 재현하는 일도 가능할 수 있다.

반응형

8. 범용 AI (AGI)

8-1. ChatGPT는 '범용 AI'에 크게 가까워졌다.

 지금까지 살펴봤듯이 GPT를 비롯한 AI는 엄청난 속도로 진화를 계속하고 있다. 덧붙여 학습량과 '파라미터' 수를 증가시킬수록 성능이 향상하는 '스케일의 법칙'이 유효하기 때문에 앞으로도 ChatGPT는 진화를 계속할 것으로 생각된다. 언젠간 기술적 한계에 부딪힌다고 하여도, 현재 성능만으로도 사회에 상당한 변화를 가져올 것으로 생각된다. 그러면 AI 진화를 계속하면 ChatGPT는 어떻게 될까? 인간을 초월하는 지능을 갖게 될까?

 '튜링 테스트(Turing Test)'는 기계의 능력을 판정하는 가장 유명한 방법이다. 영국의 수학자이자 컴퓨터 과학자인 '앨런 튜링(Alan Turing, 1912~1954)'이 제안한 테스트인데, 사람과 기계가 문자를 사용해 대화를 하고, 대화 상대가 기계임을 간파하지 못하면 그 기계는 사람과 동등한 지능을 가졌다고 간주한다. '튜링 테스트'의 타당성에 대해서는 논의가 계속되고 있지만, 기계의 언어 능력을 판정하는 방법으로 잘 알려져 있다. 2022년 말에는 IT 업계에서 GPT-4가 튜링 테스트를 통과했다는 소문도 돌았다. 이에 '샘 알트만(Sam Altman)'은 튜링 테스트에 큰 의미를 부여할 필요가 없다고 언급했지만, 어쨌든 GPT-4는 이미 인간과 구분되지 않을 정도의 문장력을 가진 셈이다.

 ChatGPT는 높은 문장력을 가진 데다 문장으로 표현할 수 있는 과제는 무엇이나 처리할 수 있다. 그래서 ChatGPT는 적어도 문장에 관한 '범용 AI'라고 할 수 있다. '범용 AI(AGI: Artificial General Intelligence)'란 사람처럼 다양한 과제에 임기응변으로 대응할 수 있는 AI, 간단히 말하면 사람과 동등한 능력을 가진 AI를 말한다. 한편 '바둑', '얼굴 인식', '자동 번역' 등 특정한 과제에 특화한 AI를 '특화형 AI'라고 한다. 물론 'ChatGPT'는 문장과 관계없는 일은 할 수 없기 때문에 참된 '범용 AI(AGI)'라고는 할 수 없으나, 기존에 없었던 '범용 AI'에 가까운 존재라고 할수 있다.

반응형

8-2. FLID 공개서한

 이런 빠른 AI의 진화에 대해 2023년 3월 38일, AI의 안정성과 윤리성 등을 연구하는 비영리 연구 조직 'FLID(Future of Life Institute)'는 공개서한을 발표했다. FLI는 GPT-4보다 강력한 AI의 개발을 6개월 동안 멈출 것을 전 세계의 AI 연구 기관에 호소했다. 서한에는 2023년 5월 10일 시점에서 2만 7565명이 서명했으며, 그중에는 '일론 머스크(Elon Musk)', 애플의 공동 창업자 '스티브 워즈니악(Steve Wozniak, 1950~)', '사피엔스(Sapiens)'의 저자 '유발 하라리(Yuval Noah Harari, 1976~)', 이미지 생성 AI 벤처 기업 'Stability AI'의 CEO '에마드 모스타크(Emad Mostaque, 1983~)' 등도 포함되어 있다. AI 연구의 최전선에 서 있는 사람들이 AI 개발에 잠시 멈춤을 외친 것이다.

 단, 이 공개서한이 고성능 AI 개발의 영구 정지를 요구하는 것이 아니다. ChatGPT의 진화가 너무 빨라 그 능력의 전체 모습과 사회에 대한 영향은 아직 제대로 밝혀지지 않았다. 그런 상태에서 고성능 AI를 차례로 만들어내는 것은 위험이 크다고 생각했기 때문에, 전체 모습이 드러나기까지는 일시적으로 개발을 정지하자는 말이다. 앞으로 우리는 AI와 공존하는 사회에 대해 지금까지보다 훨씬 진지하고 신중하게 생각해야만 한다.