AI 혁명 완벽 이해: 토큰, 트랜스포머, 파운데이션 모델 핵심 개념 가이드

티스토리 뷰

DEV

AI 혁명 완벽 이해: 토큰, 트랜스포머, 파운데이션 모델 핵심 개념 가이드

Code Brewer 2026. 1. 26. 22:04

인공지능(AI)은 이제 우리의 일상과 산업 전반에 걸쳐 혁신을 주도하고 있습니다. 스마트폰의 음성 비서부터 자율주행, 복잡한 데이터 분석에 이르기까지 AI는 새로운 가능성을 끊임없이 열고 있습니다. 하지만 이 거대한 AI 물결 속에서 "AI가 도대체 무슨 말을 하는 걸까?", "어떻게 이렇게 똑똑해진 거지?", "ChatGPT 같은 서비스는 어떻게 만들어지는 걸까?"와 같은 근본적인 질문들을 던지는 분들이 많습니다. 이 질문들의 답은 바로 AI를 구성하고 발전시키는 핵심 개념들에 숨어 있습니다.

이 글은 AI의 가장 기본적인 단위인 '토큰(Token)'부터 시작하여, AI의 지능을 평가하는 고전적인 기준인 '튜링 테스트(Turing Test)', 현대 AI의 성능을 비약적으로 향상시킨 '트랜스포머(Transformer) 아키텍처', 그리고 오늘날 AI 산업을 이끄는 거대한 기반 모델인 '파운데이션 모델(Foundation Model)'에 이르기까지, AI의 핵심 개념과 진화 과정을 한눈에 조망합니다. 또한, AI 모델의 두 가지 큰 축인 '판별형 AI'와 '생성형 AI'를 비교하며 AI가 우리 주변에서 어떻게 활용되는지 명확히 보여드릴 것입니다.

AI에 대한 기본적인 궁금증을 가진 일반 독자분들은 물론, AI 및 개발 분야에 대한 깊이 있는 이해를 원하는 초중급 개발자나 기획자분들께 이 글이 AI의 본질을 이해하고 다가올 미래를 예측하는 데 훌륭한 나침반이 될 것입니다. 함께 AI의 신비로운 세계로 떠나봅시다!

1. AI 언어 이해의 첫걸음: '토큰'이란 무엇인가?

인공지능, 특히 자연어 처리(NLP) 분야의 AI가 우리와 같은 언어를 이해하고 생성하려면, 먼저 텍스트 데이터를 자신이 처리할 수 있는 형태로 변환해야 합니다. 이때 가장 기본적인 단위가 바로 '토큰(Token)'입니다. 토큰은 텍스트를 구성하는 단어, 구, 심지어는 글자 하나하나가 될 수도 있는, AI가 정보를 인식하고 처리하는 최소 단위입니다. 인간이 문장을 읽을 때 단어 하나하나의 의미를 파악하는 것과 유사하게, AI는 텍스트를 토큰으로 분리한 다음 각 토큰에 담긴 의미와 문맥을 이해하기 시작합니다.

토큰화(Tokenization)는 AI 모델이 텍스트를 입력받기 전에 수행하는 첫 번째이자 가장 중요한 전처리 과정 중 하나입니다. 예를 들어, "AI는 정말 놀랍다!"라는 문장이 있다면, 이를 토큰화할 때 "AI", "는", "정말", "놀랍다", "!"와 같이 각 단어와 문장 부호로 나눌 수 있습니다. 이때 각 분리된 조각이 하나의 토큰이 됩니다. 이 과정은 단순히 띄어쓰기 단위로 나누는 것을 넘어, 언어의 특성과 AI 모델의 필요에 따라 다양한 방식으로 이루어집니다.

다양한 토큰화 방식과 특징

토큰화 방식은 크게 몇 가지로 나눌 수 있으며, 각 방식은 장단점을 가집니다.

단어 기반 토큰화 (Word Tokenization):
- 설명: 가장 직관적인 방법으로, 띄어쓰기나 구두점 등을 기준으로 단어를 분리합니다.
- 예시: "Hello, world!"는 "Hello", ",", "world", "!"로 분리됩니다.
- 장단점: 간단하지만, 신조어나 복합어, 형태가 변화하는 단어(예: run, running, ran)를 처리하기 어렵습니다.
문자 기반 토큰화 (Character Tokenization):
- 설명: 텍스트를 개별 문자로 분리하는 방식입니다.
- 예시: "apple"은 'a', 'p', 'p', 'l', 'e'로 나뉩니다.
- 장단점: 모든 단어를 표현할 수 있지만, 문맥 정보가 많이 손실되고 시퀀스 길이가 매우 길어져 모델 학습에 비효율적입니다.
부분 단어 토큰화 (Subword Tokenization):
- 설명: 현대 대규모 언어 모델(LLM)에서 가장 널리 사용되는 방식입니다. 이 방법은 단어를 더 작은 의미 단위인 '부분 단어(subword)'로 쪼갭니다.
- 대표 알고리즘: BPE(Byte Pair Encoding), WordPiece, SentencePiece 등이 있습니다.
  - BPE: 자주 등장하는 문자 쌍을 하나의 단위로 병합하여 사전을 구축합니다. 예를 들어, "lower", "lowest"라는 단어가 있다면 'low'와 'er', 'est'로 분리될 수 있습니다.
  - WordPiece: 구글에서 개발한 방식으로, BERT 모델에 사용되었습니다. BPE와 유사하게 빈도수를 기반으로 단어를 분리합니다.
  - SentencePiece: 구글에서 개발한 토크나이저로, 텍스트를 공백 문자를 포함한 원시 문자열로 간주하여 토큰화를 수행합니다. 다국어 처리나 공백이 없는 언어(예: 일본어, 중국어) 처리에도 유용합니다.
- 부분 단어 토큰화의 장점:
  - OOV(Out-Of-Vocabulary) 문제 해결: 새로운 단어나 오타가 발생해도 이를 부분 단어들의 조합으로 표현할 수 있습니다.
  - 어휘 크기 최적화: 너무 큰 어휘 사전을 만들지 않으면서도, 효율적으로 단어의 의미를 포착할 수 있습니다.
  - 유연성: 다양한 언어와 텍스트 스타일에 유연하게 대응할 수 있습니다.

파이썬을 이용한 토큰화 예시

transformers 라이브러리의 AutoTokenizer를 사용해 실제 LLM에서 사용되는 토큰화 방식을 체험해볼 수 있습니다.

from transformers import AutoTokenizer

# 사용할 모델의 토크나이저를 로드합니다. (BERT 모델 예시)
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

text = "AI is revolutionizing the world with its amazing capabilities."

print(f"원본 텍스트: {text}\n")

# 텍스트를 토큰화합니다.
tokens = tokenizer.tokenize(text)
print(f"토큰 목록: {tokens}")
print(f"토큰 개수: {len(tokens)}\n")

# 토큰을 모델이 이해할 수 있는 숫자 ID로 변환합니다.
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print(f"토큰 ID 목록: {token_ids}\n")

# 토큰 ID를 다시 텍스트로 디코딩합니다.
decoded_text = tokenizer.decode(token_ids)
print(f"디코딩된 텍스트: {decoded_text}")

print("\n--- 부분 단어 토큰화의 특징 ---")
text_oov = "I love 대한민국 and pizza." 
tokens_oov = tokenizer.tokenize(text_oov)
print(f"OOV가 포함된 텍스트 토큰화: {tokens_oov}")
# '대한민국'은 영어 토크나이저 어휘에 없으므로 유니코드 값 등으로 쪼개질 수 있습니다.
# (실제 한국어 처리는 다국어 모델이나 한국어 전용 모델을 사용합니다.)

# 다른 예시: 비슷한 단어의 부분 단어 분리
text_subword = "running and runner"
tokens_subword = tokenizer.tokenize(text_subword)
print(f"부분 단어 분리 예시: {tokens_subword}")
# 'running'과 'runner'가 'run'이라는 공통된 부분 단어로 시작하는 것을 볼 수 있습니다.

코드 설명:
위 코드는 BERT 모델의 토크나이저를 로드하여 문장을 부분 단어 토큰으로 분리합니다. 각 토큰 앞의 ## 표시는 해당 토큰이 단어의 시작 부분이 아님을 나타냅니다. convert_tokens_to_ids()는 토큰들을 AI 모델이 처리할 수 있는 고유한 숫자 ID로 매핑하며, decode() 함수는 숫자 ID를 다시 사람이 읽을 수 있는 텍스트로 변환하여 토큰화 과정이 가역적임을 보여줍니다.

이처럼 토큰은 AI가 언어의 미묘한 차이를 이해하고, 복잡한 문맥 속에서 의미를 추출해내는 첫 단추이자 가장 핵심적인 요소입니다. 토큰화 방식의 발전은 AI가 언어를 다루는 능력, 즉 자연어 이해(NLU)와 자연어 생성(NLG) 능력을 비약적으로 향상시키는 데 결정적인 역할을 했습니다.

2. AI 지능의 시험대: 튜링 테스트의 의미와 한계

인공지능의 발전과 함께 "과연 기계가 생각할 수 있을까?", "AI는 인간처럼 지능을 가질 수 있을까?"라는 질문은 끊임없이 제기되어 왔습니다. 이 질문에 대한 고전적인 답변 중 하나가 바로 영국의 수학자 앨런 튜링(Alan Turing)이 1950년에 제안한 튜링 테스트(Turing Test)입니다. 튜링 테스트는 기계가 인간과 구별할 수 없을 정도로 지능적인 행동을 보일 수 있는지를 평가하는 기준으로, AI의 '지능'을 논할 때 빠지지 않는 중요한 이정표입니다.

튜링 테스트의 역사와 목적

앨런 튜링은 그의 논문 「Computing Machinery and Intelligence」에서 '모방 게임(Imitation Game)'이라는 이름으로 이 테스트를 제안했습니다. 이 테스트의 기본 아이디어는 매우 간단하면서도 심오합니다.

참가자: 한 명의 심사관(인간), 한 명의 인간 참가자, 그리고 한 대의 컴퓨터(AI)가 있습니다.
환경: 심사관은 인간 참가자와 컴퓨터를 직접 보거나 들을 수 없으며, 오직 텍스트 기반의 대화(당시에는 전신 타자기)를 통해서만 소통합니다.
목표: 심사관은 대화를 통해 어떤 쪽이 인간이고 어떤 쪽이 컴퓨터인지 구분해야 합니다.
판정: 만약 컴퓨터가 심사관을 속여 자신이 인간이라고 믿게 할 수 있다면, 그 컴퓨터는 '지능이 있다'고 간주될 수 있다는 것이 튜링의 주장입니다.

튜링 테스트의 목적은 컴퓨터가 "생각할 수 있는가?"라는 모호한 질문 대신, "컴퓨터가 인간의 행동을 얼마나 성공적으로 모방할 수 있는가?"라는 구체적이고 실험 가능한 질문으로 바꾸는 데 있었습니다. 이는 AI의 지능을 평가하는 데 있어 행동주의적 관점을 제시한 것으로, 내부 작동 방식보다는 외부로 드러나는 행동에 초점을 맞춥니다.

현대 AI 시대에서의 재해석과 한계

튜링 테스트는 AI 연구에 지대한 영향을 미쳤지만, 현대 AI의 발전과 함께 그 의미와 한계에 대한 논의도 활발하게 이루어지고 있습니다.

튜링 테스트의 주요 의의:

AI 지능의 초기 기준 제시: AI가 인간과 유사한 대화 능력을 가질 수 있다는 가능성을 제시하며 초기 AI 연구자들에게 명확한 목표를 제공했습니다.
행동주의적 관점 확립: AI의 내부 인지 과정보다 외부에서 관찰 가능한 행동에 초점을 맞춰, AI의 실용적 가치를 평가하는 데 기여했습니다.
지속적인 영감의 원천: 오늘날 대화형 AI(챗봇, 가상 비서) 개발에 지속적인 영감을 주고 있으며, AI의 자연스러운 상호작용 능력 향상에 기여하고 있습니다.

튜링 테스트의 명확한 한계:

'진정한' 지능의 부족: 튜링 테스트를 통과한다고 해서 AI가 '진정으로 이해'하거나 '의식'을 가졌다고 볼 수는 없습니다. AI는 단순히 잘 프로그래밍된 응답 패턴을 사용하여 인간을 속일 수 있을 뿐이며, 그 기저에는 의미에 대한 깊은 이해가 없을 수도 있습니다. 이를 '중국어 방(Chinese Room)' 논변과 같은 철학적 비판이 대표적으로 지적합니다.
좁은 범위의 평가: 테스트는 주로 언어적 지능에 국한됩니다. 시각, 청각, 운동 능력 등 다양한 형태의 지능이나 세상에 대한 상식적 지식은 평가하기 어렵습니다.
속임수와 피상성: AI가 테스트를 통과하기 위해 인간의 단점(예: 오타, 농담)을 흉내 내거나, 모호한 답변을 하는 등의 '속임수' 전략을 사용할 수 있습니다. 이는 AI의 진정한 지능을 보여주기보다는, 인간의 기대치를 조작하는 것에 가까울 수 있습니다.

오늘날 AI의 진정한 지능을 평가하는 새로운 관점

ChatGPT와 같은 대규모 언어 모델(LLM)의 등장으로 AI는 튜링 테스트에서 요구하는 수준 이상의 대화 능력을 보여주고 있습니다. 하지만 여전히 "이 모델이 정말로 이해하고 있는가?"라는 질문은 남아 있습니다. 이러한 한계 때문에 현대 AI 연구에서는 튜링 테스트를 넘어선 다양한 평가 방법들이 모색되고 있습니다.

상식 추론(Commonsense Reasoning): AI가 세상에 대한 기본적인 상식을 이해하고 추론할 수 있는지 평가합니다.
다중 모달리티 이해(Multi-modal Understanding): 텍스트뿐만 아니라 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 통합적으로 이해하고 처리하는 능력을 평가합니다.
설명 가능성(Explainability, XAI): AI가 특정 결정을 내린 이유를 인간이 이해할 수 있는 방식으로 설명할 수 있는지를 평가합니다.
지속적 학습(Continual Learning): AI가 새로운 정보를 학습하면서도 기존 지식을 잊지 않고 유지하는 능력을 평가합니다.
창의성 및 문제 해결 능력: 단순히 주어진 데이터를 모방하는 것을 넘어, 새로운 아이디어를 생성하거나 미지의 문제를 해결하는 능력을 평가합니다.

튜링 테스트는 AI 지능에 대한 중요한 첫 발걸음이었지만, AI가 단순한 모방을 넘어 진정한 '지능'을 향해 나아가려면 더 포괄적이고 심층적인 평가 기준이 필요합니다. 오늘날의 AI는 이미 과거의 튜링 테스트를 훨씬 뛰어넘는 성능을 보여주고 있지만, AI의 '의식'이나 '사고'에 대한 근본적인 질문은 여전히 철학과 과학의 영역에서 활발히 논의되고 있습니다.

3. 현대 AI 혁신의 심장: 트랜스포머 아키텍처 이해하기

ChatGPT와 같은 대규모 언어 모델(LLM)이 경이로운 성능을 보여주며 전 세계를 놀라게 했습니다. 이 혁신의 중심에는 바로 트랜스포머(Transformer) 아키텍처가 있습니다. 트랜스포머는 2017년 Google Brain 팀이 발표한 논문 "Attention Is All You Need"에서 처음 소개되었으며, 기존의 순환 신경망(RNN)이나 장단기 메모리(LSTM) 모델의 한계를 극복하고 자연어 처리(NLP) 분야에 혁명적인 변화를 가져왔습니다.

트랜스포머 등장 배경: 기존 모델의 한계

트랜스포머가 등장하기 전, 자연어 처리 모델은 주로 RNN(Recurrent Neural Network) 계열 모델에 의존했습니다. RNN은 시퀀스 데이터(예: 문장)를 순차적으로 처리하며 이전 단계의 정보를 현재 단계로 전달하는 방식입니다. 하지만 RNN과 그 변형인 LSTM, GRU는 다음과 같은 고질적인 문제점을 안고 있었습니다.

장기 의존성 문제 (Long-Term Dependency Problem): 문장이 길어질수록 초반에 입력된 정보가 후반부에 제대로 전달되지 못하고 희석되는 경향이 있었습니다. 즉, 아주 긴 문장에서 멀리 떨어진 단어 간의 관계를 파악하기 어려웠습니다.
병렬 처리의 어려움: 순차적으로 데이터를 처리해야 하므로, GPU와 같은 병렬 처리 장치의 이점을 제대로 활용하기 어려웠습니다. 이는 대규모 데이터를 빠르게 학습시키는 데 큰 제약이 되었습니다.

이러한 한계는 모델의 성능을 제한했고, 더 크고 복잡한 언어 모델을 만드는 데 걸림돌이 되었습니다.

트랜스포머의 핵심: '어텐션 메커니즘'

트랜스포머는 RNN의 순차적 처리 방식을 완전히 버리고, 오직 '어텐션(Attention) 메커니즘'만을 사용하여 시퀀스 데이터를 처리합니다. 어텐션 메커니즘은 문장 내의 모든 단어들이 서로에게 얼마나 중요한 영향을 미치는지(즉, 얼마나 '집중'해야 하는지)를 파악하고, 그 중요도에 따라 정보를 조합하여 다음 단계로 전달하는 방식입니다.

비유하자면, 도서관에서 어떤 주제에 대한 보고서를 작성한다고 해봅시다.

기존 RNN 방식: 앞에서부터 책 한 권씩 순서대로 읽어나가며 중요한 내용을 메모합니다. 너무 많은 책을 읽으면 초반에 읽었던 책의 내용이 흐릿해질 수 있습니다.
트랜스포머 & 어텐션 방식: 보고서의 한 단락을 쓸 때마다, 도서관의 모든 책들을 동시에 스캔하며 현재 단락에 가장 필요한 정보가 담긴 책들을 집중적으로 참조합니다. 특정 단어가 현재 작성 중인 문맥에 얼마나 중요한지 실시간으로 판단하고, 그 중요도에 따라 정보를 가져오는 것과 같습니다. 이 방식은 순서에 구애받지 않고 필요한 정보를 즉각적으로 '주의 깊게' 살펴보는 것입니다.

트랜스포머의 작동 원리 (개념적 이해)

트랜스포머는 크게 인코더(Encoder)와 디코더(Decoder)라는 두 개의 블록으로 구성됩니다.

인코더: 입력 문장을 받아서 문장 내의 각 단어와 단어 간의 관계를 이해하고, 이를 풍부한 정보(컨텍스트 벡터)로 변환합니다.
디코더: 인코더가 생성한 정보와 자신이 지금까지 생성한 단어들을 바탕으로 다음 단어를 예측하여 출력 문장을 생성합니다.

이 두 블록 모두 핵심적으로 셀프-어텐션(Self-Attention) 메커니즘을 사용합니다. 셀프-어텐션은 단어 하나하나가 문장 내의 다른 모든 단어들과의 관계를 계산하여, 어떤 단어가 현재 단어의 의미를 해석하는 데 더 중요한지 판단합니다. 예를 들어, "The animal didn't cross the street because it was too tired." 라는 문장에서 'it'이 무엇을 가리키는지 판단할 때, 셀프-어텐션은 'animal'과 'tired'에 더 높은 가중치를 부여하여 'it'이 'animal'을 의미함을 추론합니다.

# 간단한 어텐션 메커니즘의 개념적 코드 (실제 트랜스포머 아키텍처는 훨씬 복잡합니다)
import torch
import torch.nn.functional as F

def conceptual_attention(query, key, value):
    """
    쿼리, 키, 값 벡터를 이용한 개념적인 어텐션 계산
    query: (batch_size, query_len, d_k)
    key:   (batch_size, key_len, d_k)
    value: (batch_size, key_len, d_v)
    """
    # 1. 쿼리와 키의 내적을 계산하여 유사도(어텐션 스코어)를 구합니다.
    scores = torch.matmul(query, key.transpose(-2, -1)) # (batch, Q_len, K_len)

    # 2. 스코어를 정규화합니다 (스케일링).
    d_k = query.size(-1)
    scores = scores / (d_k ** 0.5)

    # 3. 소프트맥스 함수를 적용하여 어텐션 가중치(확률 분포)를 얻습니다.
    attention_weights = F.softmax(scores, dim=-1)

    # 4. 어텐션 가중치와 값 벡터를 곱하여 가중치 합을 구합니다.
    output = torch.matmul(attention_weights, value)

    return output, attention_weights

# 예시 데이터 생성 (배치 크기 1, 쿼리 길이 3, 키/값 길이 5, 벡터 차원 4)
batch_size, query_len, key_len, d_model = 1, 3, 5, 4
query = torch.randn(batch_size, query_len, d_model) # 현재 단어의 정보
key = torch.randn(batch_size, key_len, d_model)     # 문장 내 모든 단어의 정보 (쿼리와 같은 맥락)
value = torch.randn(batch_size, key_len, d_model)   # 문장 내 모든 단어의 값 (쿼리와 같은 맥락)

print("--- 개념적 어텐션 메커니즘 시뮬레이션 ---")
print(f"쿼리 입력: \n{query.round(2)}\n")
print(f"키 입력: \n{key.round(2)}\n")
print(f"값 입력: \n{value.round(2)}\n")

output, attention_weights = conceptual_attention(query, key, value)

print(f"어텐션 가중치 (각 쿼리가 키들에 얼마나 '집중'했는지): \n{attention_weights.round(2)}\n")
print(f"어텐션 가중치 적용된 출력: \n{output.round(2)}")

# 결과 해석: attention_weights는 query_len x key_len 행렬로, 각 쿼리(현재 단어)가 각 키(문장 내 다른 단어)에
# 얼마나 큰 가중치를 두었는지 보여줍니다. 이 가중치를 이용해 value 벡터를 가중합하여 최종 출력을 만듭니다.

코드 설명:
위 코드는 어텐션 메커니즘의 핵심 아이디어를 보여주는 개념적인 구현입니다. query, key, value라는 세 가지 벡터를 사용하여 어텐션 스코어(유사도)를 계산하고, 이를 소프트맥스 함수로 정규화하여 어텐션 가중치를 얻습니다. 이 가중치를 value 벡터에 곱하여 가중합을 수행함으로써, 입력 시퀀스 내의 어떤 요소에 집중해야 하는지에 대한 정보를 얻어 최종 출력을 만들어냅니다. 실제 트랜스포머는 이를 여러 번 반복하는 멀티헤드 어텐션(Multi-Head Attention)과 피드포워드 신경망, 잔차 연결(Residual Connection), 정규화(Normalization) 등 훨씬 복잡한 구조를 가집니다.

트랜스포머의 혁신적인 영향

트랜스포머 아키텍처는 AI 발전에 다음과 같은 혁신적인 기여를 했습니다.

병렬 처리 가능: 어텐션 메커니즘은 모든 단어 쌍 간의 관계를 동시에 계산할 수 있어, GPU를 활용한 대규모 병렬 학습이 가능해졌습니다. 이는 모델 크기 확장과 학습 시간 단축에 결정적인 역할을 했습니다.
장기 의존성 문제 해결: 순차적인 정보 전달의 한계를 뛰어넘어, 문장 내에서 멀리 떨어진 단어 간의 관계도 효율적으로 포착할 수 있게 되었습니다.
높은 성능: 번역, 요약, 질의응답 등 다양한 NLP 태스크에서 기존 모델들을 뛰어넘는 압도적인 성능을 보여주었습니다.
모델 확장성: 트랜스포머의 구조적 유연성은 GPT, BERT와 같은 초대규모 언어 모델(LLM)의 개발을 가능하게 했으며, 이들 모델은 오늘날 AI 혁신의 핵심 동력이 되고 있습니다.

결론적으로 트랜스포머는 AI가 언어를 이해하고 생성하는 방식을 근본적으로 바꾸어 놓은 혁신적인 아키텍처입니다. 그 중심에는 문장 내의 중요한 정보에 '집중'하는 어텐션 메커니즘이 있으며, 이는 AI가 복잡한 언어 데이터를 효과적으로 처리하고 인간과 같은 대화를 가능하게 하는 데 필수적인 요소가 되었습니다.

4. AI 혁신의 주역: 파운데이션 모델이란 무엇인가?

최근 AI 분야에서 가장 뜨거운 키워드 중 하나는 바로 파운데이션 모델(Foundation Model)입니다. ChatGPT, DALL-E, 구글의 Gemini와 같은 최신 AI 모델들은 모두 이 파운데이션 모델의 범주에 속합니다. 파운데이션 모델은 마치 건물의 '기초(Foundation)'처럼, 방대한 양의 데이터로 사전 학습되어 다양한 하위 작업에 전이 학습(Transfer Learning)될 수 있는 거대한 AI 모델을 의미합니다. 스탠퍼드 대학교 HAI(Human-Centered Artificial Intelligence) 연구소에서 2021년에 처음 제시한 개념으로, AI 기술 발전의 새로운 패러다임을 제시했습니다.

파운데이션 모델의 개념과 중요성

파운데이션 모델의 핵심은 두 가지 특징입니다.

대규모 사전 학습(Pre-training on Massive Data):
- 인터넷에서 구할 수 있는 거의 모든 텍스트, 이미지, 오디오 등 방대한 양의 비정형 데이터(레이블이 없는 데이터)로 미리 학습됩니다.
- 이 과정에서 모델은 언어의 문법, 세상의 지식, 이미지의 특징 등 광범위하고 일반적인 패턴을 스스로 학습합니다.
전이 학습 및 적응성(Transfer Learning & Adaptability):
- 사전 학습을 통해 얻은 일반적인 지식과 능력은 특정 목적의 하위 작업(Downstream Task)에 쉽게 전이될 수 있습니다.
- 즉, 적은 양의 특정 데이터만으로도 모델을 미세 조정(Fine-tuning)하여, 번역, 요약, 이미지 분류, 코드 생성 등 다양한 작업에서 높은 성능을 발휘할 수 있습니다.

이러한 특성 덕분에 파운데이션 모델은 다음과 같은 중요한 의미를 가집니다.

효율성 증대: 각 작업마다 처음부터 모델을 학습시킬 필요 없이, 이미 학습된 파운데이션 모델을 가져와 재활용하고 미세 조정만 하면 되므로 개발 시간과 비용을 크게 절감할 수 있습니다.
성능 향상: 대규모 사전 학습을 통해 축적된 방대한 지식은 특정 작업에만 특화된 모델보다 훨씬 강력하고 일반화된 성능을 제공합니다.
새로운 기능 확장: 단순한 예측을 넘어, 대화, 창작, 복잡한 추론 등 이전에 볼 수 없었던 고차원적인 AI 기능을 가능하게 합니다.
AI 개발의 민주화: 소수의 대규모 연구 기관이나 기업만이 파운데이션 모델을 만들 수 있지만, 일단 만들어진 모델은 다양한 개발자들이 활용하여 혁신적인 애플리케이션을 만들 수 있도록 합니다.

대표적인 파운데이션 모델 예시

파운데이션 모델의 시대를 연 대표적인 예시들은 다음과 같습니다.

BERT (Bidirectional Encoder Representations from Transformers):
- 구글이 2018년 공개한 모델로, 양방향(Bidirectional)으로 문맥을 이해하는 트랜스포머의 인코더를 기반으로 합니다.
- 문장 중간의 단어를 마스킹하고 예측하는 방식으로 학습하여 단어의 양쪽 문맥을 모두 고려해 의미를 파악합니다. 이는 자연어 이해(NLU) 분야에 큰 발전을 가져왔습니다.
GPT (Generative Pre-trained Transformer) 시리즈:
- OpenAI가 개발한 모델로, 트랜스포머의 디코더 부분을 사용하여 텍스트 생성에 특화되어 있습니다.
- GPT-1 (2018): 트랜스포머를 이용한 사전 학습 모델의 가능성을 보여주었습니다.
- GPT-2 (2019): 훨씬 더 많은 데이터를 학습하여 놀랍도록 자연스러운 텍스트 생성 능력을 보여주었습니다.
- GPT-3 (2020): 1,750억 개의 매개변수를 가진 초거대 모델로, few-shot 학습(아주 적은 예시만으로도 새로운 작업을 수행) 능력을 보여주며 파운데이션 모델의 잠재력을 전 세계에 각인시켰습니다.
- GPT-4 (2023): 이미지와 텍스트를 모두 이해하는 멀티모달 능력을 갖추고, 더 복잡한 추론과 창의적인 작업을 수행하며 ChatGPT의 기반이 되었습니다.

이 외에도 이미지 생성 모델인 DALL-E, Stable Diffusion, 비디오 생성 모델 등 다양한 모달리티(Modality)를 다루는 파운데이션 모델들이 활발히 개발되고 있습니다.

AI 산업 및 연구에 미치는 영향

파운데이션 모델은 AI 산업과 연구에 다음과 같은 지대한 영향을 미치고 있습니다.

새로운 애플리케이션 창출: 챗봇, 자동 번역, 콘텐츠 생성, 코드 작성 보조, 이미지 편집 등 상상 이상의 새로운 AI 서비스와 제품들이 등장하고 있습니다.
연구 패러다임 변화: 이전에는 각 태스크별로 모델을 설계하고 학습하는 방식이었다면, 이제는 거대한 파운데이션 모델을 구축하고 이를 특정 태스크에 맞게 '활용'하거나 '미세 조정'하는 방식으로 연구가 전환되고 있습니다.
윤리적 및 사회적 책임: 파운데이션 모델의 강력한 능력은 편향된 데이터 학습으로 인한 차별, 잘못된 정보 생성, 오용 등의 심각한 윤리적, 사회적 문제를 야기할 수 있습니다. 이에 대한 연구와 규제가 필수적으로 동반되어야 합니다.
자원 집중 현상: 파운데이션 모델을 학습시키기 위해서는 막대한 컴퓨팅 자원(수천 개의 GPU, 수백억 원의 비용)이 필요하므로, 소수의 거대 기업에 AI 기술력이 집중될 수 있다는 우려도 제기됩니다.

파운데이션 모델은 AI 기술이 가진 잠재력을 극대화하고, 다양한 분야에서 혁신을 가속화하는 핵심 동력으로 자리 잡았습니다. 앞으로도 이들 모델은 계속해서 진화하며 우리의 삶과 산업 전반에 막대한 영향을 미칠 것입니다.

5. AI 모델의 두 가지 축: 판별형 AI와 생성형 AI (핵심 비교)

인공지능 모델은 다양한 기준에 따라 분류될 수 있지만, 그중에서도 가장 중요하고 직관적인 분류는 바로 수행하는 작업의 성격에 따른 분류입니다. 우리는 AI 모델을 크게 판별형 AI(Discriminative AI)와 생성형 AI(Generative AI)의 두 가지 축으로 나눌 수 있습니다. 이 두 가지 유형의 AI는 작동 방식과 목적이 명확히 다르며, 우리 주변의 다양한 AI 서비스에 각각의 형태로 적용되고 있습니다.

판별형 AI: 분류와 예측에 집중

판별형 AI는 주로 입력 데이터가 어떤 종류(클래스)에 속하는지 분류(Classification)하거나, 특정 값을 예측(Prediction)하는 데 중점을 둡니다. 즉, 주어진 데이터와 레이블(정답) 간의 경계를 학습하여 새로운 데이터가 들어왔을 때 해당 경계를 기준으로 어떤 레이블에 속할지 '판별'하는 역할을 합니다. "이것은 무엇인가?" 또는 "이것의 값은 얼마인가?"라는 질문에 답하는 것이 목표입니다.

판별형 AI의 주요 특징:

목표: 데이터 분류, 회귀(값 예측).
작동 방식: 입력 데이터 X가 주어졌을 때, 해당 데이터가 특정 레이블 Y에 속할 확률 P(Y|X)를 직접 모델링합니다. 즉, X가 주어졌을 때 Y가 나타날 조건부 확률을 학습합니다.
활용 예시:
- 스팸 메일 필터링: 이 메일이 스팸인지 아닌지 분류합니다.
- 이미지 인식: 이 이미지가 고양이인지 개인지 판별합니다.
- 질병 진단: 환자의 증상 데이터를 보고 특정 질병이 있는지 없는지 예측합니다.
- 신용 평가: 고객의 금융 데이터를 기반으로 대출 상환 능력을 예측합니다.
- 추천 시스템: 사용자의 과거 행동을 바탕으로 좋아할 만한 상품을 예측하여 추천합니다.

판별형 AI의 간단한 예시 코드: 붓꽃 품종 분류

아래 코드는 로지스틱 회귀(Logistic Regression)를 사용하여 붓꽃(Iris)의 꽃잎 길이와 너비를 바탕으로 품종을 분류하는 판별형 AI의 예시입니다.

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import pandas as pd

# 붓꽃 데이터셋 로드
iris = load_iris()
X = pd.DataFrame(iris.data, columns=iris.feature_names)
y = iris.target

# 꽃잎 길이와 너비만 사용
X = X[['petal length (cm)', 'petal width (cm)']]

# 데이터를 학습 세트와 테스트 세트로 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 로지스틱 회귀 모델 초기화 및 학습
model = LogisticRegression(max_iter=200, random_state=42)
model.fit(X_train, y_train)

# 테스트 세트에 대한 예측 및 정확도 평가
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"모델 정확도: {accuracy:.2f}\n")

print("--- 새로운 데이터 예측 ---")
# 새로운 붓꽃 데이터 (꽃잎 길이 5.1cm, 꽃잎 너비 1.8cm)
new_iris = pd.DataFrame([[5.1, 1.8]], columns=['petal length (cm)', 'petal width (cm)'])
predicted_class = model.predict(new_iris)

# 붓꽃 품종: 0: setosa, 1: versicolor, 2: virginica
iris_names = iris.target_names
print(f"새로운 붓꽃 예측 품종 ID: {predicted_class[0]}")
print(f"새로운 붓꽃 예측 품종: {iris_names[predicted_class[0]]}")

코드 설명:
이 코드는 붓꽃의 특징을 입력으로 받아 세 가지 붓꽃 품종 중 하나로 분류하는 판별형 모델을 학습시킵니다. model.fit() 단계에서 모델은 특징과 품종 간의 관계를 학습하고, model.predict()를 통해 새로운 붓꽃 데이터가 주어졌을 때 어떤 품종에 속할지 '판별'합니다.

생성형 AI: 새로운 콘텐츠 창조

생성형 AI(Generative AI)는 기존 데이터셋을 학습하여 그 패턴과 구조를 이해하고, 이를 바탕으로 세상에 없었던 새로운 데이터를 생성(Generation)하는 데 중점을 둡니다. "이러한 패턴을 가진 새로운 것을 만들어라"라는 질문에 답하는 것이 목표입니다. 최근 몇 년간 가장 폭발적인 발전을 이룬 분야이며, 인간의 창의성 영역에 도전하고 있습니다.

생성형 AI의 주요 특징:

목표: 새로운 데이터, 콘텐츠 생성 (텍스트, 이미지, 오디오, 비디오, 코드 등).
작동 방식: 학습 데이터의 분포 P(X)를 모델링하거나, 조건부 생성 P(X|Y)를 통해 Y라는 조건하에 X를 생성합니다. 즉, 데이터의 본질적인 특성을 이해하고 이를 모방하여 유사하지만 새로운 데이터를 만들어냅니다.
활용 예시:
- 텍스트 생성: 에세이, 소설, 시, 보고서, 이메일, 코드, 대화 등을 작성합니다 (예: ChatGPT).
- 이미지 생성: 텍스트 설명이나 스케치에 따라 사실적인 이미지나 예술 작품을 만듭니다 (예: DALL-E, Midjourney, Stable Diffusion).
- 음악 작곡: 특정 스타일이나 감정에 맞춰 새로운 음악을 생성합니다.
- 비디오 생성: 짧은 클립이나 설명을 바탕으로 새로운 비디오 콘텐츠를 만듭니다.
- 데이터 증강: 기존 데이터셋의 부족한 부분을 채우기 위해 유사한 가상 데이터를 생성합니다.

생성형 AI의 개념적 예시 코드: 간단한 텍스트 생성 (GPT-2 기반)

실제 대규모 언어 모델은 매우 복잡하므로, 여기서는 transformers 라이브러리를 사용하여 사전 학습된 생성형 모델(GPT-2)로 텍스트를 생성하는 개념적인 예시를 보여드립니다.

from transformers import pipeline

# 'text-generation' 파이프라인을 사용하여 GPT-2 모델 로드
generator = pipeline('text-generation', model='gpt2')

print("--- 생성형 AI 텍스트 생성 예시 ---")

# 프롬프트 제공
prompt = "The future of AI is bright because"
generated_text = generator(prompt, max_length=50, num_return_sequences=1, truncation=True)

print(f"프롬프트: '{prompt}'")
print(f"생성된 텍스트: '{generated_text[0]['generated_text']}'\n")

# 다른 프롬프트로 생성
prompt_creative = "Write a short poem about a lonely robot"
generated_poem = generator(prompt_creative, max_length=100, num_return_sequences=1, truncation=True)

print(f"프롬프트: '{prompt_creative}'")
print(f"생성된 시: '{generated_poem[0]['generated_text']}'")

코드 설명:
이 코드는 Hugging Face의 transformers 라이브러리를 사용하여 사전 학습된 gpt2 모델을 로드합니다. generator 객체에 프롬프트를 전달하면, GPT-2는 해당 프롬프트에 이어질 자연스러운 텍스트를 '생성'합니다. 이는 생성형 AI가 학습된 패턴을 바탕으로 새로운 콘텐츠를 만들어내는 방식을 명확하게 보여줍니다.

판별형 AI vs. 생성형 AI: 핵심 차이점 요약

특징	판별형 AI (Discriminative AI)	생성형 AI (Generative AI)
목표	분류, 예측 (무엇인지 '판별')	새로운 데이터 생성 (새로운 것을 '창조')
학습 방식	입력 `X`가 주어졌을 때 레이블 `Y`의 조건부 확률 `P(Y	X)` 학습
주요 질문	"이것은 고양이인가?", "내일 주가는 얼마인가?"	"고양이 그림을 그려줘", "이 주제로 글을 써줘"
대표 모델	로지스틱 회귀, SVM, CNN (분류), Random Forest	GAN, VAE, GPT 시리즈, LLM, Diffusion Model
주요 활용	스팸 분류, 이미지 인식, 질병 진단, 추천	텍스트 생성, 이미지 생성, 음악 작곡, 코드 작성

두 가지 유형의 AI는 AI 기술의 양대 산맥을 이루며, 각각의 장점을 살려 다양한 문제 해결에 기여하고 있습니다. 최근의 대규모 언어 모델들은 주로 생성형 AI의 범주에 속하지만, 특정 질문에 답하거나 정보를 분류하는 능력 또한 탁월하여 판별형 AI의 역할까지 수행하는 경우가 많아지고 있습니다. 이는 AI 기술이 더욱 고도화되고 융합되는 추세를 보여줍니다.

6. AI 시대의 나침반: 핵심 개념으로 미래를 읽다

지금까지 우리는 AI의 가장 근본적인 단위인 '토큰'부터 시작하여, AI의 지능을 시험하는 '튜링 테스트', 현대 AI 혁신의 주역인 '트랜스포머 아키텍처', 그리고 AI 산업을 이끄는 '파운데이션 모델', 나아가 AI 모델의 두 가지 큰 축인 '판별형 AI'와 '생성형 AI'에 이르기까지 AI의 핵심 개념들을 심층적으로 살펴보았습니다. 이 개념들이 어떻게 서로 유기적으로 연결되어 현대 AI 기술 발전에 기여하고 있는지 총체적으로 정리하며 앞으로의 AI 기술 발전 방향성에 대한 통찰을 제공해 드리겠습니다.

AI 핵심 개념들의 유기적 연결고리

우리가 살펴본 각 개념들은 서로 독립적으로 존재하는 것이 아니라, 마치 정교하게 짜인 기계의 부품처럼 맞물려 작동하며 현재의 AI 시대를 만들어냈습니다.

언어의 최소 단위, 토큰: AI가 텍스트를 이해하고 처리하는 첫 번째 단계는 언어를 토큰이라는 최소 단위로 분해하는 것입니다. 이 토큰들은 모든 AI 언어 모델의 기본적인 입력값이 됩니다.
혁신적 처리 엔진, 트랜스포머 아키텍처: 토큰화된 데이터를 효율적으로 처리하고, 문장 내의 복잡한 문맥 관계를 파악하는 데 트랜스포머 아키텍처가 혁신적인 역할을 했습니다. 특히 어텐션 메커니즘은 AI가 단순히 단어를 나열하는 것을 넘어, 각 토큰 간의 의미론적 중요도를 깊이 이해하도록 돕습니다. 병렬 처리 능력은 대규모 학습을 가능하게 한 결정적인 요인이었습니다.
AI의 거대한 지식 기반, 파운데이션 모델: 파운데이션 모델은 트랜스포머 아키텍처를 기반으로 탄생했습니다. 방대한 양의 토큰화된 데이터를 트랜스포머 구조로 사전 학습함으로써, 파운데이션 모델은 광범위한 지식과 일반화된 이해 능력을 갖추게 됩니다. 이는 특정 작업에 국한되지 않고 다양한 용도로 활용될 수 있는 강력한 '기반 모델'이 됩니다.
두 가지 활용 목표, 판별형 & 생성형 AI: 파운데이션 모델은 그 자체로 혹은 미세 조정을 통해 판별형 AI와 생성형 AI의 역할을 모두 수행할 수 있습니다. 예를 들어, 특정 텍스트가 긍정적인지 부정적인지 '판별'하거나(판별형), 주어진 프롬프트에 따라 새로운 스토리나 코드를 '생성'할 수 있습니다(생성형). 최근의 대규모 언어 모델들은 이 두 가지 역할을 유연하게 수행하며 그 능력을 더욱 확장하고 있습니다.
지능의 궁극적 질문, 튜링 테스트: 이 모든 기술 발전의 궁극적인 지향점 중 하나이자, AI의 '지능'을 논하는 중요한 화두가 바로 튜링 테스트입니다. 토큰, 트랜스포머, 파운데이션 모델의 발전은 AI가 인간과의 대화에서 튜링 테스트를 통과할 수 있는 수준에 거의 도달하게 했지만, 여전히 AI의 진정한 이해와 의식에 대한 철학적인 질문을 던지고 있습니다.

이처럼 AI의 핵심 개념들은 서로 영향을 주고받으며 진화의 궤적을 그려왔습니다. 토큰이라는 작은 점에서 시작된 언어의 조각들이 트랜스포머라는 강력한 구조를 만나 파운데이션 모델이라는 거대한 지식의 보고를 형성하고, 이는 다시 판별과 생성이라는 두 가지 형태로 우리의 삶에 깊숙이 파고드는 과정입니다.

앞으로의 AI 기술 발전 방향성에 대한 통찰

이러한 이해를 바탕으로, 우리는 AI 기술의 미래를 다음과 같이 조망해볼 수 있습니다.

멀티모달 AI의 확장: 텍스트, 이미지 등 단일 모달리티에 강점을 보이는 현재 모델을 넘어, 텍스트, 이미지, 오디오, 비디오, 3D 데이터 등 다양한 모달리티를 동시에 이해하고 생성하는 멀티모달(Multimodal) AI의 발전이 가속화될 것입니다.
소형화 및 효율화: 초거대 파운데이션 모델의 막대한 컴퓨팅 자원 요구를 줄이기 위해, 더 적은 자원으로도 높은 성능을 발휘하는 경량화된 모델이나 특정 목적에 최적화된 전문 모델 개발이 중요해질 것입니다.
지속적 학습과 적응: AI가 한 번 학습하고 끝나는 것이 아니라, 새로운 정보가 들어올 때마다 스스로 학습하고 지식을 업데이트하며 환경에 지속적으로 적응하는 평생 학습(Lifelong Learning) 능력이 강화될 것입니다.
신뢰성, 설명 가능성, 윤리성 강화: AI의 사회적 영향력이 커질수록, 그 결정에 대한 신뢰성 확보와 설명 가능한 AI(XAI) 기술의 중요성이 더욱 부각될 것입니다. AI로 인한 편향, 차별, 오남용 등의 윤리적 문제를 해결하기 위한 연구와 사회적 합의도 활발히 이루어질 것입니다.
인간-AI 협업의 심화: AI는 인간의 일자리를 대체하기보다는, 인간의 능력을 보완하고 확장하는 강력한 도구로서 자리매김할 것입니다. 창의적인 작업, 문제 해결, 의사 결정 등 다양한 분야에서 인간과 AI가 더욱 긴밀하게 협력하는 시대가 도래할 것입니다.

AI는 이제 단순한 기술을 넘어 우리의 삶과 사회, 경제 전반을 재편하는 거대한 흐름이 되었습니다. 이 글을 통해 AI의 핵심 개념들을 이해하고, 그 연결고리를 파악함으로써 다가올 AI 시대를 더욱 명확하게 이해하고, 주체적으로 미래를 설계하는 데 도움이 되기를 바랍니다. AI의 무궁무진한 잠재력을 탐험하는 여정은 이제 막 시작되었습니다. 우리 모두가 이 흥미진진한 여정의 일부가 되기를 기대합니다!

'DEV' 카테고리의 다른 글

AWS 클라우드 완전 정복: 초보자를 위한 핵심 서비스와 필수 용어 가이드 (0)	2026.01.27
AI 모델의 숨겨진 난제와 해결 전략: 실용적인 AI 시스템 구축 가이드 (0)	2026.01.26
AI의 현재와 미래: 팹리스부터 피지컬 AI까지 핵심 개념 파헤치기 (1)	2026.01.26
AI 시대를 이끌 핵심 트렌드 5가지: 가속기부터 레드티밍까지 (0)	2026.01.26
AI 시대 핵심 기술과 윤리: FinFET, CNN, 합성데이터부터 AI 환각, 가드레일까지 완벽 이해 (0)	2026.01.26

공유하기 링크

페이스북
카카오스토리
트위터

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

Binary Brew

티스토리 뷰