생성형 AI는 거대한 데이터를 기반으로 새로운 데이터 혹은 콘텐츠를 생성하는 혁신적인 기술입니다. 인공지능 기술을 빌려 음악, 예술, 텍스트, 이미지 등 다양한 분야의 콘텐츠를 자동으로 생성하여 인간의 창의적 활동에 도움을 줄 수 있는 기술입니다.
생성형 AI 기술 종류
다양한 분야에서 활용이 가능한 만큼 적용하는 기술의 종류는 다양합니다. 다만 대표적으로 활용도가 높은 기술은 5개 정도로 구분됩니다.
- VAE(Variational Autoencoder, 변환 자동 인코더) 기술
- GAN(Generative Adversarial Network생성적 대립 네트워크)
- VAE-GAN(변환 자동 인코더-생성적 적대 네트워크)
- DM(Diffusion Model)확산 모델
- Transformer

VAE(Variational Autoencoder, 변환 자동 인코더) 모델
VAE는 데이터를 압축하고 다시 원래 형태로 풀어서 변환하는 인공지능 모델입니다. 쉽게 생각하면 이미지를 압축했다가 다시 펼치는 것으로 생각하면 이해가 쉬울 수 있습니다.
예를 들어서 VAE를 이용하여 기존 풍경 사진을 새로운 사진으로 생성하는 과정은 아래와 같은 단계를 거친다고 생각할 수 있습니다.
- 풍경 사진을 VAE 모델에 입력합니다.
- 고유의 VAE 모델로부터 사진의 중요한 특징(색, 물체, 구도 등)들이 추출되어 압축 코드로 변환됩니다.
- 압축된 코드를 다시 VAE 모델에 입력하면 그 코드 기반으로 새로운 풍경 사진이 생성됩니다.
- 이런 과정을 거치면 원본 사진과 유사한 새로운 콘텐츠 사진이 형성됩니다.
이런 변환 과정을 거쳐서 콘텐츠를 생성할 수 있는 VAE의 장점은 대상에 이상한 점을 탐지한다거나, 이미지, 음악 등을 변환하여 새로운 콘텐츠를 생성함으로써 인간의 창의적인 작업에 도움을 줄 수 있습니다.
활용 예시
얼굴 합성 : 기존 얼굴 이미지에 VAE를 활용하여 얼굴의 특정 부분을 변형시키거나 새로운 얼굴 이미지를 만들 수 있습니다.
그림 스타일 변환 : 풍경 사진에 특정 화가의 화풍을 적용하여 새로운 그림을 만들 수 있습니다.
음악 스타일 변환 : 발라드 스타일에 음악을 클래식 스타일에 음악으로 새롭게 만들 수 있습니다.
음악 편곡 : 음악 파일을 VAE 모델에 입력하여 특정 악기로 편곡하거나 새로운 음악을 만들 수 있습니다.
긴 문서 요약 : SNS의 단톡 메시지 요약 기능을 이 VAE 기술로 활용하고 있습니다. 즉 불필요한 단어를 제거하고 요약 문장으로 변환함으로써 VAE 기술이 사용될 수 있습니다.
텍스트 창작 : 이야기의 서론을 VAE 모델에 입력하면 창의적인 이야기를 완성할 수 있습니다.
의료 영상 이상 탐지 : 질병이 있는 영상과 질병이 없는 영상을 패턴을 분석해서 조기에 질병을 진단할 수 있습니다.
금융 사기 거래 탐지 : 비정상적인 거래 패턴을 파악하고 사기 유형을 감지함으로써 사전에 예방할 수 있습니다.
이외에도 다른 딥러닝 모델이 있는데, Seq2Seq, Transformer, Bart 모델도 활용할 수 있습니다.
GAN(Generative Adversarial Network, 생성적 대립 네트워크) 모델
생성모드와 판별모드로 구성된 2개의 인공 신경망이 생성모드에서 만든 새로운 콘텐츠를 판별모드가 판별하는 과정을 반복하면서 정확도가 높은 콘텐츠를 만들 수 있습니다.
예를 들어서 새로운 얼굴 사진을 만드는 과정은 아래와 같은 단계를 거칩니다.
- 생성모드는 판별모드를 속이기 위해서 실제 얼굴 이미지를 보고 새로운 얼굴 이미지를 생성합니다.
- 판별모드에서 생성 모드가 만든 이미지를 실제 얼굴 이미지와 비교해서 진짜인지 가짜인지 판별합니다.
- 이때 판별모드가 가짜로 판단하면 다시 생성모드는 속이기 위해서 새롭게 얼굴 이미지를 다시 만듭니다.
- 새롭게 만든 얼굴이미지를 다시 판별모드가 판단을 하게 되는데 가짜라고 판별하면 다시 생성모드가 작동됩니다.
결국 생성모드 > 판별모드 > 생성모드 > 판별모드가 지속적으로 경쟁하면서 새로운 이미지의 정확도를 올리는 작업을 하게 되며 실제로 정확도가 높은 이미지가 생성됩니다.
이러한 과정을 지속적으로 반복하면 생성모드는 점점 실제 얼굴 사진과 유사한 사진을 만들 수 있게 됩니다.
활용 예시
텍스트 생성 : 뉴스 기사, 소설 등
음악 : 노래, 배경 음악, 편곡 등
영상 : 영화 애니메이션, 콘텐츠 생성 등
VAE-GAN(변환 자동 인코더-생성적 적대 네트워크) 모델
이미 앞서 언급한 내용처럼 VAE와 GAN을 결합한 모델 형태입니다. VAE의 데이터를 만드는 추출 능력과 GAN의 사실적 생성 능력을 결합하여 더욱 진화된 형태의 모델을 제공할 수 있습니다.
예를 들면 새로운 얼굴 사진을 만드는 과정은 VAE와 GAN이 결합한 형태의 단계를 거칩니다.
- VAE 모델이 작동되어 얼굴 사진을 학습하고 부족한 데이터는 생성하여 사진 이미지를 추출합니다.
- 생성모드는 VAE모델 데이터를 받아 새로운 얼굴 사진을 생성합니다.
- 이후 판별모델이 작동하여 실제인지 가짜인지 판별해서 가짜로 결정하고 생성모드가 그 데이터를 받아 다시 새로운 얼굴 사진을 만듧니다.
- 생성과 판별 모드를 계속 반복해서 정확도가 높은 이미지를 만들어 냅니다.
활용 예시
컴퓨터 비전 : 이미지 생성, 이미지 복원, 객체 인식 등
자연어 처리 : 텍스트 생성, 요약, 번역 등
음악 : 작곡, 편곡, 새로운 음악 생성 등
DM(Diffusion Model) 확산 모델
확산 모델은 데이터를 노이즈로 변환시켜 역방향으로 학습하여 새로운 데이터를 생성하는 모델입니다. 즉, 퍼즐을 하나씩 맞춰가는 것처럼, 노이즈부터 시작해서 점차적으로 데이터를 추가하여 실제 데이터와 유사한 새로운 데이터를 만들 수 있습니다.
예를 들면, 새로운 얼굴 사진을 만드는 과정은 아래와 같은 단계를 거칩니다.
- 실제 얼굴 사진에 점차적으로 노이즈를 추가하여 다양한 노이즈 이미지를 만듭니다.
- 이때 확산모델은 노이즈 이미지와 원본 이미지를 교차하여 노이즈 이미지를 원본사진으로 복원하도록 학습을 시킵니다.
- 이전 과정에서 추출된 정보를 토대로 다시 추출하여 원본 사진을 복원하도록 다시 학습을 시킵니다.
- 이 과정을 반복하면서 데이터의 정확도를 높일 수 있게 됩니다.
활용 예시
컴퓨터 비전 : 이미지 생성, 이미지 복원, 객체 인식 등
자연어 처리 : 텍스트 생성, 요약, 번역 등
음악 : 작곡, 편곡, 새로운 음악 생성 등
Transformer 모델
트랜스포머 모델은 어텐션 메커니즘이란 기술을 사용하여 텍스트, 영상, 음성 등의 순서 정보를 효과적으로 처리할 수 있는 모델입니다.
즉, 각 단어와 출력에 영향도를 스코어를 적용하여 계산을 하며, 스코어에 대한 분포도에 따라 가중치를 줌으로써 각 단어들의 중요한 부분에 더욱 집중하여 정확하고 효율적인 처리를 할 수 있게 작동됩니다.
예를 들면, 영어에서 한국어로 번역을 했을 때 나타나는 과정은 아래 단계를 거칩니다.
- 영어, 한국어의 병렬 텍스트 데이터를 학습 데이터로 사용합니다.
- 영어 문장이 입력되었기 때문에 각 단어의 스코어를 추출하고, 반대편에서는 한국어 문장을 출력으로 생성해서 서로 비교하며 각 단어를 예측하고 학습하는 과정을 반복합니다.
- 따라서 정확도가 높은 결과값을 얻을 수 있습니다.
트랜스포머 모델은 많은 데이터가 준비되어야만 모델 학습의 정확도를 높일 수 있습니다. 결국 많은 양의 데이터를 처리해야 하기 때문에 RNN 모델보다 느릴 수 있으며, 복잡한 모델이기 때문에 모델 해석에 어려움이 있습니다.
활용 예시
자연어 처리 : 번역, 텍스트 요약, 질의응답 등
컴퓨터 비전 : 이미지 생성, 객체 인식, 영상 분류 등
음성 인식 : 음성 합성, 인식, 음성 번역 등
이외에 다양한 분야에서 활용
- 가상현실 콘텐츠 제작 및 게임 개발 등
- 이미지, 음악 제작 및 영상 편집, 특수효과 생성 등
- 그래픽 디자인 자동화, 새로운 제품, 건축 디자인 등
- 포스터, 웹디자인 로고 생성 등의 자동화