생성형 AI는 인공지능의 한 분야로 새로운 데이터를 생성하는데 특화된 AI 기술입니다. 축적된 대량의 데이터를 기반으로 학습하여 콘텐츠나 예술 작품, 새로운 아이디어 등을 만들어 내는 기술입니다.
생성형 AI의 기본 원리
앞서 언급한 것처럼, 기존 데이터의 패턴을 반복적으로 학습하여 새로운 데이터를 생성하는 원리를 가지고 있습니다. 마치 화가가 기존에 그림들을 관찰하고, 학습해서 새로운 그림을 그리는 것과 유사한 과정입니다.

이러한 과정을 컴퓨터 시스템에 녹이기 위해서는 인공 신경망 모델이 필요합니다. 즉, 생성형 AI를 작동시키기 위해서 아래와 같은 모델이 개발되고 있습니다.
- GAN(Generative Adversarial Network) 모델
- VAE(Variational Autoencoder) 모델
- 트랜스포머(Transformer) 모델
1. GAN(Generative Adversarial Network) 모델
기존 인공 신경망 모델로 해결하기 어려웠던 문제들을 해결할 수 있는 모델입니다. 즉, GAN은 두 개의 인공 신경망으로 구성되어 있으며, 그 구성은 생성모델과 판별모델이며 작동원리는 아래와 같이 구현됩니다.
- 생성모델 : 판별모델을 속이면서 새로운 데이터를 만들어 내고, 학습을 합니다.
- 판별모델 : 생성모델이 만든 데이터를 판별, 학습을 합니다.
결과론적으로 두 개의 인공신경망인 생성모델과 판별모델을 반복적으로 경쟁시키기 때문에 정확도가 높은 데이터를 결과물로 제시하는 능력을 가지고 있는 기술입니다.
GAN을 활용할 수 있는 구체적인 분야는 아래와 같습니다.
- 이미지 생성 : 실제 이미지와 가짜 이미지를 생성할 수 있습니다.
- 텍스트 생성 : 챗봇, 콘텐츠 제작, 번역 등에서 활용될 수 있습니다.
- 데이터 증강 : 부족한 데이터를 보완하기 위해 새로운 데이터를 만들 수 있으며, 이는 의료 분야, 과학 분야, 산업 데이터 등 필요한 분야에서 활용할 수 있습니다.
2. VAE(Variational Autoencoder) 모델
VAE 모델 또한 생성형 인공 신경망 중에 하나이며, 기존 데이터를 잠재 공간으로 변환하고, 그 잠재 공간에서 새로운 데이터를 생성하는 모델입니다. 좀더 쉽게 작동 원리를 설명하면 아래와 같이 구분할 수 있습니다.
VAE의 작동원리
1단계, 데이터 수집, 후처리
영상, 이미지, 텍스트 등 생성하고자 하는 데이터를 수집하고 수집된 데이터를 모델 학습에 관여하도록 후처리를 합니다.
2단계, 모델학습
VAE는 GAN과 동일하게 2개의 인공 신경망으로 구성되어 있으며, 그 구성은 엔코더(Encoder) 모드와 디코더(Decoder) 모드입니다.
간략하게 설명하면, 두 모델을 서로 경쟁시켜 학습시켜 새로운 데이터를 얻는 방식입니다.
- 엔코더 모드 : 데이터를 잠재 공간으로 변환시키는 역할입니다.
- 디코더 모드 : 잠재 공간에 있는 데이터를 기반으로 새로운 데이터를 생성하는 역할입니다.
3단계, 경쟁과 학습을 통한 데이터 생성
엔코더 모드에서 데이터를 변환시키면 디코더는 그 데이터를 받아서 새로운 데이터를 생성합니다. 이후 엔코더가 다시 그 데이터를 받아서 변환시키고 디코더가 다시 새로운 데이터를 생성하는 반복학습으로 정확도가 높은 결과물을 제공합니다.
VAE의 기술적 장단점
장점 | 단점 |
효율적인 학습 (데이터가 상대적으로 적어도 가능함) | 모델 학습이 어려움 (데이터 추정 방식이기 때문에 모델 정확도가 높아야함) |
잠재 공간 활용 (새로운 데이터를 활용 가능) | 모델 크기가 커질 수 있음 |
이미지, 텍스트, 음성 등 활용성이 다양함 | 크기가 커짐에 따라 학습 시간이 오래 걸릴 수 있음 |
부족한 데이터를 보안할 때 데이터 생성 가능 | 모델이 불완전할 경우 결과물 정확도가 낮음 따라서, 모델 안정성도 낮을 수 있음 |
이렇게 데이터 변형, 생성, 잠재 공간 활용 등의 특징을 갖는 VAE의 활용분야는 데이터 증강, 예술 작품, 새로운 발견을 위한 과학 연구 등에 적합할 수 있습니다.
3. 트렌스포머(Transformer) 모델
2017년 구글에서 발표한 딥러닝 모델이 바로 트렌스포모 모델입니다. 즉, 자연어에 특화된 모델입니다.
기존의 RNN 모델과 달리 순서에 의존하지 않고 문장 단어들을 직접적으로 학습을 하고 병렬로 처리가 가능하기 때문에 효율적인 자연처 처리가 가능하다고 알려져 있습니다.
트랜스포머 모델은 크게 인코더 모드와 디코더 모드로 구성되어 있습니다.
- 인코더 : 입력 문장을 처리하는 부분이며 문장 내 단어 간의 관계를 학습할 수 있습니다.
- 디코더 : 출력 문장을 생성하는 부분이며, 학습된 정보 기반으로 출력 문장을 단어 하나씩 만들 수 있습니다.
이와 같은 구성으로 학습을 하게 되는데 예측된 단어와 실제 단어의 분포를 스코어로 계측하여 손실을 최소화 하는 방향으로 출력물을 제공합니다. 이때 쓰여지는 함수가 교차 엔트로피 손실함수를 사용하여 학습됩니다.
이렇게 생성형 AI의 주요 모델은 크게 3가지로 구분될 수 있으며, 이외에도 CNN, RNN, Reinforcement learning등의 다양한 모델들이 존재합니다.
생성형 AI의 기술적 장단점
생성형 AI는 대부분 머신러닝 기술을 기반으로 작동되기 때문에 기존 데이터의 패턴 학습을 통해 새로운 데이터를 생성하기 때문에 장점과 단점이 분명히 존재합니다.
혁신적인 기술이긴 하지만 최종 데이터 생성값이 원하든 원치 않든 그 결과로 작동이 된다면 장점보다는 단점이 부각될 수 있기 때문에 제어의 완성도가 높아야 합니다.
장점 | 단점 |
새로운 콘텐츠 창출 | 인간의 윤리적인 문제 부각 (딥페이크, 가짜뉴스 등) |
부족한 데이터 문제 해결 가능 | 모델 학습에 대한 많은 시간 필요 |
새로운 아이디어 발굴 (새로운 사고방식의 접근 가능) | 전기 에너지 사용 과다 |
효율, 생산성 향상 (반복 업무 자동화 가능) | 모델의 해석, 제어에 대한 어려움 |
생성형 AI 활용 분야
생성형 AI는 데이터를 기반으로 새로운 데이터 혹은 콘텐츠를 생성하는 인공지능 기술입니다. 따라서, 미디어 영역, 예술 영역, 교육 영역, 의료영역, 과학 영역 등 다양한 분야에서 혁신적으로 활용 가능할 것으로 내다보고 있습니다.
분야 | 적용모델 | 활용사례 | 예시 |
텍스트 생성 | GPT3, LaMDA | 뉴스 기사, 소설, 시 등 | 뉴스 기사 자동 작성 소설 집필 챗봇 대화 코드 자동 생성 |
이미지 생성 | GAN, VAE StyleGAN | 의료 영상 분석, 예술품, 사진편집 | 이미지 합성 이미지 생성 스타일 변환 |
음악 작곡 | MuseNet Jukebox Magenta | 음악 편곡, 작곡 | 음악 자동편곡 음악 제작 |
영상 제작 | GAN, VAE StyleGAN | 특수 효과 영상 제작 영상 편집 | 영상 자동 편집 특수 효과 제작 가상 현실 콘첸츠 제작 |
게임 개발 | GAN, VAE | 캐릭터, 게임 환경 제작 게임 스토리 개발 | 캐릭터, 배경 자동 제작 스토리 자동 제작 |
과학 분야 | GraphGAN MolGAN | 신소재 개발 신약 개발 | 신약 후보 선정 신소재 특성 예측 |
제조 분야 | GAN, VAE | 제품 디자인 제작 공정 최적화 | 공정 자동화 제품 디자인 시장 예측 |
금융 | GAN, VAE | 투자 전략 수립 시장 분석 | 시장 분석 및 예측 투자 전략 자동화 고객 맞춤형 상품 |
교육 | GPT3, Bard | 맞춤형 학습 진행 시험문제 자동 생성 가상 현실 교육 최적화 | 시험 문제 생성, 평가 개인 학습 자료 제작 |
의료 | GAN, VAE | 질병 진단 치료 계획 최적화 | 의료 영상 분석 보조 진단 개인 맞춤형 진단 |
이외에도 생성형 AI는 다양한 분야에서 새로운 모델들이 활발히 개발되고 있기 때문에 더욱 강력한 기술 발전이 있을 것으로 알려져 있습니다.
아직은 생성형 AI 기술이 초기 단계이지만 앞으로 많은 혁신이 다양한 분야에 녹아 내릴 것으로 기대하고 있으며, 그 잠재력은 무긍무진할 것으로 기대하고 있습니다.