본문 바로가기
  • 지식보관소
이슈 정보

생성형 AI (인공지능)의 6가지 종류, 알기 쉽게 총정리

by eunbiryung 2025. 1. 7.
반응형
 생성형 AI(Generative AI)는 데이터를 학습하고 이를 기반으로 새로운 콘텐츠를 창출하는 인공지능 기술입니다. 기존 데이터를 단순히 분석하거나 분류하는 데 그치지 않고, 학습한 정보를 토대로 인간처럼 창의적인 결과물을 생성할 수 있다는 점에서 주목받고 있습니다.

  이러한 기술은 딥러닝(Deep Learning) 알고리즘을 기반으로 하며, 특히 대규모 신경망을 활용하여 텍스트, 이미지, 음성, 코드, 비디오 등 다양한 형식의 콘텐츠를 생성하는 데 적용됩니다.
반응형

아래 그림도 생성형 AI에게 '휴먼 로봇과 인공지능'을 그림으로 생성해달라고 요청한 결과물입니다.
↓  ↓  ↓ 

 

 

생성형 AI의 종류를 더 구체적으로 살펴보겠습니다.

 

1. 텍스트 생성 AI

텍스트 생성 AI는 자연어를 이해하고 생성할 수 있는 모델로, 자연어 처리(NLP) 기술을 기반으로 합니다.

  • GPT 계열: OpenAI에서 개발한 GPT(Generative Pre-trained Transformer) 모델은 대표적인 텍스트 생성 AI입니다. GPT는 방대한 텍스트 데이터를 학습하여 문장 작성, 번역, 요약, 질문 답변, 대화 생성 등 다양한 작업을 수행할 수 있습니다. GPT-4는 이전 버전보다 더 발전된 언어 이해와 생성 능력을 갖추고 있어, 보다 자연스럽고 인간에 가까운 텍스트를 생성합니다.
  • BERT 및 T5: Google의 BERT(Bidirectional Encoder Representations from Transformers)와 T5(Text-to-Text Transfer Transformer) 모델은 텍스트의 이해와 생성에 강점을 가진 모델로, 검색 엔진 최적화, 챗봇, 문서 요약, 질의응답 시스템 등에 활용됩니다.

2. 이미지 생성 AI

이미지 생성 AI는 사용자가 입력한 텍스트 설명이나 다른 이미지 데이터를 기반으로 새로운 이미지를 생성할 수 있는 기술입니다.

  • DALL·E: OpenAI의 DALL·E는 텍스트 설명을 기반으로 독창적인 이미지를 생성하는 모델입니다. 사용자가 "고양이가 우주복을 입고 달 위에 서 있는 모습"과 같은 상상을 입력하면 이를 이미지로 시각화합니다.
  • Stable Diffusion 및 MidJourney: 이러한 모델들은 고해상도의 이미지를 생성하거나 예술적인 스타일을 적용하는 데 사용됩니다. 특히 Stable Diffusion은 오픈소스로 제공되어 다양한 분야에서 활용되고 있습니다.
  • GAN(Generative Adversarial Networks): 생성자와 판별자가 경쟁하며 학습하는 구조로, 사실적인 이미지나 영상을 생성하는 데 탁월합니다. GAN은 사진처럼 보이는 인물의 얼굴, 가상의 풍경 등을 생성하는 데 주로 사용됩니다.

 

다음 그림은 'bing creater'에게 원하는 그림으로 생성해달라고 요청한 결과물입니다.

↓  ↓  ↓ 

3. 음성 생성 AI

음성 생성 AI는 텍스트를 음성으로 변환하거나 특정 화자의 음성을 모방하는 기술입니다.

  • TTS(Text-to-Speech): Google의 WaveNet, Amazon Polly 등은 텍스트를 기반으로 자연스럽고 인간적인 음성을 생성합니다. 이러한 기술은 오디오북, 음성 비서, 내비게이션 시스템 등에 활용됩니다.
  • Deepfake Audio: 특정 화자의 목소리를 모방하거나 새로운 음성을 합성할 수 있습니다. 예를 들어, 유명인의 목소리를 재현하거나 사용자가 원하는 특정 스타일의 목소리를 생성할 수 있습니다.
  • AI 음악 생성: 음성을 포함한 음악을 생성하는 데 사용되며, 사용자의 입력에 따라 독창적인 멜로디와 리듬을 만들어냅니다.

 

2025.1.7 신문기사에 의하면

AI 컴퓨팅 기술 분야의 선두주자인 엔비디아가 텍스트만으로 오디오 출력을 제어할 수 있는 생성형 AI 모델 ‘푸가토(Fugatto, Foundational Generative Audio Transformer Opus 1)’를 개발했다고 밝혔다고 합니다. 
엔비디아 생성형 AI 연구팀이 개발한 푸카토는 노래를 작곡하거나 음성을 수정할 수 있는 일부 AI 모델보다 뛰어난 정교함을 자랑한다고 합니다. 예를 들어, 텍스트 프롬프트에 따라 음악 스니펫(snippet)을 생성하고, 기존 노래에서 악기를 제거하거나 추가하고, 목소리의 억양이나 감정을 바꿀 수 있다고 하지요.

https://bbs.ruliweb.com/news/read/204677  (기사 원문) 

 

그러니 하루가 다르게 생성형 ai가 발전하고 있다는 사실을  누구도 부인할 수가 없습니다.

 

4. 비디오 생성 AI

비디오 생성 AI는 텍스트나 이미지 데이터를 기반으로 새로운 영상을 제작하거나 기존 영상을 편집하는 데 사용됩니다.

  • GAN 기반 기술을 활용하여 고품질의 가상 캐릭터를 만들거나, 움직임을 자연스럽게 합성하는 작업에 활용됩니다.
  • 최근에는 가상 아바타 생성, 애니메이션 제작, 광고 영상 제작 등 다양한 분야에서 활용 가능성이 증가하고 있습니다.

5. 코드 생성 AI

코드 생성 AI는 프로그래밍 작업을 자동화하거나 개발자의 생산성을 높이는 데 도움을 줍니다.

  • Codex: OpenAI의 Codex는 프로그래밍 언어를 이해하고 작성할 수 있는 모델로, GitHub Copilot 같은 도구의 핵심입니다. 사용자는 간단한 설명만 입력해도 AI가 자동으로 적절한 코드를 생성합니다. 이는 특히 반복적인 코딩 작업을 줄이고 개발 속도를 크게 향상시킵니다.
  • 이 외에도 코드 최적화, 오류 수정, 코드 리뷰 자동화 등 다양한 활용 사례가 있습니다.

 

6. 멀티모달 AI

멀티모달 AI는 텍스트, 이미지, 음성, 비디오 등 여러 형태의 데이터를 동시에 처리하고 생성할 수 있는 모델을 의미합니다.

  • OpenAI의 GPT-4는 텍스트와 이미지를 함께 이해하고 생성할 수 있는 능력을 갖추고 있으며, 이는 기존 AI 모델의 한계를 넘어선 기술로 평가받고 있습니다.
  • Google DeepMind의 Gemini는 다양한 입력 데이터를 통합적으로 처리하여 더욱 정교한 결과물을 제공합니다.

 

활용과 전망

생성형 AI는 창의적 작업, 콘텐츠 제작, 교육, 헬스케어, 광고, 엔터테인먼트 등 다양한 산업에서 활용되고 있습니다. 예를 들어, 소설이나 시를 작성하거나, 디자인 시안을 생성하거나, 고객의 요구에 맞춘 음성을 생성하는 등 인간의 창의성을 확장하는 도구로 자리 잡고 있습니다.


또한, 지속적인 기술 발전으로 인해 생성형 AI는 더 정교하고 현실적인 결과물을 생성하고 있으며, 인간과 협업할 수 있는 새로운 방식들을 열어가고 있습니다. 다만, 허위 정보 생성, 저작권 침해, 윤리적 문제와 같은 과제도 존재하기 때문에 이에 대한 신중한 접근과 규제가 필요합니다.

 

반응형