인공지능의 한 분야로, 컴퓨터 알고리즘이 이미지를 자동으로 생성 또는 수정하는 기술. 주로 생성적 적대 신경망(GAN), 확산 모델(Diffusion Model), 변환기(Transformer) 등의 딥러닝 모델이 사용됨
해당 프로세스에서는 학습용 이미지에 점차적으로 잡음(NOISE)을 추가하여, 점점 아무런 특징이 없는 노이즈로 바꿔 버림.
마치 물컵에 잉크를 한방울 떨어뜨리는 것과 유사하며, 잉크가 컵에 든 물속에서 확산되어 얼마 후면 잉크가 처음에 어디에 떨어졌는지 전혀 알 수 없게 되는 것과 비슷함사전혀 알 수 없게 되는 것과 비슷함전혀 알 수 없게 되는 것과 비슷함사전혀 알 수 없게 되는 것과 비슷함.
![]() | ![]() |
|---|
이러한 확산 과정을 거꾸로 돌리는 방식으로, 실제 물컵에 떨어진 잉크를 다시 되돌릴 수 는 없지만, 컴퓨터 상에서는 가능함.
Ex) 비디오 역재생
해당 프로세스는 ‘노이즈’, 즉 잡음 상태에서 시작해서
이미지를 복구하는 방식임 하지만, 이미지 공간은 매우 고차원이기 때문에 해당 방식을 이미지 공간 내에서 진행하는 것은 굉장히 느리거나, 작동이 어려움.
Ex) 3개의 색채널이 있는 512x512 픽셀 이미지의
경우 5125123 = 786,432 차원 수를 가짐.
![]() | ![]() |
|---|
이러한 문제를 해결g기 위해 LDMs 가 등장했으며, 더 이상 이미지 공간에서 직접 작업을 수행g는 것이 아니라 잠재적인 공간(Latent Space)에서 이미지를 압축한 뒤 연산을 시행한는 방식
-> 잠재 공간은 이미지 공간에 비해 48배나 작아
연산 속도가 훨씬 빠르고 경제적임.
LDMs에 해당g는 대표적인 인공지능 소프트웨어에는미드저니와 스테이블 디퓨전 등이 있으며, 두가지 모두 텍스트를 입력받아 이미지를 생성해주는(Text-to-Image) 모델임. (두 모델 이외에도 여러 소프트웨어가 있음.)


| 연도 | 주요 사건 및 발전 |
|---|---|
| 2014년 | - GAN (Generative Adversarial Network) 등장 (Ian Goodfellow) - 얼굴 합성, 예술적 스타일 변환 등에서 큰 주목을 받음 |
| 2017~2018년 | - Transformer 모델 등장 (Vaswani et al., 2017) - NLP 분야에서 큰 성과를 보이며 텍스트-이미지 생성 모델의 기반 제공 - BigGAN과 StyleGAN의 등장으로 고해상도 이미지와 스타일 조절 가능성 향상 |
| 2020년 | - Diffusion Model 등장 - 점진적으로 노이즈를 제거하여 자연스럽고 고해상도의 이미지를 생성 - Imagen, Stable Diffusion 등 최신 모델들이 이 구조를 기반으로 발전 |
| 2021년 | - LDM (Latent Diffusion Model) 등장 - 연산 비용을 줄이기 위해 잠재 공간에서 노이즈 제거 방식 채택 - OpenAI의 DALL-E 공개, GPT-3 기반 이미지 생성 모델로 대중적 주목 |
| 2022~2023년 | - AI 이미지 생성 기술의 대중화 및 상용화 - Stable Diffusion의 오픈소스 제공으로 누구나 AI 이미지 생성 가능 - MidJourney, DALL-E 2, Stable Diffusion 등의 경쟁으로 산업 전반에 활용 |
| 2024년 | - 주요 AI 이미지 생성 툴: IDEOGRAM, MidJourney 6.1, Stable Diffusion 3.5, Flux, imagefx 등 - 사실적이고 고품질의 이미지 생성, 실제 사진과의 구별 어려움 - 개인화된 콘텐츠 제작, 디지털 아트, 광고, 패션, AI 가상 피팅, 버추얼 휴먼 등 다양한 산업으로의 확대 |
🎯 artificialanalysis.ai
- ELO SCORE (체스 레이팅 방식)기반으로 ai 모델 간 상대적 평가 진행
- 24.11 기준, 상위 AI 모델은 FLUX(pro), Midjourney(6.1v), adeogram(v2) 등이 차지하고 있음
- 사용자. 부터 직접 상대적 비교평가 방식으로. 평가 됨
-> eloscore를 보고 품질, 생성 시간, 제작 비용(클로즈 소스인 경우) 등을 고려하여 결정

: 스테이블 디퓨전의 특징

| 용어 | 설명 | 예시 및 권장사항 |
|---|---|---|
| Checkpoint | 이미지의 전체적인 형태를 결정하는 베이스 모델. 종류에 따라 실사, 3D, 2D 등으로 특화됨. | Ex) majicmix-realistic, DreamShaper. 적용 경로: Stability Matrix > Model Browser |
| VAE | Variational Autoencoder의 약자로, 이미지를 보정하는 기능 제공. | Ex) 실사: vae-ft-mse-840000-ema-pruned.ckpt 3D/2D: kl-f8-anime2.ckpt |
| LoRA | Low-Rank Adaptation의 약어. LDM 모델을 파인튜닝하여 품질 향상. | Ex) AI 버추얼 모델 외형 유지를 위한 LoRA 파일 생성 및 적용 |
| Sampling Method | 이미지 생성 과정에서 알고리즘 선택. 이미지의 질과 다양성 조정. | Sampling Steps: 샘플링 횟수로 권장 수치는 상황에 따라 다름. |
| Hires. Fix | 생성된 이미지를 고해상도로 보정하는 기능. | 권장: 고해상도로 이미지 후보정 작업 필요 시 활성화. |
| Upscaler | 이미지를 업스케일링하는 알고리즘 선택. | Ex) 실사 특화: R-ESRGAN 4x+ 사용. 적용 경로: Stability Matrix > models > Upscaler |
| Denoising Strength | 생성된 이미지에서 원본 이미지 변형 정도를 조절. | 권장 수치: 0.3~0.5 (text-to-image). |
| Batch Count | 프롬프트와 파라미터로 이미지를 몇 번 생성할지 설정. | 권장: 필요한 횟수에 맞춰 설정. |
| Batch Size | 한 번의 작업에서 생성할 이미지 개수. | 권장: 일반적으로 Batch Count 조절 권장. |
| CFG Scale | 입력 프롬프트를 얼마나 따를지 결정하는 수치. | 권장 수치: 7~11 (높을수록 프롬프트 충실). |
| Seed | 이미지 생성의 랜덤성을 제어하는 값. 같은 Seed를 사용하면 동일한 이미지 생성 가능. | 권장: 재현성을 위해 고정값 설정. |
| 설정 단계 | 설명 |
|---|---|
| Quicksettings list 수정 | - 상단 탭 우측 Settings > User Interface 선택. - Quicksettings list에 sd_model_checkpoint, sd_vae, CLIP_stop_at_last_layers 추가. |
| 설정 적용 | - Apply settings 버튼 클릭. - Reload UI 버튼 클릭. |
| 효과 | Checkpoint, VAE, Clip skip 설정을 메인 화면에서 쉽게 조정 가능. |
| 업스케일러 이름 | 설명 | 권장 사용 사례 |
|---|---|---|
| R-ESRGAN 4x | AI 기술이 적용된 업스케일러로, 실사 이미지 업스케일링에 특화. | 실사형 인플루언서 이미지 제작. |
| R-ESRGAN 4x+ Anime6B | AI 기술이 적용된 업스케일러로, 애니메이션 이미지 업스케일링에 특화. | 애니메이션 이미지 제작. |
| 확장 프로그램 이름 | 설명 | 설치 방법 |
|---|---|---|
| ControlNet | 자세 설정, 원근감, 빛 표현 등 수십 가지 커스터마이징 작업을 가능하게 하는 핵심 기능. | Extensions > Install from URL에서 URL: https://github.com/Mikubill/sd-webui-controlnet 입력 후 설치. |
| open pose editor | 피사체의 자세를 탐지하거나 직접 지정하여 원하는 자세를 쉽게 생성 가능. | 동일한 방식으로 설치. URL: 별도 URL 필요 시 제공. |
| Adetailer | After+detailer로 특정 부위(손, 얼굴 등)를 후보정하여 완성도 향상. | Extensions > Install from URL에서 URL: https://github.com/Bing-su/adetailer 입력 후 설치. |
미드저니의 특징
복잡한 설치 과정 없고, 사용방법이 어렵지 않다.
다양한 스타일의 고퀄리티 이미지를 쉽게 생성할 수 있음.
월 구독료를 지불해야하는 유료 S/W.
디스코{ OR 웹에서 즉시 빠른 이미지 생성이 가능함.
커뮤니티 활성도가 높고, 업데이트가 지속적임.
프롬프트 작성 시 지켜야할 미{저니 문법이 존재하며, 프롬프트 당 4장의 기본 이미지가 생성됨.
미드저니 기본 문법을 통해 생성할 이미지의 비율, 형태, 스타일 등을 조정할 수 있으며, 스타일, 구도, 카메라, 조명 등을 표현하는 프롬프트가 추가된다면 더 쉽고 빠르게 원하는 이미지 생성이 가능함.
Chat-gpt 활용하기
미드저니 프롬프트 자동화 생성을 위한 GPTs를 자체 제작도 가능하지만, GPTs를 제작하기 위해서는 유료 구독이 필요하기 때문에, 기존 생성되어있는 미드저니 GPTs를 활용하는 것을 추천.
GPT메인 > GPT탐색 > midjourney 검색
최상단 GPTs 및 채팅 시작
- Ex) 9:16비율로 3d 스타일의 흰색 고양이를 만들기 위한 프롬프트를 작성해줘 → 프롬프트 5개 작성 복잡하고 창의적인 프롬프트 작성 과정을 GPT를 통해 효율적으로 단축시키고 해당 프롬프트를 기반 으로 수정하여 더 고품질의 결과물을 얻는 것이 가능

🚀 추가 - LoRA 모델 사용해보기
- Web UI(Forge) / 난이도 上
- 무료 제작이 가{함.
- 버전 관리 및 기{ 통합 용이
- PC 성{에 영향을 많이 받음- Replicate(api / 유료) / 난이도 下
- 저비용 고품질 결과물 제작 가능
- 버전 관리 및 기{ 통합이 어려움
- PC 성{에 영향을 받지 않음