728x90
OpenAI
-
[논문 리뷰] DALL-E 2 : Hierarchical Text-Conditional Image Generation with CLIP LatentsMachine Learning/Multimodal Learning 2022. 5. 8. 00:36
최근 OpenAI에서 발표한 Text-to-Image 모델 DALL-E 2의 논문을 리뷰합니다. 작년에 발표한 DALL-E 1 보다 더 사실적이면서, 캡션을 잘 반영하는 고해상도(4x) 이미지를 생성해 많은 관심을 받았습니다. 리뷰에서는 논문의 다양한 이미지 생성 예시와, 제안한 모델의 구조적 특징 및 관련 연구들을 소개합니다. 추가로, 서비스에서 활용 가능한 이미지 조작(image manipulation)에 대해서도 자세히 다루겠습니다. [ Blog / Paper / Instagram ] Abstract CLIP과 같은 contrastive model들은 이미지의 robust 한 representation(semantic, style 등)을 잘 학습합니다. 저자들은 이 representation을 '이..