Machine Learning
-
[논문 리뷰] Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language UnderstandingMachine Learning/Multimodal Learning 2022. 5. 25. 00:02
최근 구글에서 발표한 Text-to-Image diffusion model 입니다. (최근 diffusion model의 강세가 주목할 만합니다) OpenAI에서 공개한 DALL-E 2와 같이 텍스트를 기반으로 사실적인 이미지를 생성해내는 모델로, "Unprecedented photorealism × Deep level of language understanding" 라는 슬로건으로 전례없이 사실적인 이미지를 생성하며, 언어에 대한 깊은 이해가 가능함을 강조했습니다. 예시를 통해 Imagen의 생성 능력을 살펴보고, 논문을 통해 어떻게 이런 능력을 가질 수 있는지 알아보겠습니다. [ paper | blog ] Abstract Imagen은 두 개의 강력한 모델로 이루어져 있습니다. 바로 뛰어난 언어 이해..
-
[코드 분석] GLIDE 코랩 데모 : Text-guided Image Editing(feat. in-painting)Machine Learning/Multimodal Learning 2022. 5. 24. 02:38
지난 포스트에서 DALL-E 2의 디코더로 사용된 GLIDE에 대해 알아보았습니다. Diffusion models을 Text-to-Image에 적용했으며, 그 결과 텍스트를 잘 반영하는 사실적인 이미지를 생성했습니다. 추가로 텍스트를 기반으로 이미지의 부분적인 영역을 편집하는 기능을 소개했습니다. 이번 포스트에서는 해당 기능에 대한 예제 코드를 분석하며 코랩을 이용한 데모도 소개하겠습니다. [ paper | code ] Recap 저자들은 GLIDE 모델의 악용(DeepFake 등)을 막기 위해 필터링된 데이터로 학습한 작은 모델을 공개했습니다. 논문의 이미지를 생성한 original 모델은 3.5B(35억) 파라미터를 가지고 있지만 GLIDE (filtered) 모델은 385M(약 4억) 파라미터를 가..
-
[논문 리뷰] GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion ModelsMachine Learning/Multimodal Learning 2022. 5. 17. 04:07
DALL-E 2의 기본 구조가 되었던 GLIDE 논문을 리뷰합니다. OpenAI에서 발표한 Text-to-Image 모델이며, 기존 GAN이 주축이던 Text-to-Image domain에 DIffusion model을 도입해 사실적인 이미지를 생성했습니다. 또한 in-painting을 활용한 이미지 editing으로 복잡하고 긴 텍스트도 이미지에 반영할 수 있는 방법을 제안합니다. GLIDE의 경우 코드와 작은 사이즈의 모델 파라미터도 공개되어 있어, 코랩을 활용한 데모도 소개하겠습니다.(다음 포스트에서) [ paper | code ] GLIDE의 Text-conditional image inpainting 예시. (Guided Language to Image Diffusion for Generatio..
-
[CS231n] 9. Convolutional Neural Networks: Layer Patterns, Case studiesMachine Learning/CS231n 2022. 5. 13. 22:11
ConvNet Architectures We have seen that Convolutional Networks are commonly made up of only three layer types: CONV, POOL and FC. We will also explicitly write the ReLU activation function as a layer, which applies elementwise non-linearity. Layer Patterns The most common form of a ConvNet architecture stacks a few CONV-ReLU layers, follows them with POOL layers, and repeats this pattern until t..
-
[CS231n] 8. Convolutional Neural Networks: Architectures, Pooling LayersMachine Learning/CS231n 2022. 5. 12. 11:52
layers, spatial arrangement, layer patterns, layer sizing patterns, AlexNet/ZFnet/VGGNet case studies, computational considerations Convolutional Neural Networks (CNNs / ConvNets) CNNs are very similar to ordinary NN. → made up of neurons that have learnable weights and biases. Each neuron receives some inputs, performs a dot product and optionally follows it with a non-linearity. still have sco..
-
[논문 리뷰] DALL-E 2 : Hierarchical Text-Conditional Image Generation with CLIP LatentsMachine Learning/Multimodal Learning 2022. 5. 8. 00:36
최근 OpenAI에서 발표한 Text-to-Image 모델 DALL-E 2의 논문을 리뷰합니다. 작년에 발표한 DALL-E 1 보다 더 사실적이면서, 캡션을 잘 반영하는 고해상도(4x) 이미지를 생성해 많은 관심을 받았습니다. 리뷰에서는 논문의 다양한 이미지 생성 예시와, 제안한 모델의 구조적 특징 및 관련 연구들을 소개합니다. 추가로, 서비스에서 활용 가능한 이미지 조작(image manipulation)에 대해서도 자세히 다루겠습니다. [ Blog / Paper / Instagram ] Abstract CLIP과 같은 contrastive model들은 이미지의 robust 한 representation(semantic, style 등)을 잘 학습합니다. 저자들은 이 representation을 '이..