Machine Learning/Multimodal Learning
-
[Gemini 설명] A Family of Highly Capable Multimodal Models, Technical Report 리뷰Machine Learning/Multimodal Learning 2023. 12. 7. 04:34
Google DeepMind에서 공개한 멀티모달 모델 Gemini의 Technical Report를 간단히 정리합니다. Gemini에 대해 설명하기에 앞서, 아래 영상을 아직 못 보신 분들은 꼭 한 번 시청하시기 바랍니다. Abstract 이 기술 보고서는 이미지, 오디오, 비디오, 텍스트 전반에 걸쳐 뛰어난 이해 능력을 보여주는 새로운 멀티모달 모델인 Gemini 를 소개합니다. Gemini 시리즈는 울트라(Ultra), 프로(Pro), 나노(Nano) 사이즈로 구성되어 있으며, 복잡한 추론 작업부터 기기 내 메모리 제약이 있는 use-case에 이르기까지 다양한 응용 분야에 적합합니다. 가장 능력이 뛰어난 Gemini Ultra 모델은 32개 벤치마크 평가 중 30개에서 기존 SOTA를 뛰어넘었으며,..
-
[논문 리뷰] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning)Machine Learning/Multimodal Learning 2023. 5. 7. 00:54
최근 ChatGPT, LLaMA와 같은 거대 언어 모델(LLM, Large Lanuage Models)이 많은 주목을 받고 있습니다. 하지만, 실제 세계는 언어뿐만 아니라 시각적인 요소를 포함한 복합적인 정보(멀티모달)들로 이루어져 있습니다. 이전에도 Flamingo, BLIP-2 등 시각 정보를 인식해 관련 질문에 답을 하고 채팅을 이어가는 멀티모달 연구들이 있었는데요. 해당 연구들은 학습 시 데이터셋의 형식이 단순한 image-text pair(이미지와 이를 설명하는 텍스트)로 이루어져 있었습니다. 하지만, 이번에 소개할 LLaVA는 이미지를 포함한 지시문 데이터 형식인 visual instruction-following data를 새롭게 제안합니다. 또한, 학습된 LLM인 Vicuna 모델로 파라미..
-
[논문 리뷰] Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language UnderstandingMachine Learning/Multimodal Learning 2022. 5. 25. 00:02
최근 구글에서 발표한 Text-to-Image diffusion model 입니다. (최근 diffusion model의 강세가 주목할 만합니다) OpenAI에서 공개한 DALL-E 2와 같이 텍스트를 기반으로 사실적인 이미지를 생성해내는 모델로, "Unprecedented photorealism × Deep level of language understanding" 라는 슬로건으로 전례없이 사실적인 이미지를 생성하며, 언어에 대한 깊은 이해가 가능함을 강조했습니다. 예시를 통해 Imagen의 생성 능력을 살펴보고, 논문을 통해 어떻게 이런 능력을 가질 수 있는지 알아보겠습니다. [ paper | blog ] Abstract Imagen은 두 개의 강력한 모델로 이루어져 있습니다. 바로 뛰어난 언어 이해..
-
[코드 분석] GLIDE 코랩 데모 : Text-guided Image Editing(feat. in-painting)Machine Learning/Multimodal Learning 2022. 5. 24. 02:38
지난 포스트에서 DALL-E 2의 디코더로 사용된 GLIDE에 대해 알아보았습니다. Diffusion models을 Text-to-Image에 적용했으며, 그 결과 텍스트를 잘 반영하는 사실적인 이미지를 생성했습니다. 추가로 텍스트를 기반으로 이미지의 부분적인 영역을 편집하는 기능을 소개했습니다. 이번 포스트에서는 해당 기능에 대한 예제 코드를 분석하며 코랩을 이용한 데모도 소개하겠습니다. [ paper | code ] Recap 저자들은 GLIDE 모델의 악용(DeepFake 등)을 막기 위해 필터링된 데이터로 학습한 작은 모델을 공개했습니다. 논문의 이미지를 생성한 original 모델은 3.5B(35억) 파라미터를 가지고 있지만 GLIDE (filtered) 모델은 385M(약 4억) 파라미터를 가..
-
[논문 리뷰] GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion ModelsMachine Learning/Multimodal Learning 2022. 5. 17. 04:07
DALL-E 2의 기본 구조가 되었던 GLIDE 논문을 리뷰합니다. OpenAI에서 발표한 Text-to-Image 모델이며, 기존 GAN이 주축이던 Text-to-Image domain에 DIffusion model을 도입해 사실적인 이미지를 생성했습니다. 또한 in-painting을 활용한 이미지 editing으로 복잡하고 긴 텍스트도 이미지에 반영할 수 있는 방법을 제안합니다. GLIDE의 경우 코드와 작은 사이즈의 모델 파라미터도 공개되어 있어, 코랩을 활용한 데모도 소개하겠습니다.(다음 포스트에서) [ paper | code ] GLIDE의 Text-conditional image inpainting 예시. (Guided Language to Image Diffusion for Generatio..
-
[논문 리뷰] DALL-E 2 : Hierarchical Text-Conditional Image Generation with CLIP LatentsMachine Learning/Multimodal Learning 2022. 5. 8. 00:36
최근 OpenAI에서 발표한 Text-to-Image 모델 DALL-E 2의 논문을 리뷰합니다. 작년에 발표한 DALL-E 1 보다 더 사실적이면서, 캡션을 잘 반영하는 고해상도(4x) 이미지를 생성해 많은 관심을 받았습니다. 리뷰에서는 논문의 다양한 이미지 생성 예시와, 제안한 모델의 구조적 특징 및 관련 연구들을 소개합니다. 추가로, 서비스에서 활용 가능한 이미지 조작(image manipulation)에 대해서도 자세히 다루겠습니다. [ Blog / Paper / Instagram ] Abstract CLIP과 같은 contrastive model들은 이미지의 robust 한 representation(semantic, style 등)을 잘 학습합니다. 저자들은 이 representation을 '이..