Machine Learning/Multimodal Learning
-
[논문 리뷰] 🦩 Flamingo: a Visual Language Model for Few-Shot Learning - 1. 핵심 특징 및 예제 설명Machine Learning/Multimodal Learning 2022. 5. 4. 03:49
구글 딥마인드에서 발표한 Visual Language Model로, 이미지와 텍스트로 구성된 input을 받아 텍스트 output을 생성합니다. 다양한 Vision-Language task에서 적은 수의 example로 학습해 fine-tuned model의 SotA에 가까운 성능을 보입니다. 정량적인 결과 외에도 흥미로운 예제들이 많기 때문에 이를 천천히 살펴보고, 실제 어떤 서비스에 적용 가능할지 고민해봅니다. 또한 Flamingo가 새롭게 제안한 구조와 method에 대해서도 관련 연구와 함께 살펴봅니다. [ paper | blog ] Abstract 🦩Flamingo : 소수의 예제(few-shot)로 다양한 task를 빠르게 적응 및 수행할 수 있는 Visual Language Model 구조적..
-
Vision-Language datasets (COCO, VG, SBU, CC3m, CC12m) 다운로드Machine Learning/Multimodal Learning 2022. 4. 28. 01:40
DALL·E 2, CLIP 등이 놀라운 결과를 보여주며 Multimodal(특히 Vision-Language) 분야에 대한 관심이 증가하고 있습니다. 주어진 텍스트를 기반으로 이미지를 생성하는 모델, 텍스트와 이미지가 공유하는 representation을 추출하는 모델 등 다양한 가능성을 보여주고 있지만, 대용량 데이터와 large-scale 모델을 사용하는 경우가 많아 리소스가 충분하지 않다면 연구가 힘든 상황입니다. 그럼에도 많은 대학원 연구실이나 스타트업에서 앞으로 멀티모달에 대한 연구 및 사업화를 구상할 것이라고 생각되기에, 비교적 데이터 사이즈는 작지만 딥러닝 학습에 도움이 될만한 양질의 dataset들을 list-up하고 다운로드 방법을 공유합니다. 더보기 최근 멀티모달 도메인에서 좋은 성능을..
-
Verifying Vision-Language Alignment with Cross-Attention Map (feat. DINO)Machine Learning/Multimodal Learning 2022. 4. 28. 01:33
최근 Vision Transformer를 self-supervised로 학습하는 방법들이 활발히 연구되고 있습니다. DINO는 그중 하나로 제안한 방법으로 학습한 모델의 self-attention map을 시각화한 결과, 이미지 속 객체를 뚜렷하게 구분하는 것을 확인했습니다. Semantic segmentation 정보를 주지 않았음에도, 아래와 같이 객체를 잘 구분해 많은 관심을 받았습니다. 저자들은 Vision Transformer의 마지막 layer에서 [CLS] 토큰과 다른 patch들 사이의 self-attention map을 시각화했으며, 특정 객체 위치에 해당하는 patch와 다른 patch들 사이를 시각화했을 때도 관련 있는 부분들의 attention이 높았습니다. 자세한 내용은 Emerg..
-
[코드 분석] ALBEF - Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (NeurIPS 2021, Spotlight)Machine Learning/Multimodal Learning 2022. 4. 21. 19:59
논문 리뷰를 통해 NeurIPS 2021의 spotlight 논문인 ALBEF에 대해 살펴보았습니다. 이번 포스트에서는 ALBEF 코드 중 핵심적인 부분 분석 및 Vision-Language Pretraining(VLP) 학습 경험을 공유하겠습니다. [ Paper / Code ] Outline - ALBEF의 핵심을 담고 있는 ALBEF/models/model_pretrain.py 설명 및 분석 1) Model parameter initialization Image, text, multimodal encoder momentum model 2) Objectives ITC(Image-Text Contrastive learning) ITM(Image-Text Matching) MLM(Masked Languag..
-
[논문 리뷰] ALBEF - Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (NeurIPS 2021, Spotlight)Machine Learning/Multimodal Learning 2022. 4. 20. 21:31
NeurIPS 2021의 spotlight 논문으로, Vision-Language Pre-training(VLP) domain에서 multimodal encoder 앞단에 pre-alignment part를 추가한 새로운 framework를 제안했습니다. 당시 다양한 VL task(IRTR, VQA, NLVR2 등)에서 SOTA를 달성했고, 이후에 CVPR 2022, ICML 2022에서도 ALBEF를 기반으로 한 논문이 많이 제출되었습니다. [ Paper / Code ] BERT, ViT, CLIP, Knowledge distillation(KD), VLP domain에 대한 이해를 전제로 review를 작성했습니다. 1) Abstract & Introduction 최근 다양한 vision-langua..