'분류 전체보기' 카테고리의 글 목록 (10 Page)

[코드 분석] ALBEF - Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (NeurIPS 2021, Spotlight)

Machine Learning/Multimodal Learning 2022. 4. 21. 19:59

논문 리뷰를 통해 NeurIPS 2021의 spotlight 논문인 ALBEF에 대해 살펴보았습니다. 이번 포스트에서는 ALBEF 코드 중 핵심적인 부분 분석 및 Vision-Language Pretraining(VLP) 학습 경험을 공유하겠습니다. [ Paper / Code ] Outline - ALBEF의 핵심을 담고 있는 ALBEF/models/model_pretrain.py 설명 및 분석 1) Model parameter initialization Image, text, multimodal encoder momentum model 2) Objectives ITC(Image-Text Contrastive learning) ITM(Image-Text Matching) MLM(Masked Languag..

화염(incendies) _ Wajdi Mouawad

Personal Story/Book 2022. 4. 20. 22:12

이제 우리가 함께하니, 괜찮아질 거야 p14 어린 시절은 목에 꽂혀 있는 칼이다. 우리는 그걸 쉽게 빼낼 수 없지 p36~38 대양이 내 머릿속에서 폭발해 버린 것 같았어. 화상을 입었다고. 내가 널 생각하는 것처럼 날 생각해 봐, 안갯속에서 길을 잃지 말고. 기억해 둬. 이제 우리가 함께하니, 괜찮아질 거야. p48 거절하기 위해선, 말하는 법을 알아야만 한다. p99 책들은, 좋은 거지만, 항상 너무 늦거나, 너무 빨라. 거기엔 우스운 결과가 있지 우리 개개인보다 오브제들이 더 희망을 갖게 되는 이 세상은 과연 뭘까? p104 가장 어려운 건 칼을 찌르는 게 아냐, 그걸 빼내는 거지, 왜냐하면 모든 근육이 수축되면서 칼을 움켜쥐거든. 근육들은 거기에 삶이 있다는 것을 아는 거지. 칼 주위에 말이야. ..

[논문 리뷰] ALBEF - Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (NeurIPS 2021, Spotlight)

Machine Learning/Multimodal Learning 2022. 4. 20. 21:31

NeurIPS 2021의 spotlight 논문으로, Vision-Language Pre-training(VLP) domain에서 multimodal encoder 앞단에 pre-alignment part를 추가한 새로운 framework를 제안했습니다. 당시 다양한 VL task(IRTR, VQA, NLVR2 등)에서 SOTA를 달성했고, 이후에 CVPR 2022, ICML 2022에서도 ALBEF를 기반으로 한 논문이 많이 제출되었습니다. [ Paper / Code ] BERT, ViT, CLIP, Knowledge distillation(KD), VLP domain에 대한 이해를 전제로 review를 작성했습니다. 1) Abstract & Introduction 최근 다양한 vision-langua..

사피엔스 _ 유발하라리

Personal Story/Book 2022. 4. 20. 01:16

역사를 연구하는 것은 우리의 현재 상황이 자연스러운 것도 필연적인 것도 아니라는 사실을 알기 위해서다 그 결과 우리 앞에는 우리가 상상하는 것보다 더 많은 가능성이 있다는 것을 이해하기 위해서다 p133~135 그렇다면 왜 계획이 빗나갔을 때 농경을 포기하지 않았을까? 작은 변화가 축적되어 사회를 바꾸는 데는 여러 세대가 걸리고 그때쯤이면 자신들이 과거에 다른 방식으로 살았다는 것을 아무도 기억하지 못하기 때문이다. 역사의 몇 안 되는 철칙 가운데 하나는 사치품은 필수품이 되고 새로운 의무를 낳는 경향이 있다는 것이다. 일단 사치에 길들여진 사람들은 이를 당연한 것으로 받아들인다. 그다음에는 의존하기 시작한다. p170~174 사람들로 하여금 자신의 삶을 조직화하는 질서가 자신들의 상상 속에서만 존재한다..

[CS231n] 1. Image Classification

Machine Learning/CS231n 2021. 4. 28. 00:08

Keywords : Data-driven Approach, K-Nearest Neighbor, train/validation/test splits L1,L2 distances, hyperparameter search, cross-validation 1. Image Classification The task of assigning an input image one label from a fixed set of categories One of the core problems in Computer Vision 1) Example A single image and assigns probabilities to 4 labels, {cat, dog, hat, mug} The cat image is 248 pixels..

농담 _ 밀란 쿤데라

Personal Story/Book 2021. 4. 20. 00:27

그 누구도 이미 저질러진 잘못을 고치지 못하겠지만 모든 잘못이 잊힐 것이다. p17 우리는 다만 서로 변하지 않았고, 여전히 서로 다르다고 반복해서 말해야 할 뿐이었다.(나는 코스트카의 이런 다른 점을 좋아했고, 그와 논쟁을 하면, 나는 정말 누구인가, 무슨 생각을 하고 있는가를 언제나 확인할 수 있어서 그와 이야기를 나누는 것이 좋았다.) p42 내 인생의 라이프 모티프가 다시 들려왔다, 멀리서 나의 젊음이 내게로 걸어오는 것이 보였다, 그에게로 내가 무너져 가고 있었다. p51 나는 내 기억들로부터 달아나지 못하리라는 것을 알았다. 기억들은 나를 포위하고 있었다. p275 잠은 나와 어제의 만남 사이에 일종의 막 같은 것을 쳐 놓았다. 나는 마음속으로, 내가 그토록 루치에를 사랑했어도, 그녀가 그렇게..

ABOUT ME

cocoa cocoa

티스토리툴바