Machine Learning
-
[CS231n] 7. Neural Networks Part 3 : Learning and EvaluationMachine Learning/CS231n 2022. 5. 5. 16:34
gradient checks, sanity checks, babysitting the learning process, momentum(+nesterov), second-order methods, Adagrad/RMSprop, hyperparameter optimization, model ensembles Learning This section is devoted to the dynamics, the process of learning the parameters and finding good hyperparameters Gradient Checks Use the centered formula finite difference approximation when evaluating the numerical gr..
-
[논문 리뷰] 🦩 Flamingo: a Visual Language Model for Few-Shot Learning - 1. 핵심 특징 및 예제 설명Machine Learning/Multimodal Learning 2022. 5. 4. 03:49
구글 딥마인드에서 발표한 Visual Language Model로, 이미지와 텍스트로 구성된 input을 받아 텍스트 output을 생성합니다. 다양한 Vision-Language task에서 적은 수의 example로 학습해 fine-tuned model의 SotA에 가까운 성능을 보입니다. 정량적인 결과 외에도 흥미로운 예제들이 많기 때문에 이를 천천히 살펴보고, 실제 어떤 서비스에 적용 가능할지 고민해봅니다. 또한 Flamingo가 새롭게 제안한 구조와 method에 대해서도 관련 연구와 함께 살펴봅니다. [ paper | blog ] Abstract 🦩Flamingo : 소수의 예제(few-shot)로 다양한 task를 빠르게 적응 및 수행할 수 있는 Visual Language Model 구조적..
-
[CS231n] 6. Neural Networks Part2 : Setting up the DataMachine Learning/CS231n 2022. 5. 3. 01:23
preprocessing, weight initialization, batch normalization, regularization (L2/dropout) 1) Data Preprocessing We will assume matrix X is of size [N x D] (N is the number of data, D is their dimensionality) 1.1) Mean subtraction most common form of preprocessing Subtracting the mean across every individual feature in the data It has the geometric interpretation of centering the cloud of data aroun..
-
[CS231n] 5. Neural Networks Part 1: Setting up the ArchitectureMachine Learning/CS231n 2022. 4. 29. 02:22
keywords : model of a biological neuron, activation functions, neural net architecture, representational power 1) Biological motivation and connections basic computational unit of the brain is a neuron Model the firing rate of the neuron with an activation function f, which represents the frequency of the spikes along the axon. Historically, a common choice of activation function is the sigmoid ..
-
Vision-Language datasets (COCO, VG, SBU, CC3m, CC12m) 다운로드Machine Learning/Multimodal Learning 2022. 4. 28. 01:40
DALL·E 2, CLIP 등이 놀라운 결과를 보여주며 Multimodal(특히 Vision-Language) 분야에 대한 관심이 증가하고 있습니다. 주어진 텍스트를 기반으로 이미지를 생성하는 모델, 텍스트와 이미지가 공유하는 representation을 추출하는 모델 등 다양한 가능성을 보여주고 있지만, 대용량 데이터와 large-scale 모델을 사용하는 경우가 많아 리소스가 충분하지 않다면 연구가 힘든 상황입니다. 그럼에도 많은 대학원 연구실이나 스타트업에서 앞으로 멀티모달에 대한 연구 및 사업화를 구상할 것이라고 생각되기에, 비교적 데이터 사이즈는 작지만 딥러닝 학습에 도움이 될만한 양질의 dataset들을 list-up하고 다운로드 방법을 공유합니다. 더보기 최근 멀티모달 도메인에서 좋은 성능을..
-
Verifying Vision-Language Alignment with Cross-Attention Map (feat. DINO)Machine Learning/Multimodal Learning 2022. 4. 28. 01:33
최근 Vision Transformer를 self-supervised로 학습하는 방법들이 활발히 연구되고 있습니다. DINO는 그중 하나로 제안한 방법으로 학습한 모델의 self-attention map을 시각화한 결과, 이미지 속 객체를 뚜렷하게 구분하는 것을 확인했습니다. Semantic segmentation 정보를 주지 않았음에도, 아래와 같이 객체를 잘 구분해 많은 관심을 받았습니다. 저자들은 Vision Transformer의 마지막 layer에서 [CLS] 토큰과 다른 patch들 사이의 self-attention map을 시각화했으며, 특정 객체 위치에 해당하는 patch와 다른 patch들 사이를 시각화했을 때도 관련 있는 부분들의 attention이 높았습니다. 자세한 내용은 Emerg..