Machine Learning
-
[Gemini 설명] A Family of Highly Capable Multimodal Models, Technical Report 리뷰Machine Learning/Multimodal Learning 2023. 12. 7. 04:34
Google DeepMind에서 공개한 멀티모달 모델 Gemini의 Technical Report를 간단히 정리합니다. Gemini에 대해 설명하기에 앞서, 아래 영상을 아직 못 보신 분들은 꼭 한 번 시청하시기 바랍니다. Abstract 이 기술 보고서는 이미지, 오디오, 비디오, 텍스트 전반에 걸쳐 뛰어난 이해 능력을 보여주는 새로운 멀티모달 모델인 Gemini 를 소개합니다. Gemini 시리즈는 울트라(Ultra), 프로(Pro), 나노(Nano) 사이즈로 구성되어 있으며, 복잡한 추론 작업부터 기기 내 메모리 제약이 있는 use-case에 이르기까지 다양한 응용 분야에 적합합니다. 가장 능력이 뛰어난 Gemini Ultra 모델은 32개 벤치마크 평가 중 30개에서 기존 SOTA를 뛰어넘었으며,..
-
[논문 리뷰] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning)Machine Learning/Multimodal Learning 2023. 5. 7. 00:54
최근 ChatGPT, LLaMA와 같은 거대 언어 모델(LLM, Large Lanuage Models)이 많은 주목을 받고 있습니다. 하지만, 실제 세계는 언어뿐만 아니라 시각적인 요소를 포함한 복합적인 정보(멀티모달)들로 이루어져 있습니다. 이전에도 Flamingo, BLIP-2 등 시각 정보를 인식해 관련 질문에 답을 하고 채팅을 이어가는 멀티모달 연구들이 있었는데요. 해당 연구들은 학습 시 데이터셋의 형식이 단순한 image-text pair(이미지와 이를 설명하는 텍스트)로 이루어져 있었습니다. 하지만, 이번에 소개할 LLaVA는 이미지를 포함한 지시문 데이터 형식인 visual instruction-following data를 새롭게 제안합니다. 또한, 학습된 LLM인 Vicuna 모델로 파라미..
-
상업적 사용이 가능한 LLMs, FastChat-T5Machine Learning/Large Language Models 2023. 5. 1. 01:53
Github | Demo 기존에 공개된 LLMs 들은 상업적 사용이 불가능한 경우가 대부분인데요. Vicuna를 공개한 LM-SYS에서 상업적으로도 사용이 가능한 FastChat-T5를 공개했습니다. 구글 Flan-5T를 finetuning 한 비교적 작은 사이즈(3B)의 모델이며, 설치 및 실행 방법이 간단해 많은 기업에서 테스트용으로 사용가능할 것 같습니다. 1. 환경 설치 conda env에서 라이브러리 설치를 추천드립니다. pip3 install fschat 2. FastChat-T5 설치 및 실행 python3 -m fastchat.serve.cli --model-path lmsys/fastchat-t5-3b-v1.0 위 명령을 실행하면 자동으로 모델이 설치되며 바로 실행 가능합니다. init_..
-
[LLMs] LLaMA 기반 챗봇 언어모델, Vicuna 다운로드 및 사용법Machine Learning/Large Language Models 2023. 5. 1. 00:25
지난 포스트에서 Meta에서 공개한 LLMs 모델인 LLaMA의 다운로드 방법에 대해 알아보았습니다. 이번 포스트에서는 LLaMA를 Finetuning 해 ChatGPT에 버금가는(90%) 챗봇 성능을 보여준 Vicuna 모델의 다운로드 및 실행 방법을 소개합니다. Vicuna : An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality 학습 방법 등 모델에 대한 자세한 설명은 아래 Post를 참고하시기 바랍니다. 이번 포스트에서는 설치 및 실행 방법을 위주로 소개합니다. [ Github / Post / Demo ] Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Qualit..
-
LLaMA(Meta AI) 모델 파라미터 다운로드Machine Learning/Large Language Models 2023. 3. 6. 13:54
메타(Meta)에서 대규모 언어 모델을 공개했습니다. 기존의 GPT-3(175B), Gopher(280B), Chincilla(70B)와 같은 Large-scale 언어 모델 대비 적은 파라미터(7B, 13B, 33B, 65B) 임에도 불구하고, 8개의 벤치마크에서 높은 성능을 보여줍니다. 작은 모델 사이즈 덕분에 LLaMA-13B의 경우 single GPU에서도 동작하며 소비자 수준의 하드웨어 환경에서 언어모델을 사용할 수 있습니다. Meta AI Research는 학습된 모델을 다운로드하여 사용할 수 있게 오픈했으며, 이번 포스트에서는 다운로드 과정을 소개해드립니다. 1. 구글 폼 작성 LLaMA 깃헙 페이지에 들어가면 checkpoints를 다운받기 위한 정보를 입력할 수 있는 구글 폼 링크가 있습..
-
[PyTorch/에러] RuntimeError: Error(s) in loading state_dictMachine Learning/PyTorch 2022. 12. 18. 00:55
pretrain 된 모델을 불러와 추가 데이터에 대해 finetuning 할 때 더 좋은 성능을 보여주는 경우가 많습니다. 이때 load_state_dict 을 이용해 모델을 load 하는데, 사전에 정의한 모델과 불러오려는 모델의 state_dict - key 가 다를 경우 아래와 같은 에러가 발생할 수 있습니다. RuntimeError: Error(s) in loading state_dict for ResNet: Missing key(s) in state_dict: "conv1.weight", "bn1.weight", "bn1.bias", "bn1.running_mean", "bn1.running_var", "layer1.0.conv1.weight", "layer1.0.bn1.weight", "lay..