'분류 전체보기' 카테고리의 글 목록

[Gemini 설명] A Family of Highly Capable Multimodal Models, Technical Report 리뷰

Machine Learning/Multimodal Learning 2023. 12. 7. 04:34

Google DeepMind에서 공개한 멀티모달 모델 Gemini의 Technical Report를 간단히 정리합니다. Gemini에 대해 설명하기에 앞서, 아래 영상을 아직 못 보신 분들은 꼭 한 번 시청하시기 바랍니다. Abstract 이 기술 보고서는 이미지, 오디오, 비디오, 텍스트 전반에 걸쳐 뛰어난 이해 능력을 보여주는 새로운 멀티모달 모델인 Gemini 를 소개합니다. Gemini 시리즈는 울트라(Ultra), 프로(Pro), 나노(Nano) 사이즈로 구성되어 있으며, 복잡한 추론 작업부터 기기 내 메모리 제약이 있는 use-case에 이르기까지 다양한 응용 분야에 적합합니다. 가장 능력이 뛰어난 Gemini Ultra 모델은 32개 벤치마크 평가 중 30개에서 기존 SOTA를 뛰어넘었으며,..

vast.ai 사용법 - 저비용 클라우드 GPU 대여

Programming 2023. 6. 11. 14:11

고성능 GPU를 보다 저렴하게 이용할 수 있는 클라우드 대여 서비스인 vast.ai 사용법을 공유합니다. 1. vast.ai 사이트 이동 및 우측 상단의 Console 버튼 클릭 2. 우측 상단의 SIGN IN 눌러 계정 생성 3. 원하는 사양의 GPU 선택 (RENT 버튼) 4. ADD CARD 클릭 - 결제할 카드 등록 5. 계정 생성할 때 입력했던 이메일로 이동해 인증 6. 다시 콘솔 창으로 돌아와 왼쪽의 EDIT IMAGE 버튼을 눌러 인스턴스의 Configuration을 설정 - Pytorch로 학습할 경우 Version tag to use 를 이용해 원하는 cuda, cudnn 버전 설정 가능 7. SELECT를 누르면 Instance가 생성되며, 왼쪽 메뉴바의 Instances를 들어가면 생..

[논문 리뷰] LLaVA: Large Language and Vision Assistant (Visual Instruction Tuning)

Machine Learning/Multimodal Learning 2023. 5. 7. 00:54

최근 ChatGPT, LLaMA와 같은 거대 언어 모델(LLM, Large Lanuage Models)이 많은 주목을 받고 있습니다. 하지만, 실제 세계는 언어뿐만 아니라 시각적인 요소를 포함한 복합적인 정보(멀티모달)들로 이루어져 있습니다. 이전에도 Flamingo, BLIP-2 등 시각 정보를 인식해 관련 질문에 답을 하고 채팅을 이어가는 멀티모달 연구들이 있었는데요. 해당 연구들은 학습 시 데이터셋의 형식이 단순한 image-text pair(이미지와 이를 설명하는 텍스트)로 이루어져 있었습니다. 하지만, 이번에 소개할 LLaVA는 이미지를 포함한 지시문 데이터 형식인 visual instruction-following data를 새롭게 제안합니다. 또한, 학습된 LLM인 Vicuna 모델로 파라미..

상업적 사용이 가능한 LLMs, FastChat-T5

Machine Learning/Large Language Models 2023. 5. 1. 01:53

Github | Demo 기존에 공개된 LLMs 들은 상업적 사용이 불가능한 경우가 대부분인데요. Vicuna를 공개한 LM-SYS에서 상업적으로도 사용이 가능한 FastChat-T5를 공개했습니다. 구글 Flan-5T를 finetuning 한 비교적 작은 사이즈(3B)의 모델이며, 설치 및 실행 방법이 간단해 많은 기업에서 테스트용으로 사용가능할 것 같습니다. 1. 환경 설치 conda env에서 라이브러리 설치를 추천드립니다. pip3 install fschat 2. FastChat-T5 설치 및 실행 python3 -m fastchat.serve.cli --model-path lmsys/fastchat-t5-3b-v1.0 위 명령을 실행하면 자동으로 모델이 설치되며 바로 실행 가능합니다. init_..

[LLMs] LLaMA 기반 챗봇 언어모델, Vicuna 다운로드 및 사용법

Machine Learning/Large Language Models 2023. 5. 1. 00:25

지난 포스트에서 Meta에서 공개한 LLMs 모델인 LLaMA의 다운로드 방법에 대해 알아보았습니다. 이번 포스트에서는 LLaMA를 Finetuning 해 ChatGPT에 버금가는(90%) 챗봇 성능을 보여준 Vicuna 모델의 다운로드 및 실행 방법을 소개합니다. Vicuna : An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality 학습 방법 등 모델에 대한 자세한 설명은 아래 Post를 참고하시기 바랍니다. 이번 포스트에서는 설치 및 실행 방법을 위주로 소개합니다. [ Github / Post / Demo ] Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Qualit..

[뮤지엄 산] Tadao Ando, Youth

Personal Story/Museum 2023. 4. 23. 16:48

ABOUT ME

cocoa cocoa

티스토리툴바