ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [Gemini 설명] A Family of Highly Capable Multimodal Models, Technical Report 리뷰
    Machine Learning/Multimodal Learning 2023. 12. 7. 04:34
    728x90

     

    Google DeepMind에서 공개한 멀티모달 모델 Gemini의 Technical Report를 간단히 정리합니다.
    Gemini에 대해 설명하기에 앞서, 아래 영상을 아직 못 보신 분들은 꼭 한 번 시청하시기 바랍니다.

     

    Abstract

     이 기술 보고서는 이미지, 오디오, 비디오, 텍스트 전반에 걸쳐 뛰어난 이해 능력을 보여주는 새로운 멀티모달 모델인 Gemini 를 소개합니다. Gemini 시리즈는 울트라(Ultra), 프로(Pro), 나노(Nano) 사이즈로 구성되어 있으며, 복잡한 추론 작업부터 기기 내 메모리 제약이 있는 use-case에 이르기까지 다양한 응용 분야에 적합합니다. 가장 능력이 뛰어난 Gemini Ultra 모델은 32개 벤치마크 평가 중 30개에서 기존 SOTA를 뛰어넘었으며, 특히 벤치마크 MMLU에서 인간 전문가 수준의 성능을 달성한 최초의 모델이 되었습니다.

     


     

    1. Instroduction

      구글은 이미지, 오디오, 비디오, 텍스트 통합 데이터로 Gemini를 훈련시켜, 각각의 도메인에서 뛰어난 이해와 추론 능력을 갖추고 동시에 강력한 일반화 능력을 지닌 모델을 구축하고자 했습니다.

      Gemini 1.0은 세 가지 사이즈로 제공됩니다. 매우 복잡한 작업에 적합한 'Ultra', 향상된 성능과 대규모 배포를 위한 'Pro', 그리고 기기 내 애플리케이션에 적합한 'Nano'입니다. 

     

      Gemini Ultra는 32개 벤치마크 중 30개에서 새로운 SOTA를 달성했습니다. 이는 12개의 텍스트 및 추론 관련 벤치마크 중 10개, 9개의 이미지 이해 벤치마크 전부, 6개의 비디오 이해 벤치마크 전부, 그리고 5개의 음성 인식 및 음성 번역 벤치마크 전부를 포함합니다. Gemini Ultra는 MMLU 벤치마크에서 인간 전문가 수준의 성능을 처음으로 달성한 모델로, 시험을 통해 지식과 추론을 평가하는 중요한 벤치마크에서 90% 이상의 점수를 기록했습니다.

      Gemini는 정성적 평가에서도 인상적인 crossmodal reasoning 능력을 보여줍니다. 예를 들어, 아래 Figure 1에서 Gemini는 물리 문제와 날려 쓴 손글씨가 적힌 이미지를 보고, 문제의 구성을 이해하고 해결 과정을 수식과 함께 제시합니다. 

     

      AlphaCode 팀은 Gemini의 추론 능력에 기반해 새로운 agent인 AlphaCode 2를 만들었습니다. 이 모델은 Codeforces와 같은 프로그래밍 플랫폼에서 상위 15%의 성적을 기록했고, 기존 상위 50%이던 SOTA 모델과 비교했을 때 크게 개선된 성능을 보여줍니다.

      Gemini nano는 소형 모델 시리즈로, 기기 내 배포를 목표로 한 매우 효율적인 모델입니다. 이 모델들은 요약, 독해, 텍스트 완성과 같은 기기 내 작업에 뛰어난 성능을 보이며, 모델 사이즈에 비해 추론, STEM, 코딩, 모티모달 및 다국어 task에서 인상적인 능력을 보여줍니다.

     


     

    2. Model Architecture

      Gemini 모델들은 Transformer decoder를 기반으로 만들어졌고, 구글의 TPUs에서 안정적인 대규모 훈련과 최적화된 추론이 가능하도록 구조와 모델 최적화가 이루어졌습니다. 이 모델들은 32K 컨텍스트 길이를 지원하며, 효율적인 attention mechanisms (예를 들면 multi-query attention)을 사용합니다. 구글의 첫 번째 버전인 Gemini 1.0은 아래와 같이 세 가지 주요 모델로 구성됩니다.

     

     

      Gemini는 이미지, 차트, 스크린샷, PDF, 비디오 등 다양한 오디오 및 시각 입력이 텍스트와 교차되는(interleaved) 혼합된 입력을 수용하도록 훈련되었으며, 텍스트 및 이미지 출력을 생성할 수 있습니다(Figure 2 참조). Visual encoding은 Flamingo (Alayrac et al., 2022), CoCa (Yu et al., 2022a), PaLI (Chen et al., 2022)와 같은 구글의 기초 연구에서 영감을 받았으나, 모델이 처음부터 멀티모달이며 dicrete image tokens(Ramesh et al., 2021; Yu et al., 2022b)을 사용하여 이미지를 출력할 수 있다는 중요한 차이점이 있습니다.

     

     

      비디오 이해(Video understanding)는 대규모 컨텍스트 window에서 비디오를 프레임 시퀀스로 인코딩함으로써 이루어집니다. 비디오 프레임이나 이미지는 모델 입력의 일부로 텍스트나 오디오와 자연스럽게 교차될 수 있습니다. 모델은 다양한 입력 해상도(input resolution)를 처리하여, 세밀한 이해가 필요한 작업에는 더 많은 계산을 할당할 수 있습니다. 또한, Gemini는 Universal Speech Model (USM) (Zhang et al., 2023) feature에서 16kHz의 오디오 신호를 직접 받아들일 수 있습니다. 이를 통해 오디오가 단순히 텍스트 입력으로 매핑될 경우에는 일반적으로 손실되는 nuance를 모델이 포착할 수 있게 됩니다 (예: 웹사이트의 오디오 이해 데모 참조).


     

    3. Training Infrastructure

      Gemini 모델들은 그 크기와 구성에 따라 TPUv5e와 TPUv4(Jouppi et al., 2023)를 사용하여 훈련되었습니다. Gemini Ultra를 훈련하기 위해서는 여러 데이터센터에 걸친 대규모 TPUv4 accelerator가 사용되었습니다. 이는 이전의 주력 모델인 팜-2(PaLM-2)보다 규모가 크게 증가했으며, 새로운 infrastructure challenge를 제시했습니다.

     (생략)

     


     

    4. Training Dataset

      Gemini 모델은 멀티모달 및 다국어 데이터셋에서 훈련됩니다. 사전 훈련 데이터셋은 웹 문서, 책, 코드에서 가져온 데이터를 사용하며 이미지, 오디오, 비디오 데이터를 포함합니다.

      구글은 SentencePiece tokenizer를 사용하며, 전체 훈련 Corpus의 large sample로 토크나이저를 훈련하는 것이 추론된 어휘(inferred vocabulary)를 개선하고 이어서 모델의 성능을 향상시킨다는 것을 발견했습니다. 예를 들어, Gemini 모델이 비라틴(non-Latin) 문자 스크립트를 효율적으로 토크나이즈 할 수 있으며, 이는 모델의 품질과 훈련 및 추론 속도를 향상시킵니다.

      모든 데이터셋에 대해 heuristic rule과 모델 기반 분류기를 사용하여 quality filter를 적용합니다. 또한, 유해한 내용을 제거하기 위해 안전성 필터링을 수행하며, 평가 셋은 훈련 코퍼스에서 필터링합니다. 최종 데이터 혼합과 가중치는 소형 모델에서의 ablations을 통해 결정되었습니다. 훈련 중에 혼합 구성을 변경하기 위해 훈련을 단계별로 진행하며, 훈련의 끝으로 갈수록 도메인 관련 데이터의 가중치를 증가시킵니다. 데이터 품질이 모델의 성능을 높이는 데 중요하며, 사전 훈련을 위한 최적의 데이터셋 분포를 찾는 데 여전히 많은 흥미로운 질문이 남아 있다고 믿습니다.

      


     

    5. Evaluation

      Gemini는 텍스트, 이미지, 오디오, 비디오를 통합적으로 훈련한 멀티모달 모델입니다. 한 가지의 open question은 "이러한 통합 훈련이 단일 도메인에 맞춰진 모델 및 접근 방식과 비교했을 때 각 도메인에서 강력한 능력을 가질 수 있는지" 입니다. 구글은 이것이 가능함을 보였으며, 텍스트, 이미지, 오디오, 비디오 모든 벤치마크에서 광범위하게 새로운 SOTA를 달성했습니다.

     

    5.1. Text

    5.1.1. Academic Benchmarks

     

    작성 중..

    728x90

    댓글

Designed by Tistory.