Robotics & AI

GPT 모델의 역사 본문

LLM & 멀티모달

GPT 모델의 역사

필로9 2024. 2. 13. 22:58

GPT(Generative Pre-trained Transformer) 모델의 역사는 다양한 발전과정을 거쳐 왔습니다.
아래는 GPT 모델의 주요 발전 단계입니다.

 

  1. GPT-1 (2018)
    • 개발자: OpenAI
    • GPT의 첫 번째 버전은 트랜스포머 아키텍처가 발명된지 1년 후인 2018년에 소개되었습니다. GPT-1은 117만 개의 문장을 학습한 1.5억 개의 매개변수를 가진 언어 모델로, 대규모의 데이터셋을 기반으로 사전 훈련되었습니다. 높은 성능을 보여주며, 특정 작업에 대한 세부 조정 없이도 다양한 자연어 처리 작업에 사용될 수 있음을 입증했습니다.
    • GPT-1 고성능 NLP 모델이나 신경망을 구축하는 데는 일반적으로 지도 학습을 사용했는데, 이렇게 되면 데이터 수집과 레이블링 시간과 비용이 많이 들기 때문에  저자들은 비지도 사전 학습 단계를 도입하였습니다.
    • 약 11,000권의 미출간 도서 텍스트를 포함하는 BookCorpus데이터셋을 사용했습니다. 이 데이터 셋은 2015년에 Aligning Books and Movies : Towards Story-Like Visual Explanations by Watching Movies and Reading Books 라는 제목으로 등장했으며 토론토 대학교 웹 페이지에 공개됐습니다.
    • 논문 링크 : https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Zhu_Aligning_Books_and_ICCV_2015_paper.pdf
  2. GPT-2 (2019)
    • 개발자: OpenAI
    • GPT-2는 GPT-1의 업그레이드 버전으로, 2019년에 소개되었습니다. GPT-2는 GPT-1보다 훨씬 더 많은 매개변수를 가지고 있었으며, 총 1.5억 개의 파라미터를 가진 모델을 포함한 여러 가지 크기의 모델이 공개되었습니다. GPT-2는 자연어 생성 작업에서 높은 품질의 결과물을 얻을 수 있었으며, 대중적인 주목을 받았습니다.
  3. GPT-3 (2020)
    • 개발자: OpenAI
    • GPT-3는 GPT 시리즈의 세 번째 버전으로, 2020년에 소개되었습니다. GPT-3는 1750억 개의 매개변수를 가진 엄청난 규모의 언어 모델로, 엄청난 양의 데이터를 기반으로 사전 훈련되었습니다. GPT-3는 다양한 자연어 처리 작업에서 이전 모델들보다 더 높은 성능을 보여주었으며, 특히 특정 작업에 대한 사전 훈련 없이도 놀라운 결과를 얻을 수 있었습니다.
  4. 계속되는 발전과 응용
    • 이후 GPT 모델은 계속해서 발전하고 있으며, 자연어 처리 및 다양한 응용 분야에서 사용되고 있습니다. OpenAI는 GPT-3를 비롯한 다양한 모델을 공개하고, 개발자들은 이를 활용하여 다양한 자연어 처리 작업을 수행하고 있습니다. 또한, GPT 모델의 다양한 응용분야에 대한 연구와 발전이 지속되고 있습니다.

GPT 모델은 대량의 데이터를 활용한 사전 훈련(pre-training)과 fine-tuning을 통해 다양한 자연어 처리 작업에 적용할 수 있는 강력한 언어 모델을 제공하고 있습니다.