Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
Tags
- 혼동행렬
- MSE
- Confusion Matrix
- 디지트
- Gen2
- 1종오류
- F1 score
- 정밀도(Precision)
- GPT-2.GPT-3
- ROC curve
- ROC/AUC
- 보스톤 다이나믹스
- PR curve
- Type 2 error
- 정확도(Accurcy)
- 재현율(Recall)
- openAI
- 어질리티 로보틱스
- GPT
- 머신러닝 모델 평가
- 레인보우 로보틱스
- precision
- 모델평가
- Type 1 error
- Precision-recall
- 2종오류
- 회귀 모델 성능 평가 방법
- mae
- 혼동행렬(Confusion Matrix)
- GPT-1
Archives
- Today
- Total
Robotics & AI
GPT 모델의 역사 본문
GPT(Generative Pre-trained Transformer) 모델의 역사는 다양한 발전과정을 거쳐 왔습니다.
아래는 GPT 모델의 주요 발전 단계입니다.
- GPT-1 (2018)
- 개발자: OpenAI
- GPT의 첫 번째 버전은 트랜스포머 아키텍처가 발명된지 1년 후인 2018년에 소개되었습니다. GPT-1은 117만 개의 문장을 학습한 1.5억 개의 매개변수를 가진 언어 모델로, 대규모의 데이터셋을 기반으로 사전 훈련되었습니다. 높은 성능을 보여주며, 특정 작업에 대한 세부 조정 없이도 다양한 자연어 처리 작업에 사용될 수 있음을 입증했습니다.
- GPT-1 고성능 NLP 모델이나 신경망을 구축하는 데는 일반적으로 지도 학습을 사용했는데, 이렇게 되면 데이터 수집과 레이블링 시간과 비용이 많이 들기 때문에 저자들은 비지도 사전 학습 단계를 도입하였습니다.
- 약 11,000권의 미출간 도서 텍스트를 포함하는 BookCorpus데이터셋을 사용했습니다. 이 데이터 셋은 2015년에 Aligning Books and Movies : Towards Story-Like Visual Explanations by Watching Movies and Reading Books 라는 제목으로 등장했으며 토론토 대학교 웹 페이지에 공개됐습니다.
- 논문 링크 : https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Zhu_Aligning_Books_and_ICCV_2015_paper.pdf
- GPT-2 (2019)
- 개발자: OpenAI
- GPT-2는 GPT-1의 업그레이드 버전으로, 2019년에 소개되었습니다. GPT-2는 GPT-1보다 훨씬 더 많은 매개변수를 가지고 있었으며, 총 1.5억 개의 파라미터를 가진 모델을 포함한 여러 가지 크기의 모델이 공개되었습니다. GPT-2는 자연어 생성 작업에서 높은 품질의 결과물을 얻을 수 있었으며, 대중적인 주목을 받았습니다.
- GPT-3 (2020)
- 개발자: OpenAI
- GPT-3는 GPT 시리즈의 세 번째 버전으로, 2020년에 소개되었습니다. GPT-3는 1750억 개의 매개변수를 가진 엄청난 규모의 언어 모델로, 엄청난 양의 데이터를 기반으로 사전 훈련되었습니다. GPT-3는 다양한 자연어 처리 작업에서 이전 모델들보다 더 높은 성능을 보여주었으며, 특히 특정 작업에 대한 사전 훈련 없이도 놀라운 결과를 얻을 수 있었습니다.
- 계속되는 발전과 응용
- 이후 GPT 모델은 계속해서 발전하고 있으며, 자연어 처리 및 다양한 응용 분야에서 사용되고 있습니다. OpenAI는 GPT-3를 비롯한 다양한 모델을 공개하고, 개발자들은 이를 활용하여 다양한 자연어 처리 작업을 수행하고 있습니다. 또한, GPT 모델의 다양한 응용분야에 대한 연구와 발전이 지속되고 있습니다.
GPT 모델은 대량의 데이터를 활용한 사전 훈련(pre-training)과 fine-tuning을 통해 다양한 자연어 처리 작업에 적용할 수 있는 강력한 언어 모델을 제공하고 있습니다.