NLP
![[NLP] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 논문 리뷰(1)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FUfg4J%2Fbtq5LLK13tG%2FAAAAAAAAAAAAAAAAAAAAADHwjFkheuweU0NLqEhjNs8tqT-wqXkO88LpgCxjCElS%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1751295599%26allow_ip%3D%26allow_referer%3D%26signature%3D%252FuCo5BONLDro2xyrQaPQDyjB7%252Fg%253D)
[NLP] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 논문 리뷰(1)
1. Introduction 오늘날 pretrained 언어모델은 방대한 양의, 다양한 코퍼스에서 학습된다. Ex) RoBERTA(BERT를 최적화한 모델)는 160GB의 텍스트로 이루어져있는데, 그 안을 뜯어보면 영어 백과사전, 뉴스 기사들, 문학 작품, 웹에 있는 자료들 등.. 굉장히 다양한 출처로부터 가져왔다. 그럼 여기서 두 가지의 의문이 생길 수 있는데, 1. 최신의 large pretrained models 가 광범위하게 작동하는지 2. 특정 도메인에 대한 별개의 pretrained model을 만드는게 도움이 되는지 이전 연구들을 살펴보면, 이 의문과 관련하여 특정 도메인의 라벨링되지 않은 데이터에 대해 continued pretraining하는 것에 대한 이점을 증명하려는 시도가 있었다. ..