NLP

    [NLP] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 논문 리뷰(1)

    [NLP] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 논문 리뷰(1)

    1. Introduction 오늘날 pretrained 언어모델은 방대한 양의, 다양한 코퍼스에서 학습된다. Ex) RoBERTA(BERT를 최적화한 모델)는 160GB의 텍스트로 이루어져있는데, 그 안을 뜯어보면 영어 백과사전, 뉴스 기사들, 문학 작품, 웹에 있는 자료들 등.. 굉장히 다양한 출처로부터 가져왔다. 그럼 여기서 두 가지의 의문이 생길 수 있는데, 1. 최신의 large pretrained models 가 광범위하게 작동하는지 2. 특정 도메인에 대한 별개의 pretrained model을 만드는게 도움이 되는지 이전 연구들을 살펴보면, 이 의문과 관련하여 특정 도메인의 라벨링되지 않은 데이터에 대해 continued pretraining하는 것에 대한 이점을 증명하려는 시도가 있었다. ..