분류 전체보기

수학 공부 시작!
인턴을 하면서 NLP의 원리들을 완전히 이해하기 위해서 수학적 지식이 필요하다고 판단했다. 이전에는 논문을 읽으면서 수식이 아무리 등장해도 수식을 이해하려고 노력을 하다가 포기하고 대략적인 개념만 이해하고 넘어갔다. 근본적인 원리를 알지 못한 채 대략적인 아이디어만 이해하는 것이 나 스스로 한계점을 만들어놓는 것 같다는 생각이 들었다. 앞으로 ML, NLP를 하면서 수많은 수식과 수학적 개념을 만나게 될텐데, 지금이 아니면 수학적 기반을 다져놓을 시간이 없다고 생각했다. 그래서 수학 스터디를 만들어서 미적분학, 수리통계학, 공학 통계를 공부하려고 한다. 개인적으로 ML의 대가라고 생각하는 교수님께서 정말 감사하게도 ML 연구를 하기 위한 수학 커리큘럼을 봐주셔서 이를 바탕으로 빠르게 수학적 기반을 다져보..
![[NLP] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 논문 리뷰(1)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FUfg4J%2Fbtq5LLK13tG%2FFwmBXUDosTX9RMSz9v2Pa1%2Fimg.png)
[NLP] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 논문 리뷰(1)
1. Introduction 오늘날 pretrained 언어모델은 방대한 양의, 다양한 코퍼스에서 학습된다. Ex) RoBERTA(BERT를 최적화한 모델)는 160GB의 텍스트로 이루어져있는데, 그 안을 뜯어보면 영어 백과사전, 뉴스 기사들, 문학 작품, 웹에 있는 자료들 등.. 굉장히 다양한 출처로부터 가져왔다. 그럼 여기서 두 가지의 의문이 생길 수 있는데, 1. 최신의 large pretrained models 가 광범위하게 작동하는지 2. 특정 도메인에 대한 별개의 pretrained model을 만드는게 도움이 되는지 이전 연구들을 살펴보면, 이 의문과 관련하여 특정 도메인의 라벨링되지 않은 데이터에 대해 continued pretraining하는 것에 대한 이점을 증명하려는 시도가 있었다. ..
![[BFS] 1697번 숨바꼭질](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FdqXZSA%2FbtqTrShzhS4%2Fjjr9xBz0xj2qiSKk1o3nX0%2Fimg.png)
[BFS] 1697번 숨바꼭질
1. 문제 수빈이는 동생과 숨바꼭질을 하고 있다. 수빈이는 현재 점 N(0 ≤ N ≤ 100,000)에 있고, 동생은 점 K(0 ≤ K ≤ 100,000)에 있다. 수빈이는 걷거나 순간이동을 할 수 있다. 만약, 수빈이의 위치가 X일 때 걷는다면 1초 후에 X-1 또는 X+1로 이동하게 된다. 순간이동을 하는 경우에는 1초 후에 2*X의 위치로 이동하게 된다. 수빈이와 동생의 위치가 주어졌을 때, 수빈이가 동생을 찾을 수 있는 가장 빠른 시간이 몇 초 후인지 구하는 프로그램을 작성하시오. 입력) 첫 번째 줄에 수빈이가 있는 위치 N과 동생이 있는 위치 K가 주어진다. N과 K는 정수이다. 출력) 수빈이가 동생을 찾는 가장 빠른 시간을 출력한다. 2. 풀이 사고 과정 1. 방문한 위치를 또 방문하게 될 경..
![[Algorithm] 에라토스테네스의 체](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcMCfUO%2FbtqSNl6BTmG%2FkzvtL6nA0qKeKFef7oGalK%2Fimg.gif)
[Algorithm] 에라토스테네스의 체
1. 에라토스테네스의 체란? 소수를 찾는 알고리즘이다. 알아두면 알고리즘 문제를 풀 때 간간이 쓸모 있게 쓰이므로 숙지하도록 하자!! 2. 알고리즘 설명 1. 소수를 구하고자 하는 구간의 모든 수를 2부터 나열한다. 2. 2는 소수이므로 소수 리스트에 추가한다. 3. 자기 자신을 제외한 2의 배수를 모두 지운다. (빨간색) 4. 남아있는 수 가운데 3은 소수이므로 소수리스트에 추가한다. 5. 자기 자신을 제외한 3의 배수를 모두 지운다. (연두색) 6. 남아있는 수 가운데 5는 소수이므로 오른쪽에 5를 쓴다. 7. 자기 자신을 제외한 5의 배수를 모두 지운다. (파란색) 8. 남아있는 수 가운데 7은 소수이므로 오른쪽에 7을 쓴다. 9. 자기 자신을 제외한 7의 배수를 모두 지운다. (노란색) 10. 위..
[완전탐색] 백준 1476번: 날짜 계산
1. 문제 설명 준규가 사는 나라는 우리가 사용하는 연도와 다른 방식을 이용한다. 준규가 사는 나라에서는 수 3개를 이용해서 연도를 나타낸다. 각각의 수는 지구, 태양, 그리고 달을 나타낸다. 지구를 나타내는 수를 E, 태양을 나타내는 수를 S, 달을 나타내는 수를 M이라고 했을 때, 이 세 수는 서로 다른 범위를 가진다. (1 ≤ E ≤ 15, 1 ≤ S ≤ 28, 1 ≤ M ≤ 19) 우리가 알고있는 1년은 준규가 살고있는 나라에서는 1 1 1로 나타낼 수 있다. 1년이 지날 때마다, 세 수는 모두 1씩 증가한다. 만약, 어떤 수가 범위를 넘어가는 경우에는 1이 된다. 예를 들어, 15년은 15 15 15로 나타낼 수 있다. 하지만, 1년이 지나서 16년이 되면 16 16 16이 아니라 1 16 16..

너무 바쁜 이번주, 자동통역기 성능 평가
이번주는 자동 통역기 성능 평가 업무를 하고 있습니다! 저번달까지 자동 통역기 성능 평가를 위한 데이터 구축 작업을 완료하였고, 이제 그것을 바탕으로 파파고, 구글 번역기, 그리고 에트리의 자동통역기의 성능을 평가하고 있습니다. 그런데 제가 이번주까지 평가를 완료해야하는 문장 데이터셋이 3000개가 넘습니다ㅠㅠ 영어과외를 하면서 문법적으로 틀린 문장을 비롯하여 잘못된 영작문을 많이 보았지만, 이렇게 많은 문장 하나하나에 점수를 매기면서 평가를 하는 것은 처음이기에 쉽지만은 않은 것 같습니다.. 3000개가 넘는 문장을 평가하면서 일관된 평가기준을 유지하기 위해 노력하고 있지만, 인간인지라 그게 쉽지 않은 것 같아요. 그리고 엑셀 셀에 하나하나 입력하는 것이 조금 번거롭기도 합니다. 그래서 저는 파이썬으로..
![[선택] 백준 11004번 K번째 수 시간초과 에러](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcD1fB2%2FbtqGgjZ3hYf%2FjxPDI891XxyK281MLP9Gbk%2Fimg.png)
[선택] 백준 11004번 K번째 수 시간초과 에러
신찬수 교수님의 알고리즘 유투브 영상으로 quick selection 알고리즘과 median of median 알고리즘을 배웠습니다. 배운 내용을 적용하고 싶어서 백준에서 quick selection 알고리즘으로 풀 수 있는 K 번째 수 문제를 도전해보았습니다! 11004번: K번째 수 수 N개 A1, A2, ..., AN이 주어진다. A를 오름차순 정렬했을 때, 앞에서부터 K번째 있는 수를 구하는 프로그램을 작성하시오. www.acmicpc.net 예제 테스트 케이스의 경우에는 정상적으로 출력되고, quick selection 알고리즘을 구현하여 문제를 풀었는데 시간 초과 에러가 발생했어요ㅠㅠ 혼자 끙끙거리다가 구글에 이 문제를 푼 사람들의 코드를 보았는데, 대부분의 사람들이 sort 함수를 사용해서 ..