데이터구축

번역 데이터 구축 프로그램: 지루한 업무를 자동화시킬 수 있다면?
1. 프로그램 제작 배경 언어 데이터 구축 업무 중에 큰 비중을 차지하는 것은 원문 텍스트를 파파고, 구글 번역기를 돌려 엑셀에 정리하는 것이었습니다. 그런데 원문이 1200개가 넘기 때문에 상당히 오래 걸리는 업무입니다. 원래 이 업무를 수작업으로 하게 된다면 프로세스는 다음과 같습니다. for i in range(1200): 1. 엑셀에 있는 원문을 하나 복사한다. 2. 원문을 파파고 혹은 구글에 붙여넣기를 하여 번역된 텍스트를 복사한다. 3. 번역텍스트를 원문 옆의 셀에 붙여넣기를 한다. 이걸 1200번을 하다가는 제 손목과 손가락이 제대로 남아 있지 않을 것 같았고 상당한 현타가 올 것 같았습니다...ㅎㅎ 그래서 문득 openpyxl과 selenium을 사용해서 업무를 자동화시킬 수 있지 않을까?..

인턴 일지를 시작하며,
인턴으로 벌써 한 달이 지났고, 이제 한 달밖에 남지 않았다는 게 실감이 나지 않네요. 여태까지 그리고 앞으로 인턴으로서의 업무들을 한 번 기록으로 남겨보려고 합니다! 지난 한 달동안의 업무는 주로 자동통역기의 성능 평가를 위한 언어 데이터를 구축하는 것이었습니다. 데이터를 구축하는 업무가 노가다인 것은 어느정도 알고 지원했지만, 제가 생각했던 것보다 고된 작업이라는 것을 알게되었어요,, 하지만 그 고된 업무 안에서 저 스스로 이것저것 만들어도 보고, 따로 공부도 하면서 재미를 찾아가고 있습니다! 또 좋은 선배님들과 박사님들을 만나 현실적인 조언도 많이 얻고 NLP 분야에 대한 시야를 넓히게 되었기 때문에 인턴으로 일하게 된 기회는 저에게 앞으로 정말 의미 있는 시간이 될 것 같습니다.