Work Experience/ETRI Intern

    너무 바쁜 이번주, 자동통역기 성능 평가

    너무 바쁜 이번주, 자동통역기 성능 평가

    이번주는 자동 통역기 성능 평가 업무를 하고 있습니다! 저번달까지 자동 통역기 성능 평가를 위한 데이터 구축 작업을 완료하였고, 이제 그것을 바탕으로 파파고, 구글 번역기, 그리고 에트리의 자동통역기의 성능을 평가하고 있습니다. 그런데 제가 이번주까지 평가를 완료해야하는 문장 데이터셋이 3000개가 넘습니다ㅠㅠ 영어과외를 하면서 문법적으로 틀린 문장을 비롯하여 잘못된 영작문을 많이 보았지만, 이렇게 많은 문장 하나하나에 점수를 매기면서 평가를 하는 것은 처음이기에 쉽지만은 않은 것 같습니다.. 3000개가 넘는 문장을 평가하면서 일관된 평가기준을 유지하기 위해 노력하고 있지만, 인간인지라 그게 쉽지 않은 것 같아요. 그리고 엑셀 셀에 하나하나 입력하는 것이 조금 번거롭기도 합니다. 그래서 저는 파이썬으로..

    번역 데이터 구축 프로그램: 개발과 수정

    번역 데이터 구축 프로그램: 개발과 수정

    1. 개발과정에서 발생한 문제점 이전 포스팅에서 설계했던 방식대로 구현해보니 수행시간이 엄청나게 오래 걸렸습니다... 스스로 문제점을 파악을 해보니, 다음과 같은 문제점이 있었고 성능을 높이기 위해 고민했습니다. 한 문장씩 번역을 할 때 웹드라이버가 새롭게 웹페이지를 띄우는 과정에서 오랜 시간이 소요된다. -> 새롭게 웹페이지를 띄우지 않고, 처음에 띄운 페이지를 그대로 사용해보자 -> 입력창에 써있는 기존 데이터를 삭제하고 새로운 데이터를 넣는다. 공교롭게도 구글 번역, 파파고 번역 웹페이지 모두 입력창의 'X'버튼을 클릭하면 입력창이 초기화되었습니다. 그래서 셀레니움에서 해당 버튼을 클릭하도록 추가한 코드는 다음과 같습니다. # 파파고 번역초기화 close = driver.find_element_by..

    번역 데이터 구축 프로그램: 지루한 업무를 자동화시킬 수 있다면?

    번역 데이터 구축 프로그램: 지루한 업무를 자동화시킬 수 있다면?

    1. 프로그램 제작 배경 언어 데이터 구축 업무 중에 큰 비중을 차지하는 것은 원문 텍스트를 파파고, 구글 번역기를 돌려 엑셀에 정리하는 것이었습니다. 그런데 원문이 1200개가 넘기 때문에 상당히 오래 걸리는 업무입니다. 원래 이 업무를 수작업으로 하게 된다면 프로세스는 다음과 같습니다. for i in range(1200): 1. 엑셀에 있는 원문을 하나 복사한다. 2. 원문을 파파고 혹은 구글에 붙여넣기를 하여 번역된 텍스트를 복사한다. 3. 번역텍스트를 원문 옆의 셀에 붙여넣기를 한다. 이걸 1200번을 하다가는 제 손목과 손가락이 제대로 남아 있지 않을 것 같았고 상당한 현타가 올 것 같았습니다...ㅎㅎ 그래서 문득 openpyxl과 selenium을 사용해서 업무를 자동화시킬 수 있지 않을까?..

    인턴 일지를 시작하며,

    인턴 일지를 시작하며,

    인턴으로 벌써 한 달이 지났고, 이제 한 달밖에 남지 않았다는 게 실감이 나지 않네요. 여태까지 그리고 앞으로 인턴으로서의 업무들을 한 번 기록으로 남겨보려고 합니다! 지난 한 달동안의 업무는 주로 자동통역기의 성능 평가를 위한 언어 데이터를 구축하는 것이었습니다. 데이터를 구축하는 업무가 노가다인 것은 어느정도 알고 지원했지만, 제가 생각했던 것보다 고된 작업이라는 것을 알게되었어요,, 하지만 그 고된 업무 안에서 저 스스로 이것저것 만들어도 보고, 따로 공부도 하면서 재미를 찾아가고 있습니다! 또 좋은 선배님들과 박사님들을 만나 현실적인 조언도 많이 얻고 NLP 분야에 대한 시야를 넓히게 되었기 때문에 인턴으로 일하게 된 기회는 저에게 앞으로 정말 의미 있는 시간이 될 것 같습니다.