유용한 도큐먼트 번역 라이브러리 소개 (PDFMathTranslate)

choonsikmom·2025년 1월 15일
0

침착한 일상

목록 보기
17/17
post-thumbnail

학부를 영문과를 나왔지만 나날이 퇴화하는 영어 실력 이슈.....로 인해 원문 읽기가 힘들어 번역을 자주 이용하곤 하는데,깃허브에서 좋은 라이브러리를 알게 되었다.

PDFMathTranslate !

[Byaidu] PDFMathTranslate Github 바로가기

python 3.8 이상에서 라이브러리 설치 후 커맨드로 간단히 쓸 수 있기 때문에 매우 편하고, 번역 성능이 준수하며, 논문 번역 시 논문의 포맷을 최대한 해치지 않고 번역 해준다.

나는 기존에 pdf 번역 툴로 DeepL을 사용하기도 했는데 글자가 겹쳐지거나, 페이지 컨텐츠가 달라지는 등 논문 포맷을 크게 깨는 경우가 많아서 유용하다 느끼진 못했다.

PDFMathTranslate를 사용하면, 아래와 같이 dual, mono 파일이 생성된다.

dual은 번역어+원어 로 페이지가 구성되어 있고, mono는 번역어만 사용된 파일이다. (이런 세심한 점도 약간 감동 포인트)

원한다면 openai나 ollama를 사용해서 번역할 수도 있다. 사용 방법은 위 깃허브에도 나와있지만 간단히 적어 놓겠다. (영어->한국어 번역 기준)

# installation
$ pip install pdf2zh
# translate en to ko
$ pdf2zh {filename}.pdf -li en -lo ko

음.. 요즘 중국 ai 행보를 보면 중국 참 기술 무섭고 대단하다는 생각이 든다 ;;

profile
춘식이랑 함께하는 개발일지.. 그런데 이제 먼작귀를 곁들인

1개의 댓글

UI 컴포넌트들의 차이점을 자세히 조사하신것 같아요. 특히 각 회사마다 Sheet와 Dialog를 다르게 정의하고 사용하는 것을 통해, 결국 팀의 컨벤션이 중요하겠다는 생각이 계속 드네요, 단순/복잡한 기능으로 구분하여 사용하기로 한 결정에서 여러가지 생각이 들었고 배워갑니다. 좋은 Common-Lit글 잘 읽었습니다!

답글 달기

관련 채용 정보