[Python] 일본어 루비 태그 제거

해질녘·2022년 9월 16일
0

개요

일본어에는 루비 문자 라는 게 있다.

이는 html 파일에서 이렇게 표현된다.

それでいて気は慥(たし)かである。

それでいて気は<ruby><rb></rb><rp></rp><rt>たし</rt><rp></rp></ruby>かである。

이런 문자가 필요 없을 때 다음과 같이 제거해보자.

それでいて気は慥かである。

코드

input: 원본 파일 경로, 처리 후 새로운 파일 경로

import re

def pre_processing_no_ruby(filepath, filepath2):

    # filepath example: abc/main/hello.html
    
    with open(filepath, 'r', encoding="shift-jis") as file:
        text = file.read()
        text_processed = re.sub("<ruby>|<\/ruby>|<rt>.+?<\/rt>|<rb>|<\/rb>|<rp>.+?<\/rp>","",text)
        
    with open(filepath2, 'w', encoding="UTF8") as file2:
        file2.write(text_processed)

원본 파일의 인코딩에 따라서

with open(filepath, 'r', encoding="shift-jis") as file:

이 부분을 수정해주어야 한다.

결과 인코딩은 범용성 높은 UTF8로 설정해두었다.

실은 이 파일은 다른 일을 하는 데에 쓰는 함수인데 정리하기가 오래 걸려서 부분이라도 올려 본다.

0개의 댓글