일본어에는 루비 문자 라는 게 있다.
이는 html 파일에서 이렇게 표현된다.
それでいて気は慥(たし)かである。
それでいて気は<ruby><rb>慥</rb><rp>(</rp><rt>たし</rt><rp>)</rp></ruby>かである。
이런 문자가 필요 없을 때 다음과 같이 제거해보자.
それでいて気は慥かである。
input: 원본 파일 경로, 처리 후 새로운 파일 경로
import re
def pre_processing_no_ruby(filepath, filepath2):
# filepath example: abc/main/hello.html
with open(filepath, 'r', encoding="shift-jis") as file:
text = file.read()
text_processed = re.sub("<ruby>|<\/ruby>|<rt>.+?<\/rt>|<rb>|<\/rb>|<rp>.+?<\/rp>","",text)
with open(filepath2, 'w', encoding="UTF8") as file2:
file2.write(text_processed)
원본 파일의 인코딩에 따라서
with open(filepath, 'r', encoding="shift-jis") as file:
이 부분을 수정해주어야 한다.
결과 인코딩은 범용성 높은 UTF8로 설정해두었다.
실은 이 파일은 다른 일을 하는 데에 쓰는 함수인데 정리하기가 오래 걸려서 부분이라도 올려 본다.