[TIL]Day 224

이재희·2021년 7월 12일
0

TIL

목록 보기
224/312

한글 정규식 인코딩 관련

test는 정규식으로 한글 추출하는 함수였는데 똑같아 보였는데 'ㄹ'을 직접 입력한것과 결과가 달랐음

해결방법
코드포인트를 직접 쓰는 방법
r = re.compile(r'[\uAC00-\uD7AF|\u1100-\u11FF|\uA960-\uA97F|\uD7B0-\uD7FF|\u3130-\u318F]+')

참고
https://ko.wikipedia.org/wiki/%EC%9C%A0%EB%8B%88%EC%BD%94%EB%93%9C_%EC%98%81%EC%97%AD

노멀라이즈
https://github.com/HaebinShin/jamotools

profile
오늘부터 열심히 산다

0개의 댓글