특정한 패턴이 등장할 때 문자열을 나눈다
예) 마침표로 문장 구분
대부분의 문장은 마침표, 느낌표, 물음표로 끝나기 때문에 이러한 특성을 이용해서 문장을 나눌 수 있다
re.split(패턴, 문자열)
>>> sentence = 'I love a lovely dog, really. I am not telling a lie. What a pretty dog! I love this dog.'
# 마침표 다음까지 문장을 인식해서 총 5문장이 출력되었다
>>> re.split(`r'[.!?]`, sentence)
['I love a lovely dog, really', 'I am not telling a lie', 'What a pretty dog', 'I love this dog']
data를
먼저 a, b, c를 구분하고 있는 세미콜론으로 한 번 쪼갠 다음에
다시 콜론을 기준으로 나누면 데이터셋 dataset
을 만들 수 있다
이런 형태로 나눠진 데이터는 CSV 파일로 저장해 엑셀로 불러낼 수 있다
>>> data = 'a:3; b:4; c:5'
>>> for in re.split(r';', data): # 먼저 세미콜론으로 전체 데이터를 한 번 구분한다
print(re.split(r';', i) # 나눠진 데이터를 다시 콜론을 기준으로 나눈다
['a', ' 3']
['b', ' 4']
['c', ' 5']
정규표현식은 정말 많은 문법과 메타문자로 이뤄져있지만, sub() 메서드
처럼 많이 쓰는 명령어도 드물다
메타 문자: 문자가 아닌, 패턴을 읽기 위한 [
, ]
, -
, .
등의 문자