문자열 안에서 숫자만 추출하는 방법

Error Coder·2022년 11월 16일
0

1. 모든 숫자들을 1개의 문자열로 추출

re.sub()의 Syntax는 다음과 같습니다.

sub()는 string에서 pattern과 일치하는 문자들을 repl로 교체합니다.

re.sub(pattern, repl, string)

다음과 같이 sub()를 사용하여 문자열에서 숫자가 아닌 문자를 모두 제거하고 숫자로 구성된 문자열을 만들 수 있습니다.

import re

string = 'aaa1234, ^&*2233pp'
numbers = re.sub(r'[^0-9]', '', string)
print(numbers)

Output:

12342233

2. 연속된 숫자들을 추출하여 List로 리턴

re.findall(pattern, string)은 string에서 pattern에 해당하는 내용들을 찾아서 리스트로 리턴합니다.

r'\d+'는 1회 이상 반복되는 숫자들에 대한 패턴을 의미합니다.

다음과 같이 연속된 숫자들을 하나의 Integer로 추출합니다.

import re

string = 'aaa1234, ^&*2233pp'
numbers = re.findall(r'\d+', string)
print(numbers)

Output:

['1234', '2233']

3. 문자열 패턴 속의 숫자 추출

예를 들어, "Request 12345 Finished" 와 같은 문자열에서 가운데 숫자를 추출하고 싶을 때가 있습니다.

즉, Request (pattern) Finished와 같은 형식으로, 포맷은 고정되어있는데 가운데 숫자만 달라지는 상황입니다.

이럴 때는, 아래와 같이 정규식으로 가운데 숫자만 읽을 수 있습니다.

import re

str = "Request 12345 Finished."
pattern = "Request ([0-9]+) Finished."

result = re.search(pattern, str)
print(result.group(1))

Output:

12345

참고로, group(1)는 일치하는 그룹 중에 가장 첫번째 항목을 의미하며, group(0)은 입력된 문자열을 의미합니다.

group에 대해서 좀 더 알아보기 위해, 아래와 같이 2개 그룹을 갖고 있는 패턴을 만들고 실행 결과를 보면 group(1)과 group(2)가 출력하는 것과, groups()가 출력하는 것이 무엇인지 볼 수 있습니다.

import re

str = "Request 12345 Finished. 67890"
pattern = "Request ([0-9]+) Finished. ([0-9]+)"

result = re.search(pattern, str)
print(result.group(0))
print(result.group(1))
print(result.group(2))
print(result.groups())

Output:

Request 12345 Finished. 67890
12345
67890
('12345', '67890')

4. 숫자 추출 및 낱개로 분리하여 List로 리턴

r'\d'는 1개의 숫자를 의미합니다.

1개 이상의 반복을 의미하는 +가 제외된 패턴으로 패턴을 찾으면, 숫자 1개 단위로 추출되어 리스트에 저장됩니다.

import re

string = 'aaa1234, ^&*2233pp'
numbers = re.findall(r'\d', string)
print(numbers)

Output:

['1', '2', '3', '4', '2', '2', '3', '3']
profile
개발자 지망생

0개의 댓글