Pandas Series.str.extract()

Smiling Sammy·2021년 11월 30일

Preprocessing pandas python

설명

예시

ex1

ex2

참고

Python

목록 보기

2/6

설명

특정 패턴을 가지는 텍스트를 pandas DataFrame에서 정규표현식을 활용하여 추출하고 싶었다.
python의 re 라이브러리를 활용하지 않고 pandas 내부에서 작동하는 방법이 있을 것이라 생각했다.

Series.str.extract(pat, flags=0, expand=True)

pat(str): Regular expression pattern with capturing groups.

flags(int, default 0): Flags from the re module, e.g. re.IGNORECASE, that modify regular expression matching for things like case, spaces, etc. For more details, see re.

expand(bool, default True): If True, return DataFrame with one column per capture group. If False, return a Series/Index if there is one capture group or DataFrame if there are multiple capture groups.

예시

아래 예시 데이터에서 2가지 작업을 위 방법을 활용해서 진행해보겠다.
1. '00보고서' text 추출
2. '2014.12'와 같은 yyyy.mm 형식 text 추출

ex1

위에서 '00보고서'는 전부 한글로 표기가 되어있기 때문에 정규표현식 [가-힣]을 사용하면 모두 추출 할 수 있다.

ex_df['REPORT_TYPE'] = ex_df.REPORT_NM.str.extract(pat='([가-힣]+보고서)')

ex2

년월 형식은 연도(yyyy) + '.' + 월(mm) 형식으로 되어있기 때문에
[0-9]+.[0-9]+ 표현식으로 추출할 수 있다.

ex_df['REPORT_YM'] = ex_df.REPORT_NM.str.extract(pat='([0-9]+\.[0-9]+)')

참고

Smiling Sammy

Data Scientist, Data Analyst

이전 포스트

Python 변수

다음 포스트

pymysql Insert 방법

0개의 댓글

관련 채용 정보

정리습관

프론트엔드개발자(0~5년)

AI 기반 정리습관 서비스의 프론트엔드 개발자를 모집합니다. React.js 및 Next.js 경험을 활용해, 고객 맞춤형 공간 정리 솔루션을 함께 설계해보세요!

텐핑거스(10fingers)

[데이트팝]Python 백엔드 개발자(0~5년)

데이트팝은 350만 소상공인을 위한 마케팅 플랫폼으로, 유저 피드백을 즉각적으로 반영하는 B2C 서비스입니다. Python, AWS, Django 등을 활용해 REST API 개발 및 클라우드 인프라 관리 업무를 맡으며, 협력 중시의 개발 문화를 경험할 수 있습니다.

매드업

[테크사업부] 주니어 백엔드 개발자 (전문연구요원 가능)

매드업 테크사업부에서 Python으로 디지털 마케팅 자동화 솔루션을 개발하며 함께 성장할 주니어 백엔드 개발자를 찾습니다. AWS 클라우드 환경에서 혁신적인 프로덕트를 다루며, 성장을 지원하는 다양한 혜택을 제공합니다.