[위니브 엠버서더] 정규표현식 : Python으로 톺아보기

이상해씨·2024년 7월 19일
0

위니브 엠버서더

목록 보기
19/25
post-custom-banner

텍스트 마이닝(Text Mining)

(이미지 출처 - pixaby)


데이터는 텍스트, 이미지, 영상 등 다양한 형태가 존재한다. 이 중 텍스트는 대표적인 데이터 형태 중 하나다.

그리고 이 텍스트 데이터에서 가장 많은 비중을 차지하는 것은 비정형 데이터이다.

📌비정형 데이터는 사전에 정의된 데이터 형식이 없는 데이터로, SNS, 리뷰 데이터 같은 데이터가 대표적이다.

이 비정형 데이터는 정형 데이터로 변환한다.

📌정형데이터는 행과 열로 구성된 table 형식의 데이터로 변환하여 머신러닝, 분석에 사용한다.

그리고 이 정형 데이터에서 의미있는 인사이트나 패턴을 찾는 과정을 텍스트 마이닝이라고 한다.

📌텍스트 마이닝은 비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스이다.

👉참고 : 텍스트 마이닝이란? : IBM

정규 표현식(Regular Expression)

📌 정규 표현식은 텍스트에서특정 규칙을 가진 문자열의 짐합(패턴)을 찾기 위하여 사용되는 형식 언어.

  • 형식언어(fomal language)는 특정 규칙이나 문법에 의해 구성된 기호의 집합. 엄격한 문법 준수가 특징.

정규표현식은 텍스트 데이터에서 특정 문자열을 찾는데, 큰 도움을 준다.

그래서 텍스트 마이닝, 데이터 분석, 자연어 처리, 머신러닝 등 여러 분야에서 자주 사용하는 기능이다.

만약 데이터 직무, 특히 텍스트를 많이 다루는 분야에서 정규식은 필수적으로 알아야 하는 요소 중 하나이다.

🐱 정규표현식 : Python으로 톺아보기


위니브에서는 정규식과 관련된 강의를 제공하고 있다.

🐱 7+7 공부법


위 강의는 7가지 튜토리얼7개의 문제로 구성된 7+7공부법을 커리큘럼으로 삼고 있다.

보통 강의를 들으면 따라가기 바빠 내가 진짜 잘 학습했는지 확인하기 어려운 경우가 많다. 하지만, 본 강의는 기본적인 정규식 사용법 학습과 문제로 이루어져 있어 문제를 풀어 보면서 스스로 학습한 바를 확인할 수 있다.

🐱 학습을 위한 간단한 도구와 학습자료

1. 구글 코랩

프로그래밍 강의를 들으면 새롭게 설치해야 하는 게 많을 때도 있고, 때로는 설치하다 힘이 다빠져 학습에 집중하지 못하는 경우가 있다. 위니브에서는 구글 코랩과 regexr을 통해 데스크탑에 별도의 설치없이 학습할 수 있게 한다!

혹시 코랩을 사용해 본 경험이 없더라도 강의의 부록에 코랩 사용법 영상이 있어 참고하여 사용법을 익히면 된다.

2. regexr

(regexr - https://regexr.com/)

구글코랩은 많이 사용해봤지만, regexr은 처음 사용해 보는 것이었는데, 간단하게 regex만 테스트하기 너무 좋은 사이트였다! 나중에 실무에서 정규식 테스트가 필요할 때 요긴하게 사용할 것 같다.

3. notion 정리본, 강의자료PDF

강의를 듣다보면, 따라서 타이핑하느라 정작 머릿속에 지식을 담지 못하거나, 까먹어서 다시 찾아보는 경우가 많다.
위니브에서는 더 나은 학습을 제공하기 위해 강의 내용이 정리된 notion 페이지와 PDF를 제공한다.
강의를 다시 듣기에는 너무 시간이 오래걸리거나 간단하게 필요한 부분만 보고 싶은 경우 위 자료를 참고하면 도움이 될 것 이다.

🐱 짤막한 강의 시간

요즘 많은 정보를 빠르게 익힐 수 있는 시대여서 그런지 긴 강의를 선호하지 않게 되는 것 같다.

또한 생각보다 일상에서 긴 시간을 집중하기 위해 시간을 내는 것이 어렵기도 하고, 보다 여러 번의 짧은 시간을 낭비하는 일도 많다. 그래서 더욱 짧은 강의를 선호하게 되는 것 같다.

나 같은 사람들에게 이 강의는 더욱 적합할지도 모른다. 총 강의시간이 1시간 43분이고, 각 강의가 1분에서 최대 13분 정도로 짤막하게 구성되어 있어 잠깐의 시간이 날때, 의미있게 시간을 때울 수 있다.

🐱 마치며

혹시 정규식에 대하여 간단하게 학습 및 정리하고 싶다면 '정규표현식 : Python으로 톺아보기' 강의는 어떨까?


참고

-인프런 정규표현식: Python으로 톺아보기

profile
공부에는 끝이 없다
post-custom-banner

0개의 댓글