얼마 전 응시했던 코딩테스트에서 정규식을 활용해서 풀 수 있을 것 같은 문제가 나왔다
근데 이제 문제는 다익스트라, 플로이드, 벨만-포드, MST, LIS 등등 이것저것 다 복습해놓고 정작 Regex는 까먹은 나애요.
문제 보자마자 쇼타로가 되.
이참에 정리하면서 다시 제대로 공부해보기로!!
| 메타문자 | 기능 | 예시 |
|---|---|---|
| ? | 0번 또는 1번의 발생 | colou?r => color, colour |
| * | 0번 이상의 발생 | ab*c => ac, abc, abbc, abbbc |
| + | 1번 이상의 발생 | ab+c => abc, abbc, abbbc (ac는 불일치) |
| {n} | 정확히 n번만큼 일치 | |
| {min,} | 최소 min번 이상 일치 | |
| {min,max} | min번 이상 max번 이하 일치 | |
| . | 1개의 문자와 일치 | |
| [ ] | "["과 "]" 사이의 문자 중 하나를 선택 | [abc]d => ab, bd, cd [a-z] = a부터 z까지 중 하나 |
| [^ ] | 문자 클래스 안의 문자를 제외한 나머지 문자를 선택 | [^abc]d => ed, fd |
| ^, \A | 문자열이나 행의 처음을 의미 | |
| $, \z | 문자열이나 행의 끝을 의미 | |
| ( ) | 여러 식을 하나로 묶음 | abc|adc와 a(b|d)c는 같은 의미 |
| \n | 일치하는 패턴 중 n번째를 선택(1≤n≤9) | |
| \d | 10진수 숫자 | |
| \D | 숫자가 아닌 문자 | |
| \b | 단어 경계 | |
| \B | 단어가 아닌 경계 | |
| \s | 공백 문자 | |
| \S | 공백이 아닌 문자 | |
| \w | 단어 문자 ([a-zA-Z_0-9]와 동일할 수 있음) | |
| \W | 단어가 아닌 문자 |
| flag | 의미 | 설명 |
|---|---|---|
| i | Ignore Case | 대소문자를 구별하지 않고 검색 |
| g | Global | 문자열 내의 모든 패턴의 정규식 검색 |
| m | Multi Line | 문자열의 행이 바뀌어도 정규식을 검색 |
| s | 정규식 검색 시 \n도 포함하여 검색 | |
| u | Unicode | 정규식 검색 시 유니코드 지원 |
| y | Sticky | 문자 내 특정 위치에서 검색을 진행하는 'sticky' 모드 활성화 |
문제
푸에르토리코 아레시보에 위치한 아레시보 전파망원경(Arecibo radio telescope)은 수십 년째 존재하지 않을 지도 모르는 외계 문명으로부터의 전파를 수신하기 위해 밤하늘을 바라보고 있다.
이 망원경이 수집한 전파 속에서 자연적으로 발생하기 힘든 패턴들을 찾아내어, 그것을 증거로 외계 문명의 존재 여부를 가리려는 노력은 줄곧 이어져왔지만 아직까지도 그러한 패턴은 발견되지 않았다. 한국 천문학계의 자존심 김동혁 박사는 국내 기술로 이러한 탐사를 진행하기 위하여 다음의 전파 표기를 표준으로 삼았다.
전파의 기본 단위는 { 0 , 1 } 두 가지로 구성되어있으며, x+ ( ) 는 임의의 개수(최소 1개) x의 반복으로 이루어진 전파의 집합을 나타낸다.
(xyx)+ ( ) 는 괄호 내의 xyx의 반복으로 이루어진 전파의 집합을 뜻한다. 아래는 이해를 돕기 위한 예제이다.
1+ = { 1, 11, 111, 1111, 11111, … }
10+ = { 10, 100, 1000, 10000, 100000, … }
(01)+ = { 01, 0101, 010101, 01010101, 0101010101, … }
(1001)+ = { 1001, 10011001, 100110011001, … }
10+11 = { 1011, 10011, 100011, 1000011, 10000011, … }
(10+1)+ = { 101, 1001, 10001, 1011001, 1001101, 100011011000001, … }
반복을 의미하는 + 외에도 or 를 의미하는 | 기호가 있다. { x | y } 는 x 혹은 y 를 의미하는 것으로, { 0+ | 1+ } 는 { 0 , 1 , 00 , 11 , 000 , 111 , … } 의 집합을 의미한다. 아래는 두 기호를 복합적으로 사용한 예이다.
(100 | 11)+ = { 100 , 11 , 10011 , 11100 , 1110011100 , 100111111100100, … }
최근 김동혁 박사는 아레시보 전파망원경에서 star Vega(직녀성) 으로부터 수신한 전파 기록의 일부를 조사하여 그 전파들의 패턴을 분석하여 아래와 같이 기록하였다.
(100+1+ | 01)+
김동혁 박사는 다양한 전파 기록 중에서 위의 패턴을 지니는 전파를 가려내는 프로그램을 필요로 한다. 이를 수행할 수 있는 프로그램을 작성하라.
입력
입력의 첫 줄에는 테스트 케이스의 개수 T가 주어진다. 그 다음 줄부터 각각의 테스트 케이스에 대해 전파를 표현하는, { 0, 1 }만으로 이루어진 문자열이 공백 없이 주어진다. 문자열 길이는 (1 ≤ N ≤ 200)의 범위를 갖는다.
출력
각 테스트 케이스에 대해 주어진 전파가 문제에서 제시한 패턴이면 “YES”를 그렇지 않은 경우는 “NO”를 출력한다. 출력 문자열은 모두 대문자로 구성되어 있다.
static void Main(string[] args)
{
const string YES = "YES";
const string NO = "NO";
Regex regex = new Regex(@"^(100+1+|01)+$");
int T = int.Parse(Console.ReadLine());
StringBuilder sb = new StringBuilder();
for (int i = 0; i < T; i++)
{
if (regex.IsMatch(Console.ReadLine()))
{
sb.Append(YES).Append("\n");
} else
{
sb.Append(NO).Append("\n");
}
}
Console.WriteLine(sb.ToString());
}
Microsoft Learn .NET 정규식
C# 정규식을 사용하여 패턴 매칭(Regex, IsMatch)
정규 표현식(Regular Expression)
아무튼 교훈은 문자열 문제 풀이를 소홀히 하지 말자는 것 ^ㅠ^
끗!!