[이진탐색] Q30 가사 검색

Minsang Kang·2023년 4월 14일
0

CodingTest

목록 보기
30/35

난이도: 3 / 풀이 시간: 1시간 30분
link: https://school.programmers.co.kr/learn/courses/30/lessons/60060

주의! 이 문제는 기본 코드가 제공되므로 상기 링크를 통해서 문제를 풀어야 합니다.

본 문제는 정확성과 효율성 테스트 각각 점수가 있는 문제입니다.

친구들로부터 천재 프로그래머로 불리는 "프로도"는 음악을 하는 친구로부터 자신이 좋아하는 노래 가사에 사용된 단어들 중에 특정 키워드가 몇 개 포함되어 있는지 궁금하니 프로그램으로 개발해 달라는 제안을 받았습니다.

그 제안 사항 중, 키워드는 와일드카드 문자중 하나인 '?'가 포함된 패턴 형태의 문자열을 뜻합니다. 와일드카드 문자인 '?'는 글자 하나를 의미하며, 어떤 문자에도 매치된다고 가정합니다.
예를 들어 "fro??""frodo", "front", "frost" 등에 매치되지만 "frame", "frozen"에는 매치되지 않습니다.

가사에 사용된 모든 단어들이 담긴 배열 words와 찾고자 하는 키워드가 담긴 배열 queries가 주어질 때, 각 키워드 별로 매치된 단어가 몇 개인지 순서대로 배열에 담아 반환하도록 solution 함수를 완성해 주세요.

가사 단어 제한사항

  • words의 길이(가사 단어의 개수)는 2 이상 100,000 이하입니다.
  • 각 가사 단어의 길이는 1 이상 10,000 이하로 빈 문자열인 경우는 없습니다.
  • 전체 가사 단어 길이의 합은 2 이상 1,000,000 이하입니다.
  • 가사에 동일 단어가 여러 번 나올 경우 중복을 제거하고 words에는 하나로만 제공됩니다.
  • 각 가사 단어는 오직 알파벳 소문자로만 구성되어 있으며, 특수문자나 숫자는 포함하지 않는 것으로 가정합니다.

검색 키워드 제한사항

  • queries의 길이(검색 키워드 개수)는 2 이상 100,000 이하입니다.
  • 각 검색 키워드의 길이는 1 이상 10,000 이하로 빈 문자열인 경우는 없습니다.
  • 전체 검색 키워드 길이의 합은 2 이상 1,000,000 이하입니다.
  • 검색 키워드는 중복될 수도 있습니다.
  • 각 검색 키워드는 오직 알파벳 소문자와 와일드카드 문자인 '?' 로만 구성되어 있으며, 특수문자나 숫자는 포함하지 않는 것으로 가정합니다.
  • 검색 키워드는 와일드카드 문자인 '?'가 하나 이상 포함돼 있으며, '?'는 각 검색 키워드의 접두사 아니면 접미사 중 하나로만 주어집니다.
    • 예를 들어 "??odo", "fro??", "?????"는 가능한 키워드입니다.
    • 반면에 "frodo"('?'가 없음), "fr?do"('?'가 중간에 있음), "?ro??"('?'가 양쪽에 있음)는 불가능한 키워드입니다.

풀이 특징

  • 핵심 아이디어: ? -> a, z 문자로 replace 하여 bisect_left, bisect_right 함수를 통해 개수를 구한다.
  • ?로 끝나는 문자: leftValue = query.replace('?', 'a'), rightValue = query.replace('?', 'z')
  • ?로 시작하는 문자: bisect 함수를 사용하기 위해선 정렬이 필수, 따라서 query 문자를 역방향으로 수정 후 탐색해야 한다.
  • 문자 역순 = query[::-1]
  • 정렬 내 개수를 파악하기 위해선 word 길이별로 배열을 쪼갠 후 query 길이에 맞는 배열 내에서 bisect 를 진행한다.
  • arrayOfSizes = [[] for _ in range(10001)]
  • reversedArrayOfSizes = [[] for _ in range(10001)]
  • 각 word 별 len(word) 에 따라 알맞는 배열 내 정방향, 역박향 word 값들을 삽입
  • 각 query 별 ?로 끝나는 경우 정방향배열, ?로 시작하는 경우 역방향배열 내에서 count_by_range 함수를 통해 개수를 구한다.
from bisect import bisect_left, bisect_right

# 배열 내 leftValue 이상 rightValue 이하 개수 반환
def count_by_range(array, leftValue, rightValue):
    leftIndex = bisect_left(array, leftValue)
    rightNextIndex = bisect_right(array, rightValue)
    return rightNextIndex - leftIndex

# 키워드 길이별 배열 생성 (정방향, 역방향)
arrayOfSizes = [[] for _ in range(10001)]
reversedArrayOfSizes = [[] for _ in range(10001)]


def solution(words, queries):
    answer = []
    
    # 각 word 를 길이별 정방향, 역방향 배열 내 추가
    for word in words:
        size = len(word)
        arrayOfSizes[size].append(word)
        reversedArrayOfSizes[size].append(word[::-1])
        
    # 이진탐색을 위해서 sort
    for i in range(10001):
        arrayOfSizes[i].sort()
        reversedArrayOfSizes[i].sort()
        
    # 모든 쿼리 확인
    for query in queries:
        size = len(query)
        
        # ?로 끝나는 query -> ? 를 a, z로 변환
        if query[0] != '?':
            leftValue = query.replace('?', 'a')
            rightValue = query.replace('?', 'z')
            count = count_by_range(arrayOfSizes[size], leftValue, rightValue)
            answer.append(count)
        # ?로 시작하는 query -> reverse 후 ? 를 a, z로 변환
        else:
            leftValue = query[::-1].replace('?', 'a')
            rightValue = query[::-1].replace('?', 'z')
            count = count_by_range(reversedArrayOfSizes[size], leftValue, rightValue)
            answer.append(count)

    return answer
    ```
profile
 iOS Developer

0개의 댓글