[Algorithm] Programmers : [1차] 캐시 by Python

엄희관·2020년 12월 2일
0

Algorithm

목록 보기
18/128
post-thumbnail

[문제 바로가기] https://programmers.co.kr/learn/courses/30/lessons/17680

📌문제 설명

지도개발팀에서 근무하는 제이지는 지도에서 도시 이름을 검색하면 해당 도시와 관련된 맛집 게시물들을 데이터베이스에서 읽어 보여주는 서비스를 개발하고 있다.
이 프로그램의 테스팅 업무를 담당하고 있는 어피치는 서비스를 오픈하기 전 각 로직에 대한 성능 측정을 수행하였는데, 제이지가 작성한 부분 중 데이터베이스에서 게시물을 가져오는 부분의 실행시간이 너무 오래 걸린다는 것을 알게 되었다.
어피치는 제이지에게 해당 로직을 개선하라고 닦달하기 시작하였고, 제이지는 DB 캐시를 적용하여 성능 개선을 시도하고 있지만 캐시 크기를 얼마로 해야 효율적인지 몰라 난감한 상황이다.

어피치에게 시달리는 제이지를 도와, DB 캐시를 적용할 때 캐시 크기에 따른 실행시간 측정 프로그램을 작성하시오.

입력 형식 )
캐시 크기(cacheSize)와 도시이름 배열(cities)을 입력받는다.
cacheSize는 정수이며, 범위는 0 ≦ cacheSize ≦ 30 이다.
cities는 도시 이름으로 이뤄진 문자열 배열로, 최대 도시 수는 100,000개이다.
각 도시 이름은 공백, 숫자, 특수문자 등이 없는 영문자로 구성되며, 대소문자 구분을 하지 않는다. 도시 이름은 최대 20자로 이루어져 있다.
출력 형식
입력된 도시이름 배열을 순서대로 처리할 때, 총 실행시간을 출력한다.

조건 )
캐시 교체 알고리즘은 LRU(Least Recently Used)를 사용한다.
cache hit일 경우 실행시간은 1이다.
cache miss일 경우 실행시간은 5이다.

입출력 예제 )

💡 문제 풀이

실제 코딩 테스트에서도 "캐시"와 "LRU" 키워드가 주어졌는지는 모르겠으나 주어졌다면 해당 문제는 쉽게 풀 수 있을것이다.
하지만 "캐시"가 정확히 뭔지 몰라서 입출력 예제를 보면서 유추했었다..😂

먼저 캐시란???

"프로그램이 수행될 때 나타나는 지역성을 이용하여 메모리나 디스크에서 사용되었던 내용을 특별히 빠르게 접근할 수 있는 곳에 보관하고 관리함으로써 이 내용을 다시 필요로할 때 보다 빠르게 참조하도록 하는 것"

쉽게 말하면 사용한 데이터는 재사용할 가능성이 높다는 개념을 이용하여 재사용 확률이 높은 데이터를 좀 더 빠르게 접근 가능하도록 저장소를 사용한다는 개념이다.

  • Cache Hit : CPU가 참조하고자 하는 메모리가 캐시에 존재하고 있을 경우
  • Cache Miss : CPU가 참조하고자 하는 메모리가 캐시에 존재하지 않을 경우

출처: https://richong.tistory.com/95

다음으로 LRU(Latest Recently Used)란??

캐시에서 메모리를 다루기 위해 사용되는 알고리즘 중 가장 유명한 알고리즘

캐시가 사용하는 리소스의 양이 제한되어 있고, 캐시는 제한된 리소스 내에서 데이터를 빠르게 저장 및 접근할 수 있어야 한다.

이를 위해 LRU 알고리즘은 메모리 상에서 가장 최근에 사용된 적이 없는(=오랫동안 사용하지 않은) 캐시의 메모리부터 대체하며 새로운 데이터로 갱신시켜준다.

ex) 캐시의 크기 = 3 | 가장 왼쪽이 최근에 사용

step1) Jeju → Pangyo → Seoul 순으로 호출 👉 [ Seoul | Pangyo | Jeju ]
step2) Jeju 캐시를 호출 👉 [ Jeju | Seoul | Pangyo ]

  • Cache Hit

step3) NewYork 데이터를 캐시에 새로 씀 👉 [ NewYork | Jeju | Seoul ]

  • Cache Miss

완벽한 FIFO(First in First Out)의 개념은 아니지만 queue의 자료구조를 사용하는 것이 적절하다고 생각하였다.

하지만 잦은 자료이동은 시간복잡도 증가를 초래하기 때문에 deque를 사용하였다.

  • goToBack 함수 : 재사용된 데이터를 최신으로 이동시키기 위한 함수다.

  • idx : cities 리스트에 사용할 인덱스다.
    처음 캐시에 데이터를 넣는 동안에도 Cache Hit가 발생할 수 있기 때문에 cacheSize를 만족시킬 때 까지 확인이 필요하다고 생각하여 변수를 생성했다.
    ex) cacheSize = 3 | "Seoul" → "NewYork" → "Seoul" → "Jeju"일 경우
    결과는 [Seoul | NewYork | Seoul]이 아닌 [NewYork | Seoul | Jeju]다.

또한, 도시의 이름에는 공백, 특수문자가 없는 영문자이지만 대소문자를 구분하지 않는다고 하였으므로 모든 도시 이름을 lower()함수를 이용한 소문자로 비교하였다.

from collections import deque

def goToBack(city, queue):
    queue.remove(city.lower())
    queue.append(city.lower())
    return queue

def solution(cacheSize, cities):
    answer = 0
    if cacheSize == 0: # cacheSize가 0이면 도시갯수 * 5값을 return
        return len(cities) * 5
    queue = deque([])
    idx = 0 # cities 리스트에 사용할 인덱스
    while True:
        if len(queue) == cacheSize: # queue가 cacheSize를 만족하면 Break
            break
        if idx == len(cities): # cacheSize를 만족하기 전  cities 탐색을 완료했다면 Break
            break
        if cities[idx].lower() not in queue: # 캐시에 데이터가 없다면 소문자로 queue에 추가
            queue.append(cities[idx].lower())
            idx += 1
        else: # 캐시에 데이터가 존재한다면 goToBack 함수 실행 & answer += 1(cacheHit)
            goToBack(cities[idx], queue)
            answer += 1 # cache Hit 이므로 +1
            idx += 1
    answer += len(queue) * 5 # queue에 들어있는 데이터 수 = cache Miss의 수  

    for i in range(idx, len(cities)): # idx 이후의 cities에 대해서 작업실시
        if cities[i].lower() in queue:
            answer += 1
            goToBack(cities[i], queue)
        else:
            answer += 5
            queue.popleft()
            queue.append(cities[i].lower())
    return answer
profile
허브

0개의 댓글