수를 처리하는 것은 통계학에서 상당히 중요한 일이다. 통계학에서 N개의 수를 대표하는 기본 통계값에는 다음과 같은 것들이 있다. 단, N은 홀수라고 가정하자.
N개의 수가 주어졌을 때, 네 가지 기본 통계값을 구하는 프로그램을 작성하시오.
첫째 줄에 수의 개수 N(1 ≤ N ≤ 500,000)이 주어진다. 단, N은 홀수이다. 그 다음 N개의 줄에는 정수들이 주어진다. 입력되는 정수의 절댓값은 4,000을 넘지 않는다.
첫째 줄에는 산술평균을 출력한다. 소수점 이하 첫째 자리에서 반올림한 값을 출력한다.
둘째 줄에는 중앙값을 출력한다.
셋째 줄에는 최빈값을 출력한다. 여러 개 있을 때에는 최빈값 중 두 번째로 작은 값을 출력한다.
넷째 줄에는 범위를 출력한다.
import sys
input = sys.stdin.readline
n = int(input())
list1 = []
for _ in range(n):
list1.append(int(input()))
list1.sort()
list3 = list(set(list1))
cnt = [[x, list1.count(x)] for x in list3]
maxcnt = max([x[1] for x in cnt])
list2 = [x for x in cnt if x[1]==maxcnt]
list2.sort(key=lambda x:x[0])
# mean
print(round(sum(list1)/n))
# median
if n%2==1:
print(list1[n//2])
else:
print((list1[n/2-1]+list1[n/2])/2)
# mode
if len(list2) >= 2:
print(list2[1][0])
else:
print(list2[0][0])
# range
print(list1[-1]-list1[0])
처음에는 최빈값을 구할 때 리스트로 해버렸더니 시간 초과가 떴다.
아래와 같이 딕셔너리를 이용하면 시간 초과가 뜨지 않고 정답을 받을 수 있다.
import sys
input = sys.stdin.readline
n = int(input())
list1 = []
for _ in range(n):
list1.append(int(input()))
list1.sort()
cnt = {}
for x in list1:
if x in cnt.keys():
cnt[x] += 1
else:
cnt[x] = 1
maxcnt = max(cnt.values())
maxlist = [k for k, v in cnt.items() if v==maxcnt]
maxlist.sort()
# mean
print(round(sum(list1)/n))
# median
if n%2==1:
print(list1[n//2])
else:
print((list1[n/2-1]+list1[n/2])/2)
# mode
if len(maxlist) >= 2:
print(maxlist[1])
else:
print(maxlist[0])
# range
print(list1[-1]-list1[0])
항상! 딕셔너리가 리스트보다 빠르다는 것을 기억하자!