수를 처리하는 것은 통계학에서 상당히 중요한 일이다. 통계학에서 N개의 수를 대표하는 기본 통계값에는 다음과 같은 것들이 있다. 단, N은 홀수라고 가정하자.
산술평균 : N개의 수들의 합을 N으로 나눈 값
중앙값 : N개의 수들을 증가하는 순서로 나열했을 경우 그 중앙에 위치하는 값
최빈값 : N개의 수들 중 가장 많이 나타나는 값
범위 : N개의 수들 중 최댓값과 최솟값의 차이
N개의 수가 주어졌을 때, 네 가지 기본 통계값을 구하는 프로그램을 작성하시오.
첫째 줄에 수의 개수 N(1 ≤ N ≤ 500,000)이 주어진다. 단, N은 홀수이다. 그 다음 N개의 줄에는 정수들이 주어진다. 입력되는 정수의 절댓값은 4,000을 넘지 않는다.
첫째 줄에는 산술평균을 출력한다. 소수점 이하 첫째 자리에서 반올림한 값을 출력한다.
둘째 줄에는 중앙값을 출력한다.
셋째 줄에는 최빈값을 출력한다. 여러 개 있을 때에는 최빈값 중 두 번째로 작은 값을 출력한다.
넷째 줄에는 범위를 출력한다.
#include <iostream>
using namespace std;
int main() {
int N, count[8001] = {0, }, sum = 0;
scanf("%d", &N);
// 입력 받을 때 마다 count
for(int tmp, i = 0; i < N; i++) {
scanf("%d", &tmp);
sum += tmp;
count[tmp + 4000]++;
}
// 산술평균
printf("%.0lf\n", (double)sum/N);
// 중앙값
for(int acc = 0, i = 0; i < 8001; i++) {
acc += count[i];
if(acc > N/2) {
printf("%d\n", i - 4000);
break;
}
}
// 최빈값
int mode, max = 8000;
for(int i = 8001; i-- > 0;) {
if(count[max] < count[i]) {
mode = i;
max = i;
} else if(count[max] == count[i]) {
mode = max;
max = i;
}
}
printf("%d\n", mode - 4000);
// 범위
for(int i = 8001; i-- > 0;) {
if(count[i] > 0) {
max = i;
break;
}
}
for(int i = 0; i < 8001; i++) {
if(count[i] > 0) {
printf("%d\n", max - i);
break;
}
}
}
이 문제는 애초에 count sort를 활용해 풀어야 하는 문제인 것 처럼 count sort를 사용해 쉽게 풀 수 있었다.
count[8001]은 -4000 부터 4000까지의 숫자를 4000의 offset을 가진 배열로 나타내 해당 index가 나타내는 숫자의 개수를 갖는 배열이다.