[미니 프로젝트] DL.1 Dataset의 Class 분포 확인하기

DongHyeon·2023년 12월 5일
0

미니 프로젝트

문항 1. Dataset의 Class 분포 확인하기 (graph)

1. 라이브러리 호출

그래프로 Dataset의 분포를 확인하기 위해서 필요한 라이브러리를 불러오자.
먼저 운영 체제와 연동하여 파일을 호출하기 위해 os 라이브러리와 표현할 graph를 그릴 라이브러리로 matplotlib.pyplot 라이브러리를 호출

#%% 라이브러리 호출
import os
import matplotlib.pyplot as plt 

2. 폴더의 경로와 카테고리 확인

하위 폴더 안에 저장되어있는 Rice_Image_Dataset 경로를 지정한 후, 카테고리의 이름을 미리 저장해두고, 개수를 세어둔다.

#%% 폴더 경로와 분류 카테고리 확인
image_path="./Rice_Image_Dataset/"
categories=["Arborio","Basmati","Ipsala","Jasmine","Karacadag"]
num_of_categories=len(categories)

3. 각 카테고리별 이미지 개수 세기

이미지를 불러오는 코드는 뒤로 하고, 이미지의 개수만을 세는 코드를 작성하여 보자. 해당 데이터는 모두 .jpg확장자를 가지고 있으며, 각각의 폴더 내에 15000장씩 들어있음을 확인할 수 있다.

#%% 개수 세기
number_of_data=[0]*num_of_categories
for idx, cate in enumerate(categories):
    label=[0]*num_of_categories
    label[idx]=1
    image_dir=image_path+categories[idx]+"/"
    print(image_dir)
    num=0
    for top,dir,files in os.walk(image_dir):
        for filename in files:
            num+=1
    number_of_data[idx]=num
print(number_of_data)

결과

각각의 폴더 내부에 15000장씩 들어있음을 확인할 수 있다.

4. bar graph로 표현하기

matplotlib.pyplot 라이브러리 내에 있는 bar(x,y)를 통해 각각의 카테고리별로 사진의 개수를 막대그래프로 표현

#%% bar graph로 나타내기
plt.figure()
plt.bar(categories,number_of_data)

결과

profile
I'm Free!

0개의 댓글