1. 라이브러리 호출
그래프로 Dataset의 분포를 확인하기 위해서 필요한 라이브러리를 불러오자.
먼저 운영 체제와 연동하여 파일을 호출하기 위해 os 라이브러리와 표현할 graph를 그릴 라이브러리로 matplotlib.pyplot 라이브러리를 호출#%% 라이브러리 호출 import os import matplotlib.pyplot as plt
2. 폴더의 경로와 카테고리 확인
하위 폴더 안에 저장되어있는 Rice_Image_Dataset 경로를 지정한 후, 카테고리의 이름을 미리 저장해두고, 개수를 세어둔다.
#%% 폴더 경로와 분류 카테고리 확인 image_path="./Rice_Image_Dataset/" categories=["Arborio","Basmati","Ipsala","Jasmine","Karacadag"] num_of_categories=len(categories)
3. 각 카테고리별 이미지 개수 세기
이미지를 불러오는 코드는 뒤로 하고, 이미지의 개수만을 세는 코드를 작성하여 보자. 해당 데이터는 모두 .jpg확장자를 가지고 있으며, 각각의 폴더 내에 15000장씩 들어있음을 확인할 수 있다.
#%% 개수 세기 number_of_data=[0]*num_of_categories for idx, cate in enumerate(categories): label=[0]*num_of_categories label[idx]=1 image_dir=image_path+categories[idx]+"/" print(image_dir) num=0 for top,dir,files in os.walk(image_dir): for filename in files: num+=1 number_of_data[idx]=num print(number_of_data)
결과
각각의 폴더 내부에 15000장씩 들어있음을 확인할 수 있다.
4. bar graph로 표현하기
matplotlib.pyplot 라이브러리 내에 있는 bar(x,y)를 통해 각각의 카테고리별로 사진의 개수를 막대그래프로 표현
#%% bar graph로 나타내기 plt.figure() plt.bar(categories,number_of_data)
결과