참가하려고했더니 public기간이 끝났더라고..그래서 데이터들로 데이터간 상관관계 분석하는 실습해보기
참고데이터 : DACON 2021농산물 가격예측 AI 경진대회
import os
import io
import zipfile
from zipfile import ZipFile
import pandas as pd
import requests
import numpy as np
from glob import glob
import multiprocessing
import pickle
with ZipFile('235801_2021 농산물 가격예측 AI 경진대회.zip', 'r') as zipObj:
zipObj.extractall('DATA')
labels = pd.read_csv('DATA/public_data/train.csv')
labels
# 데이터불러오기
데이터를 보니까 0값이 있는(거래가 없는) 날도 있고 요일별로 품목이 다 안보인다.
print(labels.isnull().sum()) #빈 값 없음. 그러나 거래량에 0인 항목은 있음.
print("number of data :",len(labels)) # 전체 데이터 개수
# number of data : 1733
# 품목이 많아서 배추만 간략하게 살펴보기
beachu = labels[["date","요일","배추_거래량(kg)","배추_가격(원/kg)"]]
index = beachu[beachu["배추_거래량(kg)"]==0.0].index
# 0.0값을 지워준다.
beachu2 = beachu.drop(index)
beachu2
beachu2[['요일', '배추_거래량(kg)']].groupby(['요일'],
as_index=False).mean().sort_values(by='배추_거래량(kg)',
ascending=False)
beachu2[["배추_거래량(kg)", "배추_가격(원/kg)"]].groupby(["배추_거래량(kg)"],
as_index=False).mean().sort_values(by="배추_가격(원/kg)",
ascending=False)
그런데 난 년, 월, 일별로 거래량과 가격을 보고싶어서 날짜를 분리해주었다.
import datetime
beachu2["date"] = pd.to_datetime(beachu2["date"])
beachu2['Year'] = beachu2['date'].dt.year
beachu2['Month'] =beachu2['date'].dt.month
beachu2['day'] =beachu2['date'].dt.day
beachu2
년도별 배추 가격 및 거래량(코드 생략)
월별
일별은 출력결과 큰 의미가 없을 것 같아 무시하기로 했다.