코세라 프로젝트 Time Series Data Visualization And Analysis Techniques 의 요약입니다
1. 데이터셋 전처리
2. 전체 기간 내 온도 추이 확인하기
3. 각 지역별 평균 온도 비교하기
4. 특정 지역의 월별 평균 온도 확인하기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import plot.graph_objects as go
data['avg_temp'] = round((data['avg_temp'] - 32 * 5/9 ),1)
data['avg_temp'].hist()
data = data[data['avg_temp] > -40]
(수강하다 든 생각)
데이터 아웃라이어를 쉽게 제거하는 예시였지만, 실제 데이터 활용할 때는 다른 방식으로 진행되어야 한다고 생각합니다.
저 데이터가 '어떤 상황에서 발생한 데이터인지' 한번 더 확인을 한 후 삭제를 하거나 별도로 아웃라이어 데이터들만 모아 따로 학습하는 방법도 한 가지가 되겠습니다.
data_agg = data[['year','avg_temp']].groupby(['year']).mean().reset_index()
fig = px.line(data_agg, x = 'year', y = 'avg_temp', title = 'global temp 2019 ~2029')
fig.update_xaxes(dtick = 'year')
fig.show()
coefs = np.polyfit(x = data['year'], y = data['avg_temp', deg = 1)
m = coefs[0]
c = coefs[1]
line = m * data['year'] + c
fig.add_trace(go.Scatter(x = data['year'], y = line, name = 'trend line'))
fig.show()
px.bar(data, x = 'year', y = 'avg_temp', color = 'avg_temp')
fig1 = px.line(data, x = 'year', y = 'avg_temp', color = 'region')
fig1.update_xaxes(dtick = 'year')
fig1.show()
fig2 = px.bar(data, x = 'date', y = 'avg_temp', color = 'month')
fig2.show()
fig3 = px.box(data, x = 'month', y = 'avg_temp', color = 'month')
fig3.show()