https://github.com/KYOH95/ds-section1-sprint2-new
import pandas as pd
import numpy as np
import random
import matplotlib.pyplot as plt
import seaborn as sns
from google.colab import files
files.upload()
df = pd.read_csv('데이터세트.csv')
df.shape
df.isnull().sum()
df.info()
df = df.dropna(axis=0)
df = df.reset_index(level=None, drop=True, inplace=False, col_level=0, col_fill='')
from scipy.stats import chisquare
condition = df["칼럼명"] == 1 & df["칼럼명"] > 2
df[condition]
df["칼럼명"].nunique()
pd.crosstab(index = [df.Marital_Status], columns = df.Country)
참조: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html
chisquare(f_obs = array_obs, f_exp = array_exp, axis=None)
참조: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.chisquare.html
p-value가 3.35512*e^(-257)이기 때문에 사실상 0에 가깝다. 즉 유의미 하다고 볼 수 있는 수치 0.05(5%) 보다 작기 때문에 귀무 가설이 기각되고 대립가설이 성립된다.
만약 0.05 보다 높은 수치가 나온다면 대립가설이 기각되고 귀무가설이 채택된다.