
โ๏ธ 11์ 7์ผ ์ฟ ๋ค ๊ด์ฌ๋ถ์ผ ํ๋ก์ ํธ ํ์ต ์ฃผ์ ๊ฐ ์ ํด์ก๋ค. ํจ์ค์ค๋น , ์์ง์ด, ์์ง์ ํจ๊ป Kaggle OTTO ๋ํ์ ์ฐธ์ฌํ๊ธฐ๋ก ํ์๋ค. ๊ทธ๋ฆฌ๊ณ 11์ 9์ผ๋ถํฐ ํ๋ก์ ํธ ์ค๋น ๊ธฐ๋ก ๊ณผ์ ์ ๋จ๊ธฐ๊ธฐ๋ก ํ๋ค. ํ์ดํ !-! ๐ช
โ
๋ํ ์๋ด ๋งํฌ : https://www.kaggle.com/c/otto-recommender-system

โ
๋ํ ๋ฐ์ดํฐ์
๋งํฌ : https://github.com/otto-de/recsys-dataset

๐ธ๐ธ ํํ์ค๋น ํํ ์ ํ์์ ํจ์ค์ค๋น ๋ ๊ฐ์ด ์ ๋จน์ํด์ ๊ฑ ๊ด๋์๋ค. ๐ธ๐ธ
โ๏ธ ์ค๋์ ๋น๋๋ฉด์ผ๋ก ์คํ 10์์ ๊ฐ๋จํ ํ์๊ฐ ์์๋ค. ๋ฐ์ดํฐ์ ์ด๋๊ณผ ํฅํ ์งํ ๊ณํ์ ๋ํ ๊ฐ๋จํ ์ค๋ช ์ด ์์๋ค.
โ "train.jsonl" ํ์ผ์ด ์ด๋ป๊ฒ ๊ตฌ์ฑ๋์ด์๋์ง ํ์ธํ ์ ์๋ ๋ถ๋ถ์ด๋ค. session id๋ user id์ ํด๋นํ๋ค๊ณ ์๊ฐํ๋ฉด ๋๋ค.
โ
์ ๋์ค ์๊ฐ์ ์๊ฐ์ ๋ํ๋ด๋ ๋ฐฉ์์ด๋ค. POSIX ์๊ฐ์ด๋ Epoch ์๊ฐ์ด๋ผ๊ณ ๋ถ๋ฅด๊ธฐ๋ ํ๋ค. 1970๋
1์ 1์ผ 00:00:00 ํ์ ์ธ๊ณ์ ๋ถํฐ์ ๊ฒฝ๊ณผ ์๊ฐ์ ์ด๋ก ํ์ฐํ์ฌ ์ ์๋ก ๋ํ๋ธ ๊ฒ์ด๋ค. (์ํค๋ฐฑ๊ณผ)

โ
Notion ํ์๋ก

๐ ํ์ ๋น์ ํจ์ค์ค๋น ๊ฐ ์ค๋ช ํด์ค ๋ถ๋ถ์ ๋ฐ์์ ์ ๊ธฐ๋ก.txt ๐
โ๏ธ ๋ฐ์ดํฐ์ ๋ถํ ๋ฐฉ์
ํ๋ณด๊ตฐ ์ ํ -> ์ ์ฒ๋ฆฌ ๋ฐฉ์์ ๋ฐ๋ผ ์ ํ
๋ญํน-> ๋ฝ์ ํ๋ณด๊ตฐ์ ์์๋ฅผ ๋ฝ๋๋ค. 3๊ฐ์ง ๋ฐฉ์.
โ๏ธ ๋ฐ์ดํฐ ์ ์ฒ๋ฆฌ
์ธ์ ๋น ์ ธ์๋ ๋ฐ์ดํฐ ->์ฐจํ์ ๋ ผ์. ์ธ์ ์ง๊ณํ๋์ง์ ๋ฐ๋ผ ์๊ฐ์ด ๊ฐ๋ฆฐ๋ค.์๋ฌด๋ฐ ํด๋ฆญ ์์ด ์ฃผ๋ฌธํ๋ค๊ณ ๋จ๋ ๊ฒฝ์ฐ ์๋ค. EDA ์ดํ๋ก ์งํํ ์์ .
โ๏ธ ์ด๋ค ์ถ์ฒ ์๊ณ ๋ฆฌ์ฆ์ ์ธ ๊ฒ์ธ์ง
OTTO - multiple objective ๋ค๋ชฉ์ ์ฑ : ์์ธกํ๋ y labeling์ด ์ฌ๋ฌ๊ฐ.
unique ์ฌ์ฉ์์ ๋ํด ๋ญ ํด๋ฆญํ๋์ง ์ด ์ง ๋ง์ง ๋ฑ์ ์ข ํฉ์ ์ผ๋ก ์์ธก, ์์ธก ์ด 4๊ฐ์ง
aid๊ฐ ์ถ์ ์ ์ํด event ๊ธฐ๋ฐ์ผ๋ก.
โ๏ธ EDA ๋ฐ์ดํฐ ์ ๊ทผ ์ดํ์. ๊ฐ์ EDAํด์ ๋ฐ์ดํฐ ๋ถํฌ. EDA ํ ๋ ๋์ค๋ ํน์ฑ ๋ฐํ์ผ๋ก ํ๋ณด๊ตฐ ์ ํํ๋ ๊ฒ๋ ๊ด์ฐฎ์ ๊ฒ ๊ฐ๋ค.
โ๏ธ Reference๋ฅผ ๋ณด๋ ํด๋ฆญํ ์ํ์ ๊ตฌ๋งค ๋น์จ์ด ๋์ ๋์์ ๋ฐฉ๋ฌธํ ์ฌ๋๋ค์ ํ๋ ฌ์ ๋ฃ์ด๋๊ณ ์ผ๋ฐํํด์ ๋ญํน์ ๋งค๊ธด ๊ฒฝ์ฐ ์๋ค (co-visitation).
โ๏ธ ํ๋ณด๊ตฐ ์์ฑ ์ํ๊ณ ๋๋ ค๋ ๊ด์ฐฎ์ง๋ง ์๊ฐ์ด ๋๋ฌด ์ค๋๊ฑธ๋ฆฐ๋ค. ํ๋ณด๊ตฐ ์์ฑ ํ์ํ ๊ฒ ๊ฐ๋ค.
โ ๋ค์ ํ์๋ 11์ 14์ผ 19์ ๋๋ฉด์ผ๋ก ์งํํ ์์ ์ด๋ค. ์ค๋น๋ ์ฃผ๋ง ํฌํจํด์ ํด์ผ๊ฒ ๋ค. ์ค๋์ ๋.
โ๏ธ 10์ผ ์งํํ๋ ํ์ ๋ด์ฉ์ ๋ฐํ์ผ๋ก ์ค๋น๋ฅผ ์์ํ๋ค. EDA๋ฅผ ์ํด์ ํ์ดํ !-! ๐ช๐ช
โ Candidate Generation (ํ๋ณด๊ตฐ ์ ํ)
โ๏ธ ์ถ์ฒ : https://developers.google.com/machine-learning/recommendation/overview/candidate-generation
โ๏ธ ํ๋ณด ์์ฑ์ ์ถ์ฒ์ ์ฒซ ๋ฒ์งธ ๋จ๊ณ์ด๋ค. ์ฟผ๋ฆฌ๊ฐ ์ฃผ์ด์ง๋ฉด ์์คํ ์ ๊ด๋ จ ํ๋ณด ์งํฉ์ ์์ฑํ๋ค. ์๋ ํ๋ ๋ ๊ฐ์ง์ ์ผ๋ฐ์ ์ธ ํ๋ณด ์์ฑ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค๋ค. ์ปจํ ์ธ ๊ธฐ๋ฐ ํํฐ๋ง์ ์ฌ์ฉ์๊ฐ ์ข์ํ๋ ์์ดํ ์ ๊ธฐ๋ฐ์ผ๋ก ์ถ์ฒํ๋ ๋ฐฉ๋ฒ, ํ์ ํํฐ๋ง์ ๋น์ทํ ์ฑํฅ์ ์ง๋ ๋ค๋ฅธ ์ฌ์ฉ์๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์ดํ ์ ์ถ์ฒํ๋ค.
โ๏ธ ์ง๋ ํ์๋ก ๋ด์ฉ์ ๊ฐ์ ธ์๋ณด๋ฉด ์ด ๋ํ์ ๊ฒฝ์ฐ์๋ ๋ค์ ํ๋ณด๊ตฐ ์ ํ ๋ฐฉ๋ฒ์ ๋ ์ฌ๋ฆด ์ ์๋ค.
-์ด์ ์ ๊ตฌ๋งคํ ์์ดํ (previously purchased items)
-์ฌ๊ตฌ๋งค๋ ์์ดํ (repurchased items)
-์ ๋ฐ์ ์ผ๋ก ๊ฐ์ฅ ์ธ๊ธฐ์๋ ์์ดํ (overall most populat items)
-๊ตฐ์งํ ๊ธฐ์ ์ ์ผ์ข ์ ์ฌ์ฉํ์ฌ ์ฐพ์ ๋น์ทํ ์์ดํ (similar itmes based on some sort of clustering technique)
-co-visitation ํ๋ ฌ ๊ฐ์ ๊ธฐํ ๋ฐฉ๋ฒ์ ๊ธฐ๋ฐ์ผ๋ก ์ฐพ์ ๋น์ทํ ์์ดํ (similar items based on something such as a co-visitaion matrix)
โ๏ธ ์ถ์ฒ : http://bigdata.dongguk.ac.kr/lectures/EDA/_book/section-14.html
โ๏ธ ํต๊ณํ์์ธ John Tukey (1977)๊ฐ ๊ทธ์ ์ ์ Exploratory Data Analysis์์ ์ฒ์ ๋์ ํ์๋ค. EDA์ ๋ชฉ์ ์ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ ๋ถ์์์ ๊ฐ์ค์ ์ ํํํ๊ณ ์ธ๋ถํํ๋ ๊ฒ์ ๋๊ธฐ ์ํจ์ด๋ค.
โ๏ธ EDA์ ํต์ฌ ๋ชฉํ 4๊ฐ์ง๋ ๋ค์๊ณผ ๊ฐ๋ค.
โ๏ธ EDA์ ์ฃผ์ ๋ด์ฉ์ ๋ณธ๊ฒฉ์ ์ธ ๋ฐ์ดํฐ ๋ถ์์ ์์ ๋ฐ์ดํฐ์ ์ฃผ์ ํน์ฑ์ ์์ฝ/์๊ฐํํ๋ ๊ฒ์ด๋ค.
โ๏ธ ํ๊ท (Mean), ์ค์๊ฐ(Median), ์ต๋น๊ฐ(Mode), ํ์คํธ์ฐจ(Standard Deviation), ๋ถ์ฐ(Variance), ์ฌ๋ถ์์๋ฒ์(Interquartile Range), ์ฒจ๋(Kurtosis), ์๋(Skewness)์ ๊ฐ์ ์์น์ ์ธ ๋ฐฉ๋ฒ์ด๋ค.
โ๏ธHistogram, Density estimation, Quantile-quantile plot, Box plots, Scatter plots๊ณผ ๊ฐ์ ์ข ๋ฅ์ ๊ทธ๋ํ๋ก ์๊ฐํํ๋ ๋ฐฉ๋ฒ๋ ์๋ค.
โ๏ธ ์ถ์ฒ : https://www.kaggle.com/code/edwardcrookenden/otto-getting-started-eda-baseline
