μ€ν¬μΉ΄ ν¬λ¦¬μμ΄ν° νλ κ°λ Ή μκ°
https://spoqa.github.io/2018/06/28/code-of-conduct.html
νμ΄μ¬ νλ κ°λ Ή
https://www.python.org/psf/conduct/
π‘ Name μ μ²λ¦¬
train μλ§ λ±μ₯νλ λ°μ΄ν°λ νμ΅μ ν΄λ test μ μκΈ° λλ¬Έμ μμΈ‘μ ν° λμμ΄ λμ§ μμ. train μλ§ λ±μ₯νλ λ°μ΄ν°λ₯Ό νΌμ²λ‘ λ§λ€μ΄ μ£Όκ² λλ©΄ νΌμ²μ κ°μκ° λμ΄λλλ° λΆνμν νΌμ²κ° μκΈ°κΈ°λ νκ³ λ°μ΄ν°μ ν¬κΈ°λ 컀μ§κΈ° λλ¬Έμ νμ΅μλ μκ°μ΄ λ κ±Έλ¦Ό. λν, trainκ³Ό testμ νΌμ² κ°μκ° λ€λ₯΄λ©΄ μ€λ₯κ° λ°μν¨.
μν«μΈμ½λ©μ ν λ train, test νΌμ²μ κ°μμ μ’ λ₯κ° κ°μμ§ νμΈμ΄ νμν¨. μλ₯Ό λ€μ΄ train νΌμ²λ μνμΈλ° test νΌμ²λ κ΅μ΄λΌκ³ νλ©΄ νΌμ²μ κ°μκ° κ°λλΌλ λ€λ₯Έ μ’ λ₯ κ°μ΄κΈ° λλ¬Έμ μ λλ‘ νμ΅ν μ μμ. νΌμ²λ₯Ό 컬λΌλͺ μΌλ‘ λ§λ€ λλ μ λλ‘ λ§λ€μ΄μ§μ§ μμ.
ipython λ¨μΆν€ - ESC + F : find & replace
π‘ Cabin μ μ²λ¦¬
μκΈμ νκ· μΌλ‘ T κ°μ€μ μκΈκ³Ό λΉμ·ν κ°μ€λ‘ μ΄λμ κ° λ³κ²½
π‘ One-hot-encoding
pandasμμλ Ordinal-Encodingμ category νμ μ λν΄μ cat μμ±μ codes μμ±μΌλ‘ μ§μν¨
pandasμμλ One-Hot-Encodingμ get_dummies
λ©μλλ‘ μ§μν¨
sklearnμμλ Ordinal-Encodingμ OrdinalEncoder
κ°μ²΄λ‘ μ§μν¨
sklearnμμλ One-Hot-Encodingμ OneHotEncoder
κ°μ²΄λ‘ μ§μν¨
sklearn μ μ¬μ©νκ² λλ©΄ μΌλ¨ νμ΅μ ν΄μ μ μ²λ¦¬λ₯Ό νκ²λ¨.
pandas μ get_dummies λ₯Ό μ¬μ©νλ©΄ κ°κ° μ μ²λ¦¬λ₯Ό νκΈ° λλ¬Έμ λ€λ₯Έ κ°μ΄ μλ€λ©΄ λ€λ₯Έ 컬λΌμΌλ‘ μμ±μ΄ λ¨
π‘ κ²°μΈ‘μΉ λ체
κ²°μΈ‘μΉκ° μμΌλ©΄ λ¨Έμ λ¬λ μκ³ λ¦¬μ¦ λ΄μμ μ°μ°μ ν μ μμ΄ μ€λ₯κ° λ°μνκΈ° λλ¬Έμ κ²°μΈ‘μΉκ° μλ νΌμ²λ₯Ό μ¬μ©νλ €λ©΄ μ¬μ΄ν·λ°μμλ κΌ κ²°μΈ‘μΉλ₯Ό λ체ν΄μΌ ν¨
νμ€ μΈκ³μμ λΆμνλ λ°μ΄ν°λ κ²°μΈ‘μΉ μ±μ°λ κ²μ μ£Όμν΄μ ν΄μΌ ν¨
λ¨Έμ λ¬λ μκ³ λ¦¬μ¦μμ μ€λ₯κ° λ°μνμ§ μκ² νκΈ° μν΄ κ²°μΈ‘μΉλ₯Ό μ±μ΄κ²μ΄λΌ λΆμν λλ μ±μ΄λ€κ³ μ€ν΄νλ©΄ μλ¨
train μλ κ²°μΈ‘μΉκ° μμ§λ§, testμ κ²°μΈ‘μΉκ° μμ΄μ μλ‘μ΄ λ³μλ₯Ό λ§λ€μ΄ μ±μ°κ³ μ νλ€λ©΄ train μλ testμ κ°μ λ³μλ₯Ό λ§λ€μ΄ μ£Όμ΄μΌ ν¨
interpolate(보κ°λ²)
.interpolate(method='linear', limit_direction='both')
π‘ cross validation
sklearn.model_selection
cross_val_score()
: cv μ‘°κ°λ³ μ€μ½μ΄ μΆλ ₯
cross_validate()
: μ‘°κ°λ³ fit_time, score_time, μ€μ½μ΄ μΆλ ₯
cross_val_predict()
: μ€μ μμΈ‘κ° μΆλ ₯
λ³΄ν΅ cross_val_predict()
λ₯Ό μ¬μ©ν΄ μ§μ κ³μ°ν΄λ΄
μ μΆ νμΌ μ΄λ¦μ cvλ‘ μΈ‘μ ν train setμ λν κ²μ¦ μ μλ₯Ό ν¨κ» κΈ°μ νλ©΄ μΊκΈμμ test setμ μ μμ λΉκ΅ν΄λ³Ό μ μμ
π€validation scoreμ kaggle scoreκ° λ€λ₯Έ μ΄μ ?
=> vaildλ train λ°μ΄ν°μ
μμ κ²μ¦νκ²μ΄κ³ , μΊκΈμ μλ μ λ΅μ
κ³Ό λ€μ λΉκ΅νκΈ° λλ¬Έ
π‘ μΊκΈ μ μΆ
μΊκΈ νμ΄νλ κ²½μ§λν 200μ κ·Όμ²μ μ μλ₯Ό 보면 0.82~0.81 μ λμΈλ° μ΄ μ λκ° λ¨Έμ λ¬λμ λ€μν κΈ°λ²μ μ¬μ©ν΄μ νμ΄λ³Ό μ μλ νμ€μ μΈ μ€μ½μ΄ ꡬκ°μ΄λΌκ³ λ³Ό μ μμ
μΊκΈμμ μ’μ μ루μ
μ°Ύλ λ²
1) Top ν€μλλ‘ κ²μ
2) μ루μ
μ λν ν¬νμκ° λ§μ κ²
3) νλ‘ν λ©λ¬μ μμ
π‘ JD
DXλ₯Ό μ§ννλ μ ν΅μ μΈ μ°μ
κ΅°μΌλ‘ μ§μν΄λ³΄λ κ²λ μΆμ²
κ²½λ ₯μ§μ λ½λ κ³³μ΄λΌλ μ§μν΄λ³΄κΈ°