
μ¬μ€ μΈλ€μΌμ μλ λ΄μ©κ³Ό λ³λ‘ κ΄λ ¨ μλ€.
λ§μ§λ§μ λμ€λ νλ‘μ νΈ κ²½νλ΄μμ μνν νλ‘μ νΈμ λ‘κ³ μΌ λΏ γ
γ
γ
μλ¬΄νΌ μ’μ κ²½νμ΄μκΈ°μ!!! κΈ°λ‘!!!πβοΈ
π‘
1 νΉκ° μκ°μ λ€μλ 'λλ₯Ό μμ' μ μ€μ²νκΈ°
2 μ± μ΄ μ½κ³ μΆλ€λ©΄ ν°μ λκ³ μΉ΄νμ κ° κ²
3 λ°λμ μ§μ€ν΄μ μ¨μΌ ν κ² μλ€λ©΄ μΆ©μ κΈ°λ₯Ό λκ³ μΉ΄νμ κ° κ²
μκ° λ°μ΄ν° λΆμμ λν΄μ μ μλΏμ§ μμμΌλ©°, μ΄λ»κ² ν΄μΌ μνλ κ²μΈμ§λ₯Ό ꡬ체μ μΌλ‘ μκ°ν΄λ³Έ μ μ΄ μμλλ° λ΄κ° νλ‘μ νΈμ μ μ©νκΈ° μν΄μ κ³ λ―Όνκ³ λ Έλ ₯νλ κ³Όμ μ΄ λ°μ΄ν° λΆμμ΄λΌλ κ²μ μκ³ λΏλ―νλ€.
μ°μ
νλͺ
, μΈν°λ·μ λ°μ λ±μΌλ‘ μ 보ν μλλΌλ λ¨μ΄μ‘°μ°¨ λ±μ₯ν μ§ μ€λμ΄λ€.
νλ‘μ νΈλ₯Ό μνν¨μ μμ΄μ μ¨ μ¬λ―μ΄ λΉμ°νκ² νλ λ°μ΄ν° μμ§ λ° λΆμ λ§κ³ , μ΄ μΌμ μ νλμ§μ λν λͺ©μ μμκ³Ό μ±
μκ°μ κ°κ³ μ νν μκ³ μννλλ‘ νμ.
λμκ° λΆμν κ²°κ³Όμ μ€λλ ₯μ μ€μ΄μ£ΌκΈ° μν μκ°ν λν μμ보μ.
λ°μ΄ν° λΆμμ μ€μμ±
λ°μ΄ν° λΆμμ μ§μ μ μΈ κ²°κ³Όλ‘λ, λͺ¨μ§λ¨μ νλ³Έμ κ°μ νκ³ , νλ³Έμ ν΅ν΄ λͺ¨μ§λ¨μ μμΈ‘νλ κ²μ΄ μλ€. λ°λΌμ λ°μ΄ν° λΆμμ μννλ©΄ μλ§μ μμ λͺ¨μ§λ¨μ μ§μ μ κ·Όνμ§ μμλ ν΄μ(Interpret), μμ¬ κ²°μ (Decision Making), μμΈ‘(Predict) λ±μ μμ
μ μνν μ μλ κ²μ΄λ€.
λ°μ΄ν° λΆμμ μνν λ μ€μνκ² κ³ λ €ν΄μΌ ν μ
1. λ°μ΄ν°λ‘ ν μ μλ μΌμΈκ°?
νκ³ μ νλ taskκ° λ°μ΄ν°λ‘ ν μ μλ μΌμΈμ§, κ΄λ ¨μ΄ μλ μλ±ν μμ
μΈμ§λ₯Ό μ νμ
ν΄μΌ νλ€.
Q. μ£Όμκ³Ό μ½μΈμ κ°κ²©μ μ°¨νΈλ§μΌλ‘ μμΈ‘ν μ μμκΉ?
A. No. μ£Όμμ κ³Όκ±° κ° λΏλ§ μλλΌ λΉμ μν©μ μ¬λλ€μ λ°μ, λΈλλμ μ΄λ―Έμ§ λ± μ£Όλ³ μν©μ μν₯μ λ°λλ€. μ΄λ₯Ό λͺ¨λ μκ³ μλλΌλ λ€μν λ³λ μν©μ΄ μ‘΄μ¬νκΈ° λλ¬Έμ κ³Όκ±° μ°¨νΈλ§μΌλ‘ μμΈ‘νκ² λ€λ κ°μ μ μλͺ»λμλ€.
2. νμ¬ λ¦¬μμ€μ μμ΄ μΆ©λΆνκ°?
LLMμ κ°λ°νκ³ μ ν λ νμ¬ νμν GPUμ μ, RAMμ ν¬κΈ°, λ°μ΄ν°μ μμ μΆ©λΆνμ§ νμΈν΄λ΄μΌ νλ€.
3. λ°μ΄ν°λ§ μμΌλ©΄ 무μμ΄λ ν μ μλκ°?
λ°μ΄ν°κ° 'μ‘΄μ¬'νκΈ°λ§ νλ©΄ μ λλ€. λͺ©μ μ μ ν©ν λ°μ΄ν°λ₯Ό μ μ ν λΆμν΄μ μμ§μ ννλ‘ κ°κ³΅ν΄μΌ νΉμ taskλ₯Ό μνν μ μλ κ²μ΄λ€.
μ’μ λ°μ΄ν° λΆμμ μννλ €λ©΄ μλμ μλμ ν¬ν¨ν λ°μ΄ν° λ¬Έν΄λ ₯(Data Literacy)μ ν¨κ» κΈΈλ¬μΌ νλ€.
EDAλ 1970λ λ λ―Έκ΅ μνμ John Tukeyκ° μ²μ κ°λ°ν κΈ°μ λ‘, μ€λλ μλ λ°μ΄ν° λμ€μ»€λ²λ¦¬ νλ‘μΈμ€μμ λ리 μ¬μ©λλ λ°©λ²μ΄λ€. EDAλ λͺ¨μ μΆμ μ μ νλ³Έμ λ°μ΄ν°λ₯Ό νμ νκΈ° μν κ²μ΄λ€. λͺ λ°±ν μ€λ₯ μλ³, ν¨ν΄ μ΄ν΄, μ΄μμΉ κ°μ§, λ³μ κ° κ΄κ³ νμ λ± μ μ©νκ³ μ νλ taskλ₯Ό μν΄ μλ²½ν μ€λΉλ₯Ό μννλ€.
EDA toolμ ν΅ν΄ μνν μ μλ κΈ°μ
λ€λ³λμ ν¬ν¨νλ κ³ μ°¨μ λ°μ΄ν°λ₯Ό λ³΄λ€ λ μ μ΄ν΄νκΈ° μν΄ Clustering λ° μ°¨μ μΆμ(PCA)λ₯Ό μνν μ μλ€.
μλ³Έ λ°μ΄ν°μ κ° fieldλ₯Ό μμ½μ ν¬ν¨ν μΌλ³λ μκ°νλ‘ λ³ννμ¬ λ³΄λ€ μ§κ΄μ μΈ μ΄ν΄λ₯Ό λλλ€.
μμ½μ ν¬ν¨ν μ΄λ³λ μκ°νλ₯Ό ν΅ν΄ λ°μ΄ν°μ
μ κ° fieldμ νκ² λ³μ κ°μ κ΄κ³λ₯Ό νμ
ν μ μλ€.
λ€λ³λ μκ°νλ₯Ό ν΅ν΄ λ°μ΄ν°μ μλ‘ λ€λ₯Έ fieldκ°μ μνΈμμ©μ νμ
νλ€.
K-means Clusteringμ μμ₯ μΈλΆν, ν¨ν΄ μΈμ, μ΄λ―Έμ§ μμΆ λ±μμ μ¬μ©λλ κΈ°λ²μ΄λ€.
Linear Regressionκ³Ό κ°μ μμΈ‘ λͺ¨λΈμ ν΅κ³νκ³Ό λ°μ΄ν°λ₯Ό ν¨κ» μ¬μ©νμ¬ κ²°κ³Όλ₯Ό λμΆνλ€.
EDAμ λ€ κ°μ§ κΈ°λ³Έ μ ν
μΌλ³λ non-graphicalμ κ°μ₯ λ¨μν μ νμΌλ‘, νλμ λ³λλ§ μκΈ° λλ¬Έμ μμΈκ³Ό μνΈ κ΄κ³λ₯Ό νμ
ν νμκ° μλ€. κ°μ₯ μ£Όμν taskλ λ°μ΄ν° λ΄ ν¨ν΄μ ν¬μ°©νμ¬ ν΄λΉ λ°μ΄ν°λ₯Ό μ νννλ λ°©λ²μ μ°Ύλ κ²μ΄λ€.
non-graphicalν λ°©μμ λ°μ΄ν° κ° κ΄κ³λ₯Ό μ λΆ νμ
ν μ μκΈ° λλ¬Έμ μΌλ³λ graphical λ°©μμ΄ νμνλ€.
λ€λ³λ non-graphicalμ λ κ° μ΄μμ λ³λμ λν΄ cross-tabulation(κ΅μ°¨ν) λλ ν΅κ³μ λ°©μμΌλ‘ νννλ€.
λ€μν μκ°ν κΈ°λ²μ ννν λ€λ³λ graphical λ°©μλ μλ€. κ°μ₯ λ§μ΄ μ¬μ©νλ λ°©μμ κ° λ³λλ€μ νλμ λ 벨μμ νννμ¬ μ§κ΄μ μΌλ‘ λΉκ΅κ° κ°λ₯ν grouped bar plotμ΄λ€.
μ΄ μΈμλ Scatter plot, Bubble chart, Heat map λ± λ€μν μκ°ν λ°©λ²μ΄ μλλ°, HCI(Human Computer Interaction) κ΄μ μμ μ μ ν κ°μμ λ°μ΄ν°λ₯Ό μ μ ν μκ³Ό λ°©μμΌλ‘ νννλ κ²μ μ§μ μ°μ΅ν΄λ΄μΌ νλ€.
μΆμ²
IBM
μλ΄ν°λ μΌλ§ μ κΉμ§ μ§ννλ νλ‘μ νΈμΈλ°, μ΄λ μλ¬Ό μκ° μμΈ‘ λͺ¨λΈμ νμ΅ν λ νλ λ°μ΄ν° λΆμμ΄ κΈ°μ΅μ λ¨μ λ§ν¬ λ¨κΈ°κ³ κ°λλ€. γ
γ
ν΄λ¦ν΄λ¦