250113 TIL #588 AI Tech #120 P: 데이터셋 EDA 시작

김춘복·2025년 1월 13일

TIL : Today I Learned

목록 보기

Today I Learned

오늘은 본격적으로 데이터셋을 정하고 EDA를 진행해봤다.


  • 데이터셋은 기본적으로 결측치가 적고 구성이 잘 맞물려있는 2020년 데이터셋을 기본으로 하되, 2023에서 유저 정보만 추출해서 해오기로 결정

  • User Profile로 쓸 birthday, sex, location 정보가 너무 누락이 많아 EDA 용도로는 쓸 수 있지만, 실제 모델에 적용이 가능할까? 의문이 들었다.

  • Location은 특히 어떤 구조화된 형식으로 받은게 아니라 주관식으로 입력을 받아서 그런지 정확도가 너무 낮았다.

  • 일단 Birthday를 기준으로 Old, 80년대생, 90년대생, 00년대생, 10년대생으로 나눠서 EDA를 진행해봤다.

2020 데이터셋 User 연령대 기반 EDA

  • 325766users 중 Birthday 정보가 있는 user는 88269명(27%) 밖에 없다.
  • 1712년, 1321년, 1851년 등 부정확한 정보도 포함.
  • 90년대, 80년대, 00년대, 10년대, Old로 구분

  • 각 세대별 41개 이상 리뷰가 있는 애니메이션에 대해 평균 평점이 높은 애니 top 10
    큰 차이 없음
Top 10 Anime Names from the 80s: ['Sen to Chihiro no Kamikakushi', 'Death Note', 'Code Geass: Hangyaku no Lelouch R2', 'Shingeki no Kyojin', 'Koe no Katachi', 'Haikyuu!! Second Season', 'One Punch Man', 'Kimi no Na wa.', 'Haikyuu!!: Karasuno Koukou vs. Shiratorizawa Gakuen Koukou', 'Shingeki no Kyojin Season 3 Part 2']
Top 10 Anime Names from the 90s: ['Sen to Chihiro no Kamikakushi', 'Howl no Ugoku Shiro', 'Death Note', 'Code Geass: Hangyaku no Lelouch R2', 'Shingeki no Kyojin', 'Koe no Katachi', 'One Punch Man', 'Kimi no Na wa.', 'Haikyuu!!: Karasuno Koukou vs. Shiratorizawa Gakuen Koukou', 'Shingeki no Kyojin Season 3 Part 2']
Top 10 Anime Names from the Old: ['Sen to Chihiro no Kamikakushi', 'Death Note', 'Code Geass: Hangyaku no Lelouch R2', 'Fullmetal Alchemist: Brotherhood', 'Shingeki no Kyojin', 'One Punch Man', 'Kimi no Na wa.', 'Haikyuu!!: Karasuno Koukou vs. Shiratorizawa Gakuen Koukou', 'Boku no Hero Academia 2nd Season', 'Shingeki no Kyojin Season 3 Part 2']
  • 결론
    연령대로는 선호 애니메이션에 큰 차이 없음.
    아마 결측치가 너무 커서 연령 데이터가 별로 없어서 뚜렷한 차이가 안보이는 느낌.
    평균 평점 말고 다른 걸로 한번 확인 해봐야할듯
Backend Dev / Data Engineer

7개의 댓글

2025년 1월 21일

it is good as well as meanful. it is awesome weblog. Connecting is extremely helpful point. you've truly assisted many individuals that go to weblog and supply all of them usefull info. https://bwmovers.co.za/

답글 달기
2025년 2월 3일

I'd state which this can be a an excellent publish of the excellent individual, i am very happy to observe this particular. graphic design courses with fees

Address: SECOND FLOOR, E Block Rd, South Extension I, Block E, New Delhi, Delhi 110049. Phone: 093157 90731

답글 달기
2025년 2월 4일

I'd state which this can be a an excellent publish of the excellent individual, i am very happy to observe this particular. funny underwear

답글 달기
2025년 2월 15일

I'd state which this can be a an excellent publish of the excellent individual, i am very happy to observe this particular. funny thongs for women bachelorette

답글 달기
2025년 2월 15일

Freezing consideration perhaps it is an understanding to create could possibly help everybody else is having troubles searching though My group is some unclear a lot more i am permitted to get details and even communications information at these. 소액대출

답글 달기
2025년 2월 17일

Today, I was just browsing along and came upon your blog. Just wanted to say good blog and this article helped me a lot, due to which I have found exactly I was looking. situs slot Thailand gacor

답글 달기
2025년 2월 18일

I am jovial you take pride in what you write. It makes you stand way out from many other writers that can not push high-quality content like you. TW88

답글 달기

관련 채용 정보