25.4.2TIL

황효정·2025년 4월 2일

데이터 분석

목록 보기
31/88
post-thumbnail

토끼와 거북이. 나는 거북이다. 느리고 천천히 가는 거북이. 이 거북이가 토끼를 이길 수 있었던 방법은 딱 한가지. 느리지만 성실하게, 계속계속, 쉬지않고 앞으로 걸어갔던 것이다. 오늘을 돌아보았을 때 아쉬움이 또 많이 남는다. 스트레스를 받고 피곤하니 단게 땡기고, 단게 땡기는데 장에 좋지않으니 또 망설이고, 아직도 음식을 가려서 먹어야 하니 또 그것에서 오는 힘듦이 있다.
아무튼 결승선을 거북이로서 통과할 수 있는 방법은 딱 한가지이다. 성실하게 계속 앞으로 엉금엉금 다리를 움직이는것. 느리더라도 포기하지 않고 앞으로 가는 것. 보면 한명씩 한명씩 캠프를 나가는 것을 보게 된다. 많이 안타깝고 나도 진짜로 포기하고 싶었던 순간들이 많았다. 캠프의 사람들과 같이 가야하는 것 같다. 혼자서는 못간다. 정말로. 이번 조도 다같이 으쌰으쌰해서 원하는 바를 다들 이루셨으면 좋겠다.

오늘의 아쉬웠던 점: vscode에서 판다스, 넘파이, 멧프러리, 시본 import하는데 계속 에러가 났다. 튜터님을 찾아갔는데 튜터님도 이게 왜이러지,,? 하심(저번의 obs studio의 트라우마 부활)진짜 이정도면 내 컴퓨터가 이상한건가 싶음.. 약간 그 벽에 부딪치니 또 회피하고 싶어졌다. 그래서 잘 공부 하다가 회피해버림., 그러다가 시간이 걸렸지만 튜터님의 도움으로 하나는 해결했고, 두번째는 또 혼자 해보는데 또 걸림돌에 걸려서 좀 시간을 두고 그 뒤에 지피티 친구를 통해서 해결하게 되었다.
->이것을 통해 깨달은 점. 앞으로의 다짐: 컴퓨터 관련한 지식이나 활용정도가 너무 기본적인 것들만 할 수 있었기 때문에 사전캠프부터 하나하나하는데 몸에 열이 나고 땀이나고 진이 빠졌었다. 물론 스트레스 받을 수 있을 것 같다. 하지만 잠깐 한숨 돌리고 와서 지피티와 함께 해결해나아가보자. 너무 스트레스 받지 말기. 컴퓨터는 다 답이 있는 문제니까. 마인드 컨트롤 하기.

아쉬웠던 점 2: 점심 시간 이후에 수준별 세션을 했는데, 처음에는 잘 듣다가 갑자기 식곤증이 세게 와버렸다. 듣다가 갑자기 졸기 시작하더니 의자에서 잠깐 기절해버렸다.. 이후에 정신차리고 다시 듣는데 이해 안되기 시작함.. 다들 아무말도 안하고 있어서 물어보기 좀 그랬다. 다들 이해가 잘 되시는건가들,,ㅠ
암튼 궁금한 점은 나 혼자 풀어보면서 해결해보고 안되면 지피티한테 물어보거나 튜터님 찾아갈 예정.

오늘의 배움 정리
통계 강의>
통계를 배워야 하는 이유->
-기업에서는 의사결정을 많이한다.

  • 데이터를 이해하고 해석하는데 중요한 역할을 한다.
  • 데이터를 요약하고 패턴 발견이 가능하다.
  • 추론을 통해 결론을 도출하는 과정이다
  • 데이터 기반의 의사결정.
    ->기업이 현명한 결정을 내리고 수익을 창출하기 위해선
    "통계를 활용한 데이터 분석은 필수!"

실제 통계 사용 예시
✅고객 만족도 설문조사
✅고객 유형별 세그먼트(segment:그룹화 해서 묶는 작업)상품 추천

  1. 기술통계와 추론 통계
    1)기술 통계: 데이터를 요약하고 설명.
    -주로 평균, 중앙값, 분산, 표준편차 사용.
    -데이터를 특정 대표값으로 요약
  • 중앙값: 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값.

    이상치가 있고 영향을 받을 것 같다고 하면 평균값보다는 중앙값을 쓰는게 데이터의 중간값을 표현하기에 더 좋음.

  • 분산: 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도. 데이터의 흩어짐 정도를 측정한다.
    ex) 활을 쏠 때 과녁 중앙에 얼마나 많이, 가깝게 쏘느냐. 분산이 크면 점수가 낮고. 낮으면 중앙과 가까이에 많이 맞췄다는 것이므로 점수가 높은 것임.

    분산이 크면 데이터가 넓게 퍼져 있고, 작으면 데이터가 평균에 가깝게 모여 있음을 의미함.
    분산 구하는 법:(각 데이터 값-평균)**, 이를 모두 더하고 데이터 개수로 나누기.

  • 표준편차: 분산이랑 비슷한데, 그 흩어져 있는 정도가 조금 더 직관적임.(분산은 데이터 값이 큼)
    구하는 방법: 분산의 제곱근. 분산이 125라면 표준편차는 √125임.(루트) 그러면 조금 더 계산하는 값과 비슷해져서 조금 더 직관적으로 알 수 있음.

    2)추론 통계: 데이터의 일부를 가지고 데이터 전체를 추정하는 것이 핵심이다.

  • 신뢰구간: 모집단의 평균이 특정 범위 내에 있을 것이라는 확률.

  • 가설검정- 귀무가설: 가설이 틀렸음을 나타냄, 대립가설: 가설이 효과가 있다.
    ->귀무가설은 기각되어야 하고 대립가설은 성립이 되어야 함.
    pandas=>데이터 분석, numpy=>계산 할 때 사용됨.(간단히 정리하면)

  • 변이추정: 데이터들이 서로 얼마나 다른지 확인하는 방법. 분산, 표준편차, 범위 등을 사용함.
    범위: 데이터셋에서 가장 큰 값과 가장 작은 값의 차이를 나타내는 분포의 측도. 최댓값-최솟값


    라이브 세션. 편차, 분산, 표준편차

    이것을 배워서 저기에 써먹는다. 제모박스 꼭 보기

  • 수치형(숫자)-연속형:어떤 값이든 취할 수 있음; 이산형:정수 단위

  • 범주형(명목형:좋거나 나쁘다가 없음)-이진형:두개의 값만을 가짐; 순서형:값을 사이에 분명한 순위가 있음.

    테이블. 각 컬럼의 대표값. 편차: 데이터 값에서 평균을 뺀 값. 편차의 합은 0이다.

    도수. 상대도수=>비율이라고 보면됨. 표준정규분포..
    신뢰수준, 신뢰구간 .범위가 없어지면,, 뭔소리를 쓴건지 모르겠다. 복습!


    수준별 베이직 반
    3.9python 버전 선택하기
    int ≠ float. 수치형이지만 데이터 타입이 달라서 계산이 안 됨. 타입이 다르면 같이 계산을 할 수 없다.‼️ 꼭 기억하기. 저장되는 방식이 다름.
    타입 확인 할 때 -> type()함수 사용.
    파이선은 모든 자료형을 클래스로 만듦.
    클래스-> 객체(클래스에서 만들어진 실체. 클래스가 설계도라면 객체는 그 설계도로 만든 실제 물건)를 만들기 위한 설계도(템플릿)역할을 한다.
    ->변수를 묶어서 관리하고, 관련된 기능(메서드)도 함께 정의할 수 있다. 같은 속성과 기능을 가진 객체(인스턴스)를 여러 개 만들 때 유용하다. 예를 들어 "자동차" 클래스를 만들면, 여러 개의 자동차(객체)를 생성할 수 있다.

  • 연산자는 동일한 타입끼리만 가능하다🌟

  • set: 중복허용하지 않는다. 집합이 가능하다(수학에서 집합은 중복값이 있을 수 없음) 순서가 없음. 유니크한 값을 얻고 싶을 때 사용. (리스트는 중복 가능)

  • int(3.9)를 하면 3이 됨. 소숫점은 내림이 되어버림. 소숫점은 갖다버린다는 뜻.
    그런데 int('3.5')를 하면 에러가 난다고 함. ❓왜지❓
    -> int는 str의 형태를 바꿀 때는 정수 형태의 문자열만 가능하다.그러니까 int('3')은 가능하다는 소리다. folat값의 소수형태는 소수점 이하를 버리고 변환이 가능하기 때문에 실수형은 가능함.
    '3.5'를 실수형으로 바꾸려면 먼저 float형으로 바꾼다음에 int로 바꿀 수 있다. 아니면 round함수 사용해서 정수변환도 가능하다.

    이것도 복습!!!

profile
청지기

4개의 댓글

comment-user-thumbnail
2025년 4월 3일

매일 남아서 공부하고 가시는 효정님 리스펙.. 🤩 파이팅임니다!!!!
(저도 수준별 세션 듣다가 졸았서요ㅎㅎ)

1개의 답글
comment-user-thumbnail
2025년 4월 3일

효정님의 모습을 보고 저도 항상 많이 배웁니다. 캠프 끝까지 건강히 마무리 지으셨음 좋겠습니다. 뒤에서 응원하겠습니다!!!

1개의 답글