25.4.3TIL

황효정·2025년 4월 3일

데이터 분석

목록 보기
32/88

다행히 4월 초반이다. 약간 체감느낌은 4월 중순인데 다행이다.
오늘 하루는 오전에는 라이브세션을 듣고 개인 공부는 거의 못했다. 다른 개인적인 이슈가 있었음.. 점심시간 이후에는 아쉬움도 있었지만 그래도 개인공부를 어느 시점부터는 차근히 했다. 사실 빡공하는 시간, 집중하는 시간이 생각보다 적은 것 같아서 오늘은 1시간 단위로 쪼개서 어떤 걸 했는지 다 적어보았다. 생각보다 공부말고 다른 것에 쓰는 시간이 꽤 있어서 다른 것에 신경쓸만한 것들을 오늘 처리해버렸다. 내일까지 시간단위로 적어보고 어디서 시간이 새는지 확인 후, 낭비 요소를 찾고 시간 구조를 개선해 볼 예정이다.

암튼 오늘 배우고 공부한 것들 정리해보자면
데이터 분포 탐색 방법에는 히스토그램, 박스플롯이 있다. 히스토그램은 일반 막대그래프와 생김새는 비슷한데, 실제 나타내는 값은 다르다. 막대그래프는 값이 명확히 정해져있는 범주형데이터(텍스트가 들어가 있는 데이터)를 나타내고,

->범주형 데이터란 서로 다른 그룹(범주)으로 나뉘는 데이터를 말한다. 숫자로 나타낼 수 있지만 연산이 불가능한 데이터, 종류를 구분하는 역할을 한다.
ex)-성별:남자, 여자 -혈액형:A형, B형, O형, AB형

히스토그램은 수치형의 데이터를 나타낸다.

->수치형 데이터는 연속적인(값이 끊기지 않고 무한히 세밀하게 측정될 수 있음) 데이터이다. ex)몸무게, 키->161.134522303203...cm


↑ 히스토그램


↑ 박스플롯

라이브러리 함수
np.mean: 평균값, np.median: 중앙값, np.var: 분산, np.std: 표준편차

히스토그램은 멧플러리에 있음.

-상관관계: 데이터들끼리 서로 관련이 있는지 확인하는 방법.
1이나 -1에 가까워지면 강력한 상관관계를 가진다.
0.5나 -0.5는 중간정도
0에 가까울수록 상관관계가 없다는 것을 나타낸다.

인과관계는 상관관계와 다름.

양의 방향: ↑ ↑ 똑같이 올라감, 음의 방향↑ ↓ 한쪽이 올라가면 한쪽은 내려감.

corr:상관관계


live session
모수 통계: 모집단이 정규분포를 따른다는 가정하에 사용.(현업에서 많이 사용)

A/B테스트: 사용할 때 통계적 실험이 수반된다. 기존거랑 조금 바꾼거랑 비교하는 것임.
목적: UI/UX 개선. 기업의 궁극적 목표: 매출 증가

주요 지표:서비스 가입률.
CTR(노출 대비 클릭률), CVR(클릭 대비 전환율, 구매 전환율)

귀무가설 설정하는 순간 대립 가설 바로 따라붙음. 통계적으로 무언가를 설명하고 싶을 때 귀무가설을 먼저 설정하는 게 맞음.

주의사항: 적절한 표본크기.(기업마다 다름)
하나의 변수만 변경하기, 테스트 결과의 의미. 항상 실제로 의미 있는 결과인지 한번 더 생각해보기.
정해진 기간은 보통 2주에서 한달임. 처음 1주가 가장 중요하다고 함.

-유의수준: 귀무가설이 맞을 때 기각할 확률
신뢰도와의 관계" 95%의 신뢰도를 기준으로 한다면1-0.95=0.05의 유의수준을 갖는다.신뢰도와 반대의 개념. 우리가 분석할 때 유의수준. 파이썬 라이브러리...

검정통계량은 나올 수 있는 각각의 값이다.

p-value: 어떤 사건이 우연히 발생할 확률 0~1사이 값. 우연히 일어날 확률이 작아야 함. p-value가 0.05보다 작다=우연히 일어났을 가능성이 거의 없다.


파이선 코드카타 풀면서-

  • 파이선의 들여쓰기 규칙: 파이선에서는 def로 함수를 정의하면, 그 안의 코드들은 반드시 들여쓰기를 해야 한다.
  • 파이선에서 콜론(:)이 나오면 반드시 줄을 바꿔야 한다. :은 '여기부터 블록이 시작된다'라는 의미이다. 파이선에서는 블록이 시작되면 반드시 줄을 바꾸고 들여쓰기를 해야한다.
  • 파이선은 들여쓰기를 이용해서 코드블록을 구분한다. 그래서 return을 할 때에는 반드시 함수 안에서 같은 블록위치(들여쓰기 수준) 를 유지해야 함. 아니면 identation error(들여쓰기 오류)가 발생한다.
  • 매개변수(=파라미터): 함수를 호출할 때 전달할 값을 받는 변수이다. 함수를 만들 때 정의하는 변수.
  • 인자: 실제로 전달하는 값=>매개변수에 전달. 그 자리에 들어가는 실제값을 말한다.
  • if문은 독립적으로 사용해야 함. 어떤 변수에 넣을 수 없다.
    ex)answer = if num1 == num2: 이런식으로 사용 못한다는 뜻. 그냥
    if num1 == num2: 이런 식으로 독립적으로 써주어야 한다.
  • 파이서에서 '같다'라는 표현은 == 이렇게 =표시를 두개 해주어야 한다.(오랜만에 하니까 고새 까먹었음)

[정수 num1과 num2가 매개변수로 주어집니다. 두 수가 같으면 1 다르면 -1을 retrun하도록 solution 함수를 완성해주세요.] 요 문제에 답은 밑의 코드라고 짰는데(나는 if문이 바로 생각남)

근데 이 코드 외에도
이렇게도 쓸 수 있고-이것은 '삼항 연산자' 라고 한다:
삼항 연산자 공식은 이렇다.

✅조건이 참이면-> 값1 반환
✅조건이 거짓이면-> 값2 반환
이렇게 된다.
💡 삼항 연산자는 코드가 짧아지고 가독성이 좋아지지만, 너무 복잡한 조건이 들어가면 오히려 읽기 어려울 수도 있다.
심플한 경우에만 사용하면 좋다.


이렇게도 쓸 수 있다. 다른 사람들의 코드를 보면서 다른 방법들도 습득하고 이해하는 시간이 되었다.

이래서 파이선은 정답이 여러개가 나올 수 있다고 하는건가 보다.

아 너무피곤해... 오늘도 고생해따 내일은 더 집중해서 빡공하기!!

profile
청지기

0개의 댓글