[내일배움캠프] DAY30

채은·2026년 1월 9일

내일배움캠프_QAQC_4기

목록 보기

27/60

코드카타

수박수박수

def solution(n):
    if n%2 == 0:
        answer = '수박'*int(n/2)
    else:
        answer = '수박'*int((n-1)/2)+'수'
    return answer

이 분 두줄로 완성하심

def water_melon(n):
    str = "수박"*n
    return str[:n]

진짜 똑똑하심....
수박을 일단 반복해놓고 필요한만큼만 출력하겠다는 발상...! 👍

아티클 스터디

임상시험에서의 데이터 분석과 AI

통계 세션

정규성 검정

검정에는 모수검정이랑 비모수 검정이 있었고, 모수 검정을 하려면 정규성을 따라야 함.
검정을 하기 전에 이걸 알아보는 게 정규성 검정

Shapiro-Wilk Test -> 젤 보편적
Q-Q 플롯 (Quantile-Quantile Plot) -> 시각적으로 확인하는 방법. 45도 직선에 가까우면 정규성 만족

비모수 검정

정규성 검정을 해봤더니, 데이터가 정규성 따르지 않을 때
데이터 수가 적을 때
순위형 자료(상/중/하, 등급, 만족도)일 때도 이거 씀

모수 검정이랑 대응해서 생각하면 이해하기 좋음

종류
Mann-Whitney U Test
Wilcoxon Test
Kruskal-Wallis Test
Chi-square Test

물론 더 있겠쥐

ANOVA: 분산 분석

세 개 이상의 집단 동시에 비교
왜 동시에 해? t-검정를 여러번 하는 방식을 쓰면 1종 오류가 증가할 수 있음
어떻게 비교?
집단끼리 비교, 집단 안에서 비교 -- 요 두개를 비교함

F-값 크다 -> 그룹 간 차이가 있다
F-값 작다 -> 유의한 차이 X

인사이트
실무 예시랑 퀴즈가 많아서 이해에 도움이 되고 좋았음. 기본 개념들을 알아두되 공식을 외우려 하지 않아야 함. 전반적인 흐름을 이해하고 내 데이터에 어떤 방법을 사용하면 되겠다 정도만 알아둬도 충분함. 다 외우고 있는 것보다 필요한 내용을 그때그때 찿아 사용하는 편이 효율적임.

코드필사

머신러닝 세션

분류모델의 이벨리에이션

앙상블 모델

지성 집단 지성. 똑똑한 거 모아서 결정하기

종류

Bagging: 각각 다른 모델로 학습
랜덤 포레스트
Bosting: 이전 모델이 틀린 부분만 넘김. 모델 간의 부족한 점을 보완함
엑스쥐 부스트

앙상블 왜 씀?
과적합 피하기. 안정적이고 강건한 예측, 더 높은 성능

그렇지만
학습시간 김. 모델이 복잡해지면서 해석이 어려워질수도..
(적절한 파라미터 선정이 중요하겠다~)

결정트리

엔트로피 마냥 가장 불순도가 적은 방향으로 분류함
불순도? 각노드에서 데이터가 얼마나 섞여있는지 정도

의사결정을 시각화할 수 있음 -> 해석이 용이하다~
하지만 과적합되기가 쉽다

단독으로 사용되기도 하지만 랜덤 포레스트나 그래디언트 부스팅 같은 진화버전이 더 널리 쓰임

랜덤 포레스트

나무가 모여 숲이 됨
결정트리가 모여 랜덤 포레스트가 됨
근데 왜 "랜덤" 포레스트임? 샘플을 무작위 추출해서 학습시켜서.

작동 과정
복원 추출: 학습 데이터셋 여러개 만들기
특성 선택: 전체 특성 중 무작위로 일부 특성만 선택해서 고려
학습: 위 과정을 거치면서 각 트리는 서로 다른 데이터셋, 서로 다른 기준을 가지게 되고, 알아서들 공부함
예측: 얘네들이 예측한 결과를 모아서 민주주의 답게 투표함

good~
여러 트리에서 뽑은 결과라서 과적합 위험이 낮음
특성 중요도 쉽게 계산 가능
이상치에 강건
대규모 데이터셋에서도 안정적인 성능

bad...
하지만 많은 자원과 비용이 필요
넘 복잡해져서 해석이 어려워지기도 하고
최적의 성능을 얻기가 어려움(하이퍼파라미터를 튜닝해야하는데 이게 복잡함)

부스팅 모델

AdaBoost
전 모델에서 틀린 거 오답노트 함. 실수한 부분을 중점적으로 학습

XG Boost
일반적으론 가장 좋은 성능을 냄
하지만 데이터에 따라서 또 다를 수 있다는 거 알아두셈

LightGBM
Light한 GBM
리프 중심을 분할을 함

하이퍼 파라미터

파라미터 넘 많은데 이거 언제 다 설정하고 앉아있냐....;;
그럴 줄 알고~!? 파라미터도 알잘딱깔센으로 맞춰주는 알고리즘이 있다~

하이터 파라미터?
값 설정을 어떻게 하느냐에 따라 모델 성능이 저하되기고 개선되기도 함

근데 그 전에 교차 검정이라는 개념을 알아야함
과적합을 방지하고 모델 성능을 높이기 위해 교차 검정이라는 걸 함

하이퍼 파라미터 탐색 알고리즘 종류

Grid Search
모든 경우의 수를 다 따져보고 꿀조합 찾아서 보여줌
Random Search
랜덤하게 선택해서 따져봄
그래서 효율적이고 시간이 짧게 걸림

모델 저장하기 -> pickle 모듈
피클ㅋㅋㅋㅋ 이름 귀엽네
모델 장아찌 담가버리기

비지도 학습
정답이 없음
그래서 분류가 아닌 클러스터링을 함(엇비슷한 애들끼리 좀 모아놓음)
덴드로그램 헉 나이거 캐글에서 봤음! 기초 플젝 할 때 다른 사람 코드 중에 이런 이미지가 있었음

젤 유명한 건 K-Means

인사이트
자주 언급되었던 랜덤 포레스트와 XG Boost에 대해 배워서 흥미로웠고, 생각보다 더 다양한 모델들이 존재함을 알게 되었음. 또한 파라미터에 대한 설명이 상세히 적혀있어서 개념을 이해하기 수월했음.

회고

아티클 초집중해서 후다닥 읽기, 세션 복습을 간략하게 하기가 소소한 목표였는데
아티클 읽고 정리하는데에 2시간 20분이 걸림....전혀 후다닥이 아니게 됨..
(아티클 2개를 읽어서 그런가...)
그래도 머신러닝 세션은 빨리 정리함...! 30분?
들으면서 중요한 부분 키워드 정도만 미리 적어두니 정리하기 편했음

~~아티클 읽고 정리~~

~~세션 2개 듣고 복습~~

~~아티클 스터디~~

세션 코드필사

코드필사는 역시 다 못할 것 같긴했음. 주말에 보충하는 걸로...

주말에 할 거

체력 증진을 위해 수영 갔다오기!
ADsP 3과목 강의 듣기
통계 세션 끝내기 (중요한 것만 하고 후딱후딱 넘어가기)

채은

내일배움캠프 사전교육 수강중

이전 포스트

[내일배움캠프] DAY29

다음 포스트