요약 : 시각 정보를 처리하는 과정을 고려한 시각화디자인은 독자들이 쉽게 이해할 수 있도록 돕는다.
게슈탈트 원리나 전주의적 속성과 같은 개념은 처음이라 흥미로웠고, 당연하다고 여겨왔던 것들의 원리를 알 수 있어서 좋았습니다. 예시로 나와있는 시각화 자료처럼 누가 봐도 이해하기 쉽게 만들려면 오늘 아티클에서 배운 것처럼 시각 정보 처리 과정을 잘 이해해야겠습니다.
데이터 시각화는 인간의 인지 특성을 활용해 정보를 빠르고 효과적으로 전달할 수 있지만, 동시에 왜곡의 도구가 될 수 있어 설계와 해석 모두에 비판적 사고가 필요하다.
가설 검정에서 주의할 점
정의: 같은 실험을 반복했을 때 일관된 결과가 나오는지 여부
문제점: 가설검정 오남용 → 재현성 위기 발생
원인:
→ 데이터 수 늘려서 보완 필요
정의: 다양한 방식으로 분석을 반복해 인위적으로 p값을 낮추는 행위
문제점: 분석 결과 신뢰성 저하
주의 상황:
→ 본페로니 보정, 사전 가설 수립 필요
사람 도움 최소화 → 컴퓨터가 스스로 데이터에서 패턴 학습 + 예측/분류
예) 스팸메일 분류, 이미지 인식, 음성 인식 등

AI(인공지능)
└── 머신러닝 (ML): 데이터 기반 학습
└── 딥러닝 (DL): 인공신경망 기반 학습
AI: 사람의 지능적인 작업을 기계가 수행하도록 만드는 광범위한 개념
머신러닝: AI 안에서 데이터 기반으로 학습하는 방식
ex) 스팸 메일 패턴 학습 → 필터링
딥러닝: 머신러닝 중에서도 ‘신경망’을 여러 층 쌓아 학습하는 방식
ex) ChatGPT, 알파고
| 항목 | 전통 통계 | 머신러닝 |
|---|---|---|
| 목적 | 가설 검증 ("왜?") | 예측 성능 ("얼마나 잘?") |
| 방식 | 사람이 가설 세움 | 데이터 학습 |
| 데이터 | 적어도 OK | 많을수록 Good |
정답(= 레이블)이 있는 데이터 학습
정답 없이 데이터 패턴을 스스로 찾음
군집화 : 성향이 비슷한 사람이나 사물을 자동으로 묶어내는 기법
ex) 고객 군집 분석, 문서 토픽 분석
차원축소 : 데이터의 특징(변수)이 너무 많아서 복잡한 데이터를, 핵심 정보만 남기고 압축하는 기법
ex) 수백 가지 지표가 있는 데이터를 2~3개의 핵심 지표로 요약

에이전트가 환경과 상호작용하며 보상을 최대화하도록 학습
ex) 알파고, 게임AI, 로봇 제어
데이터수집 → 전처리 → 모델링 → 성능평가 → 배포
데이터 편향: 편향된 샘플이 많으면, 모델도 그대로 학습함
ex) 인종·성별 분포가 편향된 데이터 → 차별적 의사결정
윤리적 책임
원시(raw) 데이터 → 학습 가능한 데이터로 가공하는 작업
센서 미작동, 수기 누락, 특정 시간대 데이터 미수집 등
정상 범위에서 크게 벗어난 극단값
(ex. 갑자기 온도 센서가 300도 찍힘)
제거, 클리핑, 별도 변수로 활용
거리 기반 알고리즘, 딥러닝 등에서는 스케일 영향 큼
| 방식 | 특징 | 사용처 |
|---|---|---|
| 정규화 (MinMaxScaler) | 0~1로 압축 | 딥러닝, 이미지 |
| 표준화 (StandardScaler) | 평균 0, 표준편차 1 | 선형모델, SVM |
Oversampling
Undersampling
혼합기법 : SMOTE + 언더샘플링
범주마다 열 생성 → 해당하면 1, 아니면 0
장점: 범주 간 서열 관계가 없을 때 사용하기 좋음
단점: 범주가 매우 많으면 차원이 커짐
범주를 숫자로 매핑
장점: 단순
단점: 숫자의 크기가 서열 정보로 해석될 수 있음
기존 변수 → 새로운 변수 생성 또는 변환
예시
날짜 ‘2025-02-24 10:35:00’
→ 월(2)’, ‘요일(월=1)’, ‘시(10)’, ‘주말여부(0/1)’ 분해
'온도','습도' = '온도 × 습도' 상호작용 피처
로그 변환, 제곱근변환 : 비대칭 분포 보정
다중공선성 제거 : VIF 활용해 판단
아래 중 '모수(parameter)'에 해당하는 것은?
A. 표본평균
B. 모집단의 표준편차 ✅
C. 표본의 분산
D. 표본 수 ❌
A. 표본평균 → 통계량
C. 표본의 분산 → 통계량
D. 표본 수 (n) → 단순한 개수
ex) "한국 전체 고등학생 수" → 모수
"내가 조사한 학교의 학생 수(n)" → 표본의 크기, 모수 아님
🔗 용어정리
정규분포가 중요한 이유
기준이 되는 분포이기 때문에 ✅
신뢰구간 95%란, 모집단 평균이 해당 구간 안에 있을 확률이 95%라는 의미이다. (O/X)
정답 ❌
동일한 방법으로 표본을 여러 번 뽑아 신뢰구간을 계속 계산하면, 그 신뢰구간들 중 약 95%는 모집단의 모수를 포함하게 된다
귀무가설이 기각되었다는 것은, 대립가설이 참이라는 것을 의미한다. (O/X)
정답 ❌
귀무가설이 기각됐다고 해서 대립가설이 반드시 참은 아님
데이터가 귀무가설을 지지하지 않는다고 판단한 것 뿐!
기각 or 기각하지 않음만 판단
회귀 결과에서 p-value가 0.0001이고, 𝛽1 = 2.5라면 이 회귀계수에 대해 어떤 해석을 할 수 있는가?
p-value = 0.0001(매우 작음)
→ 이 회귀계수가 통계적으로 유의하다
𝛽1 = 2.5
X가 1 단위 증가하면 Y는 2.5 증가하며, 이 관계는 유의수준 0.05보다 훨씬 작은 p-value를 가지므로 통계적으로 매우 유의미하다.
코드카타 75-76❌ 전체 복습✅ 기초강의 6주차 복습✅ 전체 복습✅ 기초강의 1-2강✅머신러닝 강의 듣느라 코드카타 못하고 ..
일단 전체 복습 한번 쫙 했는데 아직 헷갈리는 개념이 몇 개 있다
지피티한테 퀴즈 내달라고 하는 거 좋은 것 같아서 잘 활용하는 중 🫡
내일은 QCC 하는 날이니까 파이썬은 유기하고 SQL 코드카타 조져야지🍀 만점 해보자 가보자 할 수 있따
💿오늘의 추천곡 Anderson Paak - Jet Black

조흔~ 노래~