통계
자료수집 방법 — 같은 조건 다른 그룹(독립측정 설계), 다른 조건 같은 그룹(반복 측정 설계)
임의의 인자들로 일어난 차이 - 비체계적 변동 ↔ 구체적 실험 조작에 일어난 차이 - 체계적 변동
⇒ 통계학의 임무는 성과에 존재하는 변동이 어느 정도인지 파악하고, 그중 체계적 변동은 얼마이고 비체계적 변동은 얼마인지 알아내는 것이다.
실험적 조작의 효과를 살펴볼 때는 조건들 사이의 임의적이고 통제할 수 없는 차이들에서 발생하는 배경 ‘잡음’에 주의를 기울여야 한다. 반복측정 설계에서는 이러한 ‘잡음’이 최소한으로 유지되어서 실험의 효과가 좀 더 명확하게 드러날 가능성이 크다. 이 는, 다른 요인들이 동일하다고 할 때, 반복측정 설계가 독립설계보다 효과를 검출하는 능력이 더 뛰어남을 뭇한다.
임의화(randomization)
1.7. 자료분석
도수분포; 히스토그램 (hist())
급첨; 완첨
중심경향성 — 최빈값(가장 긴 막대), 중앙값((n+1)/2), 평균
⇒ 모든 점수를 사용하고, 서로 다른 표본에서 비교적 안정적이기 때문에 평균을 많이 사용하는 것
산포(범위; range) → 사분위간 범위(양쪽 25% 제거하고 가운데 50%만 사용해서)
z점수(z-score): 그 어떤 자료집합이라도 평균이 0이고 표준편차가 1인 자료집합으로 변환할 수 있다. 우
선 각 점수(X) 에서 모든 점수의 평균(x)을 뺀다. 그러면 자료의 중심이 0이 된다. 다음으로는, 수정된 점수들을 표준펀차(5)로 나눈다. 그러면 결과적으로 전체 자료의 표준편차가 1이 된다. — 70-71p
1. 96 값은 분포의 상위 2.5%를 잘라낸다는 점에서 중요하다
대립가설; 존재한다
귀무가설; 존재하지 않는다
어떤 자료가 귀무가설을 기각함이 확실하다면 그 자료는 실험가설을 지지한다고 말할 수 있다. 단, 자료가 귀무가설을 기각한다고 해도 그 즉시 실험가설이 증명되는 것은 아니다. 단지 자료가 실험가설을 지지하는 것일 뿐 ⇒ "귀무가설이 참이라고 가정하고 수집한 자료가 실제로 그 가정을 지지할 가능성”에 관해 말하는 것이 합당 ⇒ 근데 그게 또 참이라고 말할 수 없고, 말할 수 있는 자료를 얻을 가능성을 얻는 것
SQL
| 해커랭크
문자열 부분 가져오기 — 정규표현식
SELECT DISTINCT CITY
FROM STATION
WHERE REGEXP_LIKE(City, '^[AEIOU].*[aeiou]$');
데이터베이스
Database 개론2
DBMS에서의 데이터베이스란?
왜 테이블이 핵심인가?
환자 한 명의 정보는 하나만 있는 것이 아니므로, 여러 개의 정보로 나뉜 환자의 정보를 저장해야 한다.
→ 그게 바로 테이블 형태의 자료구조이다.
캐비닛이 데이터베이스라면 서랍장 한 칸은 곧 테이블 → 어떤 용도로 어떤 데이터를 넣을 것인가 결정
Database 개론3
관계형 데이터베이스와 집합
집합 연산자
기본키 Primary Key