210623 통계, SQL, 데이터베이스

Haein Kim·2021년 6월 25일

[TIL] GAP MONTHS

목록 보기

3/26

통계

자료수집 방법 — 같은 조건 다른 그룹(독립측정 설계), 다른 조건 같은 그룹(반복 측정 설계)
임의의 인자들로 일어난 차이 - 비체계적 변동 ↔ 구체적 실험 조작에 일어난 차이 - 체계적 변동

⇒ 통계학의 임무는 성과에 존재하는 변동이 어느 정도인지 파악하고， 그중 체계적 변동은 얼마이고 비체계적 변동은 얼마인지 알아내는 것이다.
실험적 조작의 효과를 살펴볼 때는 조건들 사이의 임의적이고 통제할 수 없는 차이들에서 발생하는 배경 ‘잡음’에 주의를 기울여야 한다. 반복측정 설계에서는 이러한 ‘잡음’이 최소한으로 유지되어서 실험의 효과가 좀 더 명확하게 드러날 가능성이 크다. 이 는， 다른 요인들이 동일하다고 할 때， 반복측정 설계가 독립설계보다 효과를 검출하는 능력이 더 뛰어남을 뭇한다.
임의화(randomization)
- 반복측정 설계에서 참가자는 연습효과, 권태효과가 나타날 수 있으므로 순서를 섞는 임의화를 한다.
- 독립설계에서는 참가자를 무작위로 배정하는 임의화 적용하여 중첩변수를 고르게 분포되게 한다.

1.7. 자료분석

도수분포; 히스토그램 (hist())
급첨; 완첨
중심경향성 — 최빈값(가장 긴 막대), 중앙값((n+1)/2), 평균

⇒ 모든 점수를 사용하고, 서로 다른 표본에서 비교적 안정적이기 때문에 평균을 많이 사용하는 것
산포(범위; range) → 사분위간 범위(양쪽 25% 제거하고 가운데 50%만 사용해서)
z점수(z-score): 그 어떤 자료집합이라도 평균이 0이고 표준편차가 1인 자료집합으로 변환할 수 있다. 우
선 각 점수(X) 에서 모든 점수의 평균(x)을 뺀다. 그러면 자료의 중심이 0이 된다. 다음으로는， 수정된 점수들을 표준펀차(5)로 나눈다. 그러면 결과적으로 전체 자료의 표준편차가 1이 된다. — 70-71p
```
1. 96 값은 분포의 상위 2.5%를 잘라낸다는 점에서 중요하다
```
대립가설; 존재한다
귀무가설; 존재하지 않는다
어떤 자료가 귀무가설을 기각함이 확실하다면 그 자료는 실험가설을 지지한다고 말할 수 있다. 단， 자료가 귀무가설을 기각한다고 해도 그 즉시 실험가설이 증명되는 것은 아니다. 단지 자료가 실험가설을 지지하는 것일 뿐 ⇒ "귀무가설이 참이라고 가정하고 수집한 자료가 실제로 그 가정을 지지할 가능성”에 관해 말하는 것이 합당 ⇒ 근데 그게 또 참이라고 말할 수 없고, 말할 수 있는 자료를 얻을 가능성을 얻는 것

SQL

| 해커랭크

문자열 부분 가져오기 — 정규표현식

SELECT DISTINCT CITY
FROM STATION
WHERE REGEXP_LIKE(City, '^[AEIOU].*[aeiou]$');

데이터베이스

Database 개론2

DBMS에서의 데이터베이스란?
- 데이터를 저장하는 저장소, 고유이름 필요
- 구체적으로는 "테이블" 구조의 데이터가 저장되는 장소
- 테이블은 열과 행의 구조로 이뤄진 자료형태이며, DBMS의 핵심
왜 테이블이 핵심인가?
- 환자 한 명의 정보는 하나만 있는 것이 아니므로, 여러 개의 정보로 나뉜 환자의 정보를 저장해야 한다.
  
  → 그게 바로 테이블 형태의 자료구조이다.
- 캐비닛이 데이터베이스라면 서랍장 한 칸은 곧 테이블 → 어떤 용도로 어떤 데이터를 넣을 것인가 결정