250219 TIL

수이·2025년 2월 19일
1

🟡 TIL

목록 보기
12/45

개인스터디

예제로 익히는 SQL 1회차

우리가 배울 것

실제 현업에서 사용하는 언어 및 툴

  • 수집~처리 : 엔지니어링의 영역
    (*사이언티스트의 경우 같이 한다)
  • 분석~표현 : 데이터 분석가의 영역 ✅우리가 할 것
    그 중에서도 SQL은 가장 기본적이고 중요한 역량

기본 개념

DATA

문자, 숫자, 이미지, 영상, 음성 형태의 "정보"
정보를 기반으로 컴퓨터가 인식 및 저장

DB

저장된 데이터의 모음
데이터가 수집되는 곳 = PC = 서버
RAW DATA(가공되지 않은 데이터)가 저장됨

  • DBMS(DataBase Management System) 사용
    규칙성 및 정합성 부여
    다수의 사용자가 동시접속 및 공유 가능

    • 종류

    • 가장 널리 사용되는 방식은 관계형

      • 최소 단위 : 테이블
      • 행과 열로 이루어진 2차원의 구조
      • 계층형, 망형 구조가 발전된 형태

QUERY

DB에서 정보를 요청하고 결과를 얻기 위해 사용되는 언어
데이터한테 "야 데이터 좀 줘봐" 질문하는 것으로 생각하면 편함

(+) SQL은 쿼리의 한 종류!
관계형 DBMS에서 사용하는 언어

SQL의 작동순서 및 작성순서

작동순서

FROMON → JOIN → WHEREGROUP BYHAVINGSELECTDISTINCTORDER BY

작성순서

SELECTFROMWHEREGROUP BYHAVINGORDER BY

ADsP 자격증 챌린지 6주차

중요부분 ✅표시!

데이터 마트

데이터 웨어하우스로부터 특정 사용자가 관심을 갖는 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터웨어하우스

데이터 전처리

정제과정

  • 결측값과 이상값 처리

분석변수 처리과정

  • 변수 선택, 파생변수 생성
    • 요약변수
      원래 데이터로부터 기본적인 통계자료를 추출한 데이터마트에서 가장 기본적인 변수
    • 파생변수
      특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미(목적)을 부여한 변수

데이터 마트 개발을 위한 R패키지 활용

  • reshape
  • sqldf
  • plyr
  • data.table

데이터 탐색✅

탐색적 데이터 분석(EDA)

데이터의 대략적인 특성을 파악하는 것

결측값

존재하지 않는 데이터

  • 결측값 대치 방법
    • 단순 대치법
      결측치가 존재하는 데이터를 삭제하는 법
      결측값이 많을 경우 데이터 손실 발생 우려
    • 평균 대치법
      데이터의 평균으로 결측값을 대치하는 법
      • 비조건부 평균 대치법
        평균값으로 결측값 대치
      • 조건부 평균 대치법
        실제 값 분석 후 회귀분석 활용
    • 단순 확률 대치법
      평균 대치법에서 추정량 표준 오차의 과소문제를 보완하고자 고안
      K-Nearest Neighbor(KNN)
    • 다중 대치법
      여러 번의 대치를 통해 n개의 가상적 완전 자료를 만드는 방법

이상값

일반적인 데이터 분포에서 벗어나 있는 값

(+) 이상치 사용 분야
사기 탐지, 의료, 네트워크 침입탐지 등 부정사용방지

  • 이상값 판단 방법

    • ESD(Extreme Studentized Deviation)

    • 사분위수

      측정값을 최소값에서 최대값까지 오름차순으로 정렬한 자료를 4등분했을때 각 위치에 해당하는 값을 의미

      • IQR (Interquartile Range)
        사분범위 / 1분위 수(Q1)부터 3분위수(Q3)까지의 범위
      • 중앙값
        2분위 수(Q2)
      • 상자그림(boxplot)으로 식별 가능
      • 일반적으로 사분범위에서 1.5분위수를 벗어나는 경우 이상치로 판단
      • Q1 - 1.5 X IQR (하한 최솟값) 보다 작거나 Q3 + 1.5 X IQR (상한 최댓값)보다 큰 값을 이상값으로 간주

데일리퀘스트

SQL - 중복 제거하기
SQL - 동물의 아이디와 이름
Python - 몫 구하기
Python -나이 출력


일기

  • ADSP 6주차 복습✅ 아답터🔼 모의고사 3회✅ 오답노트❌
    오늘 시간이 너무 모자랐다
    폰으로 계속 문제 풀어보고 있는데 2~3과목에서 계속 놓치는 부분이 생겨서 걱정
    아답터 요약본은 다 읽었고 유튜브는 못봤다
    내일은 꼭꼭 챙기기

  • SQL 코드카타3-4✅
    아~EZ고요~

  • Python 코드카타3-4✅
    네네 그렇고요 내일은 3문제 풀어볼 예정

오늘은 진짜 하루종일 바빴다.........엉엉🥲
라이브세션은 처음 들어보는데 이래저래 정신이 없음
직무세션도 정리해서 블로그 올리려다가 넘 튜터님 개인정보 온 세상에 광고하는 것 같아서 따로 메모장에 정리만 해뒀다

사실 ㅁㅇ튜터님 부분은 다 이해를 못해서 그냥 오..와.. 교수님 진도가 너무 빨라요.. 만 속으로 생각했음 넘 나긋나긋하시고.. 네.. 제가 인공지능에 관심을 가지게 된다면 ... 더보기 .... 😉

점심을 넘 헤비하게 먹어서 저녁은 단백질쉐이크 타먹음
(항정살+물쫄면 먹음 육칠이 존맛탱)

근데 ㅎㅅ님이랑 ㅅㅎ님이 밥을 그렇게 중요하게 여기시는 분이 왜 그렇게 먹었냬서 그렇게 설명하니까 엄청 웃었다 죄금 부끄러웠음 머쓱

그렇게 ㅎㅅ님이랑 마저 수다떨고있다가 저녁시간 다 끝난지도 몰라서 조장님이 데리러와서 죄송했음 (보고계시죠 죄송합니다)

아 그리고 새삼 회의하는데 피피티 넘 쥐리고.. ... 우리 조 사람들 너무 귀엽고 뽀짝해서 같이 공부하니까 좋은 거 같다 오늘도 고생했고 내일도 파이팅🍀

2개의 댓글

comment-user-thumbnail
2025년 2월 20일

새로운 사람 만나기 즐거웠어요~!!!!!!! 0.1초 지만~!!!!!
오늘도 파이팅!

1개의 답글

관련 채용 정보