데이터 사이언스 입문

ChoRong0824·2023년 7월 1일
0
post-thumbnail

데이터 사이언스 기말고사 시험을 보기 위해 정리했던 용어를 포스팅 했습니다.

클러스터링의 4가지 속성

  1. 지리적
  2. 심리적 --> 앙케이트 조사 --> 크로스집계
  3. 인구 통계적
  4. 행도, 태도

좋은 회귀식이란 ?

어떤 변수를 넣을 것인지, 해당 분야에서 얻을 수 있는 기존 지혜등을 활용하면서 신중하게 해야합니다.


회귀 분석이란?

수요 예측을 하기 위해 사용되는 기본적인 수단입니다.


디폴트 발생에 대한 확률분석

  1. 로지스틱 회귀분석
  2. 결정트리 분석기법
  3. 클러스터링 기법

RPA란 ?

기업에서 정형적인 업무를 기계화한 움직임 및 작업입니다.


AI의 경우 " "에 의해 판단하며, " " 결과에 대한 분석을 토대로 대책을 세웁니다.

--> 여기서 " " 에 들어갈 말은 '프로세스' 입니다.


QCD의 3가지 품질 종류는 ?

  1. 안정된
  2. 오류없는
  3. 신뢰적인

" " 에 들어갈 말을 생각해보세요.

결과를 만들어 내는 " "에 주목하여 " "를 만들자.

--> 프로세스, 불량 없는 프로세스

공업생산은 " "

--> 불규칙성 극소화

주관적 판단이 아니라, " " 토대로 판단해야합니다.

--> 사실 및 데이터


설계 품질(목표품질)

  1. 기획 및 개발에서 규정을 합니다.
  2. 기준이 되는 품질입니다
  3. 주관부서 : 기획 또는 개발부서

제조품질(적합품질)

  1. 대량생산한 제품
  2. 허용범위내에서 불규칙성
  3. 주관부서: 주로 공장

오늘날 품질관리는 " "

--> 통계적 품질관리

용어 및 문자 정보도 활용은 " "

--> 언어데이터


수치데이터를 시각화 (QC도구)

  1. 데이터를 수집하기 위하여 체크할 항목들 --> 체크시트
  2. 수치데이터를 시각화하기위한 기본도구 --> 그래프
  3. 누적비율을 표시한 도면 --> 파레토다이어그램
  4. 측정된 데이터의 중심과 흩어진 모양새를 시각적으로 나타내기 위한 기법 --> 히스토그램
  5. 통계적으로 판단하기위한 기법 --> 관리도
  6. 2가지 특성들 사이의 관계성 --> 산포도
  7. 어떤 특성에 대해서 영향을 주는 요인은 다수 존재하며, 이러한 요인을 빠짐없이 정리하여 시각적으로 나타낸 기법 --> 특성 요인도

언어 또는 문자 정보의 시각화 (QC도구)

  1. 관계성을 정리 --> 관계도법
  2. 문제에 대한 원인을 여러 계층으로 나타냄 --> 계통도법
  3. 친화성을 기반으로 종합정리 --> 친화도법

오늘날의 품질 관리 분야에서 기초가 되는 것은 "SQC" 입니다.


픽셀 --> 수량소자 --> 촘촘하면 --> 해성도 높음
픽셀 --> 수량소자 --> 널찍하면 --> 해상도 낮음

수량소자

  • 빛의양을 측정하는 센서입니다.
    그대로 색 구분을 못한다는 특징이 있습니다.

컴퓨터비전

이미지 해석에의해 컴퓨터에게 다양한 기능을 구현시키는 기술입니다.


삼각측량법

물체를 서로 다른 두 위치에서 바라보았을 때 형성되는 삼각형을 이용하여, 물체까지의 거리를 계산합니다.


스테레오기법

두 이미지의 대응점에서 삼각측량법을 사용하여, 깊이영상을 측정하는 방법입니다.


SFM 기법 ?

3차원 정보를 복원하는 기법입니다.


음성처리

음성데이터는 재현성이 낮다는 특징을 가지고 있습니다.


아날로그 신호란 ?

음성데이터는 공기의 압력을 전기신호로 변환한 "아날로그 신호" 입니다.


PCM 데이터

시간 방향으로 나열하여 저장하는 것을 말합니다.


주파수 Hz

1초동안 진동하는 파동의 수입니다.


음파

음성데이터는 여러개의 주파수들의 "음파"로 구성되어 있습니다.


스펙트로그램

농도가 짙은 부분을 "큰 음성 파워"
농도가 옅은 부분을 "작은 음성 파워"


프레임

단위를 나타냅니다.
즉, 프레임 단위로 데이터를 추출할 때는 "커튼치기작업"에 의해 수행됩니다.
보통 제가 알기론 31.25Hz입니다.


조화파 구조

주파수 방향에 규칙적인 줄무늬가 있습니다.
--> 도~레~미~파~솔~라~시~도 같이, 음의 높이가 존재합니다.


필터뱅크

줄무늬 형태의 구조를 제거하는 필터입니다.


스펙트럼 포락선

줄무늬형태의 구조를 제거하는 필터입니다.
또한, 스펙트럼의 외형만 추출하는 것을 말하며,
스펙트럼의 외형만으로 어떤 음에 대응하는지 확인 가능합니다.


음성왜곡

2배 증폭된 것을 말합니다.


일반적인 데이터 분석 프로세스 6단계

  1. 문제정의
    목표값 설정, 구체적으로 나타냅니다.
  2. 데이터수집
    각종 매체를 통해 수집, 인터넷으로부터 수많은 데이터 찾기, 효율적인 데이터 수집을 위해 "의사결정" 중요
  3. 데이터관리
    수집된 데이터 저장 및 관리
  4. 탐색적분석
    분류나 클러스터링을 통해 패턴을 찾아내고 분석하며, 시각화 합니다.
  5. 최종분석
    체크리스트로 최종 점검합니다.
  6. 보고
    시각화 반드시 포함되며, 보고서 작성 및 제출하는 단계입니다.

빅데이터 문제점

  1. 사생활 침해
  2. 보안
  3. 개인정보에 주의

분류와 클러스터링의 차이

분류(지도학습)

주어진 특정 집단분류하는 것을 말합니다.
1. 의사결정 트리
2. SVM
3. Naive Bayse
4. K-Neurest Neighbor

클러스터링(비지도학습)

유사한 패턴들끼리 묶는 것을 말합니다.
1. 지진 연구에 도움을 줍니다.
2. 응급병원의 위치선정 및 야간 약국 위치선정할 때 주로 사용됩니다.


profile
백엔드를 지향하며, 컴퓨터공학과를 졸업한 취준생입니다. 많이 부족하지만 열심히 노력해서 실력을 갈고 닦겠습니다. 부족하고 틀린 부분이 있을 수도 있지만 이쁘게 봐주시면 감사하겠습니다. 틀린 부분은 댓글 남겨주시면 제가 따로 학습 및 자료를 찾아봐서 제 것으로 만들도록 하겠습니다. 귀중한 시간 방문해주셔서 감사합니다.

0개의 댓글