
기존 데이터베이스 관리도구의 데이터 수집, 저장, 관리, 분석 역량을 넘어서는 대량의 정형 또는 비정형 데이터 세트 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술 (위키피디아)대용량 데이터를 활용, 분석하여 가치 있는 정보를 추출하고 생성된 지식을 바탕으

지난 포스팅 빅데이터란? (1)과 이어집니다사전처리 > 사후처리필요한 정보만 수집하고 필요하지 않은 정보를 버리는 시스템에서 가능한 많은 데이터를 모으고 그 데이터를 다양한 방식으로 조합해 숨은 정보를 찾아낸다.표본조사 > 전수조사데이터 수집 비용의 감소와 클라우드 컴

기술통계는 직역하면 묘사적 통계이다. 데이터를 계량화한 수치값으로 표현한다. 평균, 최빈값, 중앙값을 구하고 분산을 구하는 것이 기술 통계이며 야구에서 투수의 방어율, 타자의 타율등을 구하는 것이 기술 통계에 속한다.추론통계는 추리, 추정하는 통계를 말한다. 어떤 데이

데이터가 얼마나 '퍼져있는지'를 표현하는 통계량이다. 분산이 클 수록 데이터 서로 간의 퍼짐이 크고, 작을 수록 데이터 퍼짐 정도가 작다. 평균에서 데이터 각각의 값을 배고(편차를 구하고) 제곱하여 그 값을 모두 더한 뒤, 전체 데이터 개수에서 하나의 데이터를 뺀 값(

자료를 구성하는 데이터(산포)의 범위가 어느 정도인지를 IQR(4분위수)을 통해 계산된 내용을 박스플롯 그래프로 시각화하여 직관적으로 파악해 볼 수 있다. 박스플롯은 Q1에서 Q3까지를 박스로 표현해주고 해당 박스에 전체 중앙값(Q2)을 실선으로 표기해 준다. 그 뿐만

크게 확률적/ 비확률적인 추출 방식으로 두 갈래가 있다. 단순임의추출무작위로 추출하지만 대신 추출 시 복원 또는 비복원할 수 있다. 복원은 자료를 추출한 뒤에도 그 자료를 다시 추출할 수 있는 개념이다. 비복원 랜덤 추출의 대표적인 예시로는 로또 복권 추첨방식이 있다.

크게 사칙연산이 가능한 양적자료와 그렇지 못한 질적자료로 나눠진다. 간단히 예를 들면 수치로 표현 가능한 데이터는 양적자료이며, 남자 or 여자 처럼 범주로 나뉘어지는 데이터는 질적자료이다.'이산형'의 경우에 별도로 이산형 확률분포를 참조하면 된다. 그러므로 우선적으로

분포 그래프의 외형을 설명할 때 쓰인다. 분산과 표준편차로 자료의 분포도를 그려볼 수 있으나 특성을 바로 이해하기 어려울 수 있다(아래의 그림중 두 번째 그림은 모두 분산이 같은데도 불구하고 다른 모습을 띄고 있다). 이때 왜도는 그래프의 치우침을, 첨도는 그래프의 뾰