정의 : 데이터를 기반으로 의미 있는 패턴을 발견하고, 예측과 최적화를 통해 의사 결정을 돕는 학문목적데이터에서 정보를 추출하여 가치 창출통찰력을 얻고 문제 해결 능력 향상인공지능(AI), 머신러닝(ML), 통계 등의 기술을 활용하여 분석 수행문제 정의 : 해결하고자
데이터에서 특징을 찾아내고 가치 있는 정보를 도출하는 과정데이터를 분석하기 위해 통계학, 머신러닝, 프로그래밍(주로 Python) 활용데이터 분석의 핵심 요소 : 데이터, 알고리즘, 컴퓨팅확률(Probability) : 특정 사건이 발생할 가능성을 나타내는 값주사위를
데이터를 효율적으로 저장, 관리, 검색, 수정, 삭제할 수 있는 구조서랍정리 개념 : 특정한 기준으로 데이터를 분류하여 보관데이터베이스를 통해 일관성, 무결성, 독립성, 보안성을 보장할 수 있음정형 데이터 : 테이블, 엑셀처럼 일정한 형식을 가진 데이터 (예: DB 테
결측치(누락된 데이터) 발생 가능성데이터 수집의 불안정성 (일부 데이터 누락, 지연, 중단 등)다양한 데이터 원을 통합할 때 발생하는 문제 (불일치, 중복, 오류 등)해당 투플(Tuple) 제거결측값이 포함된 데이터를 삭제하는 방법너무 많은 데이터가 제외되면 분석 결과
ETT 는 Extraction(추출), Transformation(변환), Transprotation(전송) 의 약자로, 데이터를 수집, 정제, 변환하여 최종 목적지(DB)에 저장하는 프로세스각 조직 및 시스템의 데이터를 일원화하여 관리하는 대형 데이터베이스신뢰할 수
데이터베이스(Database) 란 데이터를 체계적으로 저장, 관리, 검색 및 수정할 수 있는 시스템 효율적인 데이터 관리를 위해 DBMS (Database Management System) 가 필요 1️⃣ 데이터 입출력 기법 ✨ 데이터 구조와 저장 방식 수치형 데이터
여러 사용자가 원하는 정보를 얻기 위해 모아둔 자료의 집합중복이 없고 정리된 데이터들의 모음데이터를 효율적으로 저장, 검색, 수정, 삭제할 수 있도록 구성테이블(표) 형식으로 데이터를 저장하고, 서로 관계(Relation) 를 맺어 활용하는 방식과거에는 각각의 부서별로
데이터베이스를 생성, 관리, 운영할 수 있도록 돕는 소프트웨어기존 파일 시스템의 문제점(중복성, 종속성) 을 해결하기 위해 개발됨대표적인 DBMS : MySQL, PostgreSQL, Oracle, Microsoft SQL Server, MongoDB 등데이터 중복 최
기존 기술로는 처리할 수 없을 정도로 크고 다양한 데이터를 의미단순히 양만 많은 게 아니라 다양성, 속도, 가변성이 높아진 데이터Volume (양) : 데이터의 크기Velocity (속도) : 데이터가 빠르게 생성되고 처리되는 속도Variety (다양성) : 데이터 형
데이터를 쉽게 요약해주는 통계 방법파이썬에서는 Numpy, SciPy, Pandas 를 통해 쉽게 처리자주 쓰는 함수일괄적으로 보기확률적인 과정에서 나타나는 값들을 숫자로 표현한 변수주사위 던지기, 동전 던지기 같은 상황에서 얻어지는 결과 값들정수 형태로 딱 끊어지는
종 모양이며 평균을 중심으로 좌우대칭평균이 중앙값과 최빈값이 일치평균이 같고 표준편차가 다르면 그래프가 다르게 퍼지고, 표준편차가 같고 평균이 다르면 그래프 위치가 옮겨짐특정 값(x) 이하가 나올 확률을 나타내는 함수계속해서 누적되므로 그래프는 아래에서 점점 올라감예시
구글에서 빅데이터 처리를 위해 만든 분산 환경의 병렬처리 프로그래밍 모델데이터가 너무 크면 하나의 서버에서 처리하기 어렵기 때문에 여러 서버에 나눠서 처리맵(Map) : 데이터를 키(Key) 와 값(Value) 으로 변환하고 분류리듀스(Reduce) : 맵 결과를 그룹
데이터 분석이나 머신러닝을 수행하기 전에, 원본 데이터를 분석에 적합한 형태로 가공하는 과정전체 데이터 분석 프로젝트에서 전처리 작업이 약 70% 를 차지할 만큼 중요데이터를 얼마나 잘 전처리하느냐가 분석의 정확도와 신뢰도를 결정분석에 불필요한 데이터를 걸러내는 작업중
유사한 특성을 가진 데이터끼리 묶어서 Cluster(군집) 를 만드는 기법통계 용어로는 Clustering 이라 부름다양한 사과 100개를 종류별로 묶는 것처럼, 데이터를 특성별로 분류SNS 사용자 성향, 웹서비스 이용 성향, 패션 트렌드 등 다양한 분야에서 활용데이터
비슷한 특성을 가진 관측 대상끼리 그룹(군집) 으로 나누는 분석 방법데이터의 특성을 이해하거나, 데이터 전처리 및 탐색적 분석에 활용인간의 자연스러운 추론 과정을 반영한 분석 기법예시사과를 색상, 맛, 모양 등 유사성으로 묶어 분류고객의 구매 성향에 따라 그룹화하여 마

K-means 는 비계층적 군집화 방법군집의 개수(k)를 미리 정하고, 데이터를 각 군집의 중심과의 거리가 최소가 되도록 군집을 형성주로 sklearn 라이브러리를 이용하여 구현→ 반환→ 반환✅ K-means 주요 특징군집 수(k) 를 미리 정해야 함각 군집 중심과의
목적 : 데이터 간의 관계를 분석하여 예측 및 추론 수행활용데이터의 특성 및 현상 분석통계적 모델을 만들어 예측유형선형 회귀다중 회귀로지스틱 회귀 등Apache Kafka : 분산 메세지 큐 플랫폼LinkedIn 에서 개발, 현재 Apache 프로젝트로 관리특징고성능
정의 : 하나의 독립변수(X) 가 종속변수(Y) 에 어떤 영향을 미치는지 분석하는 통계 기법목적두 변수 간의 관계(인과관계) 분석종속변수의 값 예측 예시 : 식물의 성장량(종속변수) 은일조량(독립변수 1)비료량(독립변수 2)물 공급량(독립변수3) 등에 따라 결정될 수
데이털를 유사한 특징, 관련성에 따라 그룹으로 나누는 작업인간이 일상에서 자연스럽게 수행하는 사고 과정유사한 특성을 가진 데이터를 쉽게 관리 및 분석효율적인 데이터 관리와 분석을 통해 의사결정 능력 향상여러 물리적 위치에 있는 컴퓨터의 자원을 가상화하여 하나의 서비스처
추천이란?사용자의 특성, 과거 행동 등을 기반으로 맞춤형 정보를 제공하는 것정확성보다 사용자에게 맞는 정보가 중요추천의 한계점사용자의 정보가 충분하지 않으면 추천의 품질이 낮아짐개인화된 데이터가 필수적공통점: 데이터 수집 → 전처리 → 모델링 → 평가 과정 포함Busi
추천이란 사용자에게 의미 있고 유용한 정보를 제공하는 것추천의 효과는 대상자의 데이터(구매 이력, 관심사, 특성 등) 에 기반해야 정확해짐고객의 구매 이력에서 아이템 간 연관성을 분석해 추천하는 방법선행 사건(X) 이 발생하면 후행 사건(Y) 도 발생할 확률 분석토너
다차원적 데이터 분석을 통해 사용자가 필요한 정보를 실시간으로 조회하고 분석하여 의사결정에 활용하는 시스템다차원적 분석이 가능함최종 사용자가 대화식으로 정보를 분석하고 질의 가능전략적 의사결정 지원DW (Data Warehouse)다양한 출처의 데이터를 주제별로 저장한
정의데이터를 그래프, 차트, 색상, 도형 등의 시각적 요소로 표현하여 정보나 추세를 쉽게 이해할 수 있게 하는 기법.필요성복잡한 데이터를 직관적이고 빠르게 이해 가능데이터의 변화 및 추이를 쉽게 파악할 수 있음데이터의 의미를 명확하게 전달할 수 있음Not Only SQ
실제 컴퓨팅 자원을 여러 가상 환경으로 분리하여 독립적으로 활용 가능하게 만드는 기술.물리 서버 하나를 여러 개의 가상 서버로 나누어 자원을 효율적으로 활용. 애플리케이션과 이를 실행할 수 있는 모든 환경(라이브러리, 코드 등)을 하나의 단위로 묶은 것.독립적, 가벼운
기존 프로그래밍명확한 조건과 규칙에 따라 입력 → 출력 결정조건 → 결과머신러닝데이터를 통해 규칙성을 학습하고 예측데이터 + 정답 → 규칙성 → 예측예시 : 강아지 사진, 고양이 사진을 주고 학습 → 새로운 사진이 강아지인지 고양이인지 예측인공지능(AI): 인간의 지능