상태가 안좋은 데이터? 데이터 형식 문제 영어 대소문자가 엉망 무의미한 공백이 있는 데이터 실제 데이터에 문제가 있는 경우 중복 특수하거나 예외적인 값이 존재 데이터를 전처리 하기 전에 > 문자열 데이터를 사용한다면 데이터를 열어 직접 확인하라 설
데이터 과학의 로드맵은 다음과 같다.모델 수립 및 분석 단계에 있다가도 문제 파악 단계로 옮겨갈 수 있다.지금 푸는 문제가 잘 정의된 실제로 의미있는 문제인지 계속 고민해야 한다.결과정리 및 발표와 코드 배포 두가지 방법으로 나뉠 수 있다.둘다 하는 경우도 있다!최종
프로젝트를 진행할 때, 만든 모델을 다른 사람에게 공유하고, 보여주고 싶은 경우 사용할 수 있는 대시보드 간단하게 실행 가능한 도구 = streamlit python으로 web 구현하기 특정 버튼 누를 때 데이터 불러오기 -> 데이터 반복으로 불러오기 X -> 중간에
LM (언어 모델, Language Model) 이란, 인간의 언어를 이해하고 생성하도록 훈련된 일종의 인공지능 모델이다. 언어 모델의 품질은 크기나 훈련된 데이터의 양 및 다양성, 훈련 중에 사용된 학습 알고리즘의 복잡성에 따라 달라진다.LLM (거대 언어 모델, L
적어도 입력이 둘은 있어야 출력 1개가 나온다. (뉴런이 활성화 된다)TLU(Threshold Logi unit), LTU(linear threshold unit)TLU가중합을 계산한다 (input은 이진이 아니라 숫자)step function으로 분류한다.heavis
: 샘플 차원이 커지면 커질수록 해당 데이터를 잘 대변하지 못함을 말한다. (샘플 밀도가 너무 낮아짐)새로운 인스턴스 넣었을 때 주변 인스턴스가 넘 떨어져있어 그 인스턴스 설명 불가능오차 커질 수 있음데이터가 주변에 너무 없어서 과도하게 다른 인스턴스와 연결해 설명이
데이터 정규화는 데이터의 스케일을 조정하여 모델의 학습을 개선하고 예측 성능을 향상시키는 과정이다. 주로 머신러닝 모델에서 사용된다. 데이터를 특정 범위로 스케일링합니다. 일반적으로 0과 1 사이의 범위로 변환된다.$$X{norm} = \\frac {X-X{min}}{
Feature selection은 모델의 성능을 향상시키고 모델의 복잡도를 줄이기 위해 중요한 특성만을 선택하는 과정이다. Feature selection에는 여러가지 알고리즘이 있다. Filter Methods에서는 특성과 타겟 간의 통계적인 관계를 기반으로 특성을