함수란? > 함수는 파이썬에서 기본으로 제공하는 내장함수와 사용자가 직접 선언하는 사용자 함수가 있다. 함수를 사용하는 이유는 무엇일까? 함수는 특정 기능을 재사용하기 위해서 사용한다.![](https://velog.velcdn.com/images/kyuunng7
모듈 구분 > 파이썬 모듈은 내부 모듈, 외부 모듈 그리고 사용자 모듈로 구분할 수 있다 내부모듈 : 파이썬 설치 시 기본적으로 사용할 수 있는 모듈 외부모듈 : 별도 설치 후 사용할 수 있는 모듈 사용자 모듈 : 사용자가 직접 만든 모듈 > 실습 : random
객체지향 프로그래밍 객체를 이용한 프로그램으로 객체는 속성과 기능으로 구성된다 > 속성이 바뀌는 값, 기능은 안바뀌는 값! 업로드중.. > 붕어빵틀을 상상해보면 이해하기 쉬움 객체 사용의 장점 코드 재사용, 모듈화에 좋다. 업로드중.. 클래스 만들기 클래스는 c
예외란, 문법적인 문제는 없으나 실행 중 발생하는 예상하지 못한 문제이다예외와 오류는 엄격히 말하자면 다른것!프로그램 에러 : 소프트웨어적으로 처리할 수 없는 것 (문법적인 에러, 네트워크 에러, 천재지변..?, 전기가 나감 등 )예외 관련 클래스는 Exception클
open(), read(), write(), close()를 이용한 덱스트 파일 다루기write() 함수를 이용한 파일에 문자열 쓰기특징 : 덮어쓰기로 되기 때문에 이전 파일내용이 사라질 수 있으므로 주의실습 : 다음과 같이 시스템 시간과 일정을 텍스트 파일에 작성해
함수를 이용한 프로그래밍다음과 같이 출력 될 수 있도록 이동거리와 이동시간을 반환하는 함수를 만들어보자다음과 같이 출력 될 수 있도록 비행기 티켓 영수증 출력 함수를 만들어 보자다음과 같이 출력될 수 있도록 재귀함수를 이용해서 팩토리얼 함수를 만들어보자!다음과 같이 출
일반적인 형식은 다음과 같습니다:pythonCopy codenew_list = \[expression for item in iterable if condition]여기서:expression: 각 요소에 대한 계산식 또는 표현식입니다.item: iterable에서 가져온
데이터 분석을 하려고 .csv파일을 read하는 순간 오류가 났다!에러 발생 이유: 텍스트 파일을 읽거나 쓸 때, 파일의 인코딩이 잘못되었거나, 읽으려는 파일의 인코딩과 파이썬이 가정하는 인코딩이 맞지 않을 때 발생합니다: 읽어드릴 파일의 포맷이 UTF-8이 아니기 때
pandas documentation에 명시된 melt의 파라미터다. frame 자리엔 바꿀 df를 넣어주고, id_vars에는 ID 변수를 지정해준다.melt는 ID 변수를 기준으로 원래 데이터셋에 있던 컬럼명들을 'variable' 컬럼의 값들로 위에서 아래로 길게
파이썬에서 csv파일로 다운로드는 간단하다경로를 잘 설정해준 뒤에아래의 코드를 넣어서 추출해주면 끝~!index = False을 설정해 주는편이 좋다왜냐하면 index값이 들어가면 의미없는 데이터가 축적되는것,또한 계속해서 index값이 중복되어 저장되면 데이터 오류를
만약 처리해야할 파일들이 너무 많다면?파이썬에 파일 불러오기파일 작업하기저장하기\-> 작업은 간단해 보여도 파일 수가 많아질수록 실수는 당연히 많아질 수 있음위와 같은 작업을 반복해주는 반복문을 작성하면 간단해짐!!그러기 위해서는 '파이썬의 경로'에 대한 개념을 잘 숙
Python pandas의 dropna() method를 사용해서 \- 결측값이 들어있는 행 전체 제거 (delete row with missing values), \- 결측값이 들어있는 열 전체를 제거 (delete column with missing v
colab에서 데이터 분석을 하다가 텍스트 마이닝을 해보고 싶은 데이터가 있길래 구글링을 해서 도전해 봤지만, 코랩에서는 지원하지 않는 라이브러리가 꽤나 있어서 미래의 나를 위해 코랩에서는 텍스터 마이닝을 어떤 라이브러리를 사용해서 진행하는지기록으로 남겨보려고 한다.
데이터를 보다보면 가끔 한 셀 안에 여러개의 값이 ;으로 구분된 값으로 들어가있는 경우가 있다.오늘은 이런 중첩된 데이터에서 유니크한 값으로 뽑아보는 걸 배워봤다위 이미지와 같이 Employment데이터가 ;에 의해 여러개의 값이 중첩되어있는걸 확인해볼 수 있다.여기서
데이터분석과 머신러닝의 현장에서 자주 마주치는 중요한 요소 중 하나이러한 변수는 주로 '문자열 타입'으로 표현되며, 데이터 프레임에서 이들의 유형은 'object'또는 'category'로 분류됩니다. 이미지출처: 데이콘단순한 수치를 넘어 데이터에 내재된 의미 혹은 카
레이블 인코딩 Label Encoding은 범주형 변수의 각 범주(카테고리)에 고유한 정수를 할당함으로써, 기계 학습 모델이 이해할 수 있는 형태로 데이터를 변환하는 것을 의미 Label Encoding 방법 및 scikit-learn 라이브러리 활용하여 구현하기
scikit-learn 라이브러리 활용하여 구현하기pandas 라이브러리와 sklearn의 OneHotEncoder클래스를 불러온다.pandas는 데이터 처리를 위한 라이브러리이며, OneHotEncoder는 범주형 변수를 위한 원-핫 인코딩으로 변환하는 데 사용tra
로지스틱 함수에서 이직 분류 문제를 풀기위해 발전되었다이 모델은 주로 예/아니오, 성공/실패와 같이 두 가지 범주로 결과가 나뉘는 경우에 사용확률추청 : 로지스틱 회귀는 주어진 데이터가 특정 클래스에 속할 확률을 추청이 확률은 0과 1 사이의 값으로, 예측된 확률이 특
회귀분석은 우리가 변수들 사이의 관계를 이해하고 예측하는데 도움을 주는 통계적 방법예) 기업이 광고에 얼마나 돈을 쓰는지 (독립 변수)와 그들의 제품이 얼마나 잘 팔리는지(종속 변수) 사이의 관게를 알고 싶다고 가정했을때, 회귀분석을 사용하면, 광고 지출이 판매량에 어
연속형 변수는 무한하고 가산할 수 없는 값들로 구성됩니다. 이는 변수가 취할 수 있는 값이 연속적인 범위 내에 있다는 것을 의미합니다. 예를 들어, 사람의 키, 무게, 온도, 거리 등이 이에 해당합니다. 연속형 변수는 일반적으로 실수로 표현되며, 두 값 사이에는 항상
정답이 포함된 문제집으로 선생님이 학생을 가르치는 것 처럼, 머신러닝 모델도 정답이 있는 데이터로 학습을 한다. 그리고 이 학습을 바탕으로 새로운 문제에 대한 답을 찾는다이는 모델의 교과서라고 할 수 있다. 각 데이터 포인트(예: 각각의 사진, 집에 대한 정보 등)는
RMSE는 실제 값과 예측 값의 차이를 제곱하여 평균낸 뒤, 그 제곱근을 취한 값. 이는 예측 오차의 크기를 나타내는 지표로 값이 작을수록 모델의 예측 정확도가 높음을 의미한다.언제 사용할까?회귀모델 성능을 평가할 때 사용특히 연속적인 수치를 예측하는 문제에서 모델의
머신러닝은 데이터를 기반으로 패턴을 자동으로 학습하고, 입력 데이터와 출력 데이터 사이의 관계를 모델링 하는 인공지능의 한 분야이다언제 사용할까머신러닝은 복잡한 문제를 해결하거나 대규모 데이터에서 유의미한 정보를 추출할때 사용된다. 특히 전통적인 머신러닝 기법은 정형
정규 표현식은 텍스트 내에서 문자열의 패턴을 찾기 위해 사용되는 일련의 문자와 특수문자의 조합이를 통해 데이터를 검색하고, 대체하고, 추출하는 등 의 작업을 수행할 수 있습니다.데이터의 형식 검사특정 패턴이나 조건에 맞는 문자열을 검색데이터 정제 및 가공, 특정 정보
아주 인간적인 실수에서 비롯데이터 자체가 손상되었을 수 있음실제로 뭔가 예외적인 일이 일어났기 때문. 예를들어 보통은 조용한 마을에 축제가 열려서 갑자기 소음이 많아진 경우단변량 이상치단 하나의 특징만 봐서 찾음예를 들어 사람들 키만 놓고 봤을때 평균적인 키에서 너무
DBSCAN은 데이터 포인트들을 기반으로 클러스터를 형성하고, 이 과정에서 클러스터에 속하지 않는 포인트들을 이상치로 간주하는 클러스터링 알고리즘k-means알고리즘의 대안으로 사용되며, 미리 클러스터의 수를 정할 필요 없이 데이터 자체의 밀도에 기반하여 클러스터링을
피처는 머신러닝 모델이 학습하는 데 사용되는 개별 정보의 단위이며, 데이터의 각 컬럼을 의미한다피처 생성은 머신러닝 모델의 정확도를 향상시키기 위해 원본 데이터에서 새로운 정보를 추출하거나 변환하는 과정이다머신러닝에서 피처는 모델이 패턴을 학습하고 예측을 수행하는 데
1\. 소수 클래스의 과소평가가장 먼저, 소수 클래스인 '사기 거래'가 과소평가될 위험이 있다정상 거래가 많다보니, 컴퓨터는 사기 거래를 찾아내는게 아니라, 그냥 모든 거래를 '정상'으로 분류해버릴 수도 있다.이런 상황에서는 사기 거래를 제대로 잡아내지 못하고 그냥 지
오버피팅 오버피팅이란 머신러닝에서 모델이 훈련 데이터에 지나치게 잘 맞춰져 있어, 새로운 또는 보이지 않는 데이터에 대해 일반화 하는 능력이 떨어지는 현상을 말한다. 모델이 훈련 데이터의 패턴 뿐만 아니라 노이즈까지 학습해버려, 실제 세계의 복잡성과 변동성을 반영하는
머신러닝 모델을 학습할 때 설정하는 외부 구성 값이 값은 모델 학습 과정 자체에 의해 학습되지 않으며, 모델의 성능에 큰 영향을 미칠 수 있다.파라미터들의 최적의 조합을 찾는 과정을 말하며, 이를 통해 모델의 성능을 최대화 할 수 있다.경험과 직관에 의한 조정 : 경험