TensorFlow - Help Protect the Great Barrier Reef대회 문제를 풀다가 train을 찍어보니 아래처럼 0번부터 15번까지는 결측치가 있다는 걸 확인했다. 이를 지워주고자 한다.위 코드를 확인해보자. 우선 train안에서 string의
이미지 처리를 할 때면 파일의 경로를 만들어 줘야 하는 경우가 생긴다. 여기서는 Tensorflow-Help Protect the Great Barrier Reef대회로 예시를 들어보겠다.이런 경로 주소를 위 train.csv파일의 맨 오른쪽에 새로운 셀로 추가해보자.
(1~4번까지는 순서 상관 x)1\. 깃 다운로드하기2\. 자기 깃허브로 들어가서 레포 만들기3\. vs code키기4\. 원하는 곳에 파일을 만들기5\. code를 누르면 나오는 주소를 복사6\. vs code에서 단축키 ctrl+'로 터미널 열기 1\. 터미널에서c
환경 설정하는 데 시간이 오래 걸리는 것 같아서 나는 코랩을 이용해서 코드를 적고 h5파일을 다운받아서 해당 디렉토리에 넣는 방법으로 제출했다.1\. 시험신청우선 tensorflow 사이트에서 시험 신청을 하면 된다.맨 처음으로 여권 사진을 업로드/즉시 촬영 해서 업데
캐글에서 데이터셋을 옮겨올 때 zip파일 형식으로 된 데이터들을 사용하는 방법이다. n_train = len(os.listdir('./train'))n_test = len(os.listdir('./test'))print(f'Train images: {n_train}')
사진을 열어봤는데 이미지 크기가 너무 큰 경우 cv2.resize()를 이용하여 원하는 크기로 줄일 수 있다.맨 아래 코드로 줄인 이미지를 저장한다.그럼 출력파일에 저장되기 때문에 후에로 쉽게 접근할 수 있다.위 코드를 응용하여 전체 파일에 대해 사이즈를 조절해보자.
중국산 클라우드 서비스가 많은 점유율을 차지하고 있다.중국 시장만을 타겟하고 있음에도 14%나 차지한다.아마존 매출액보다 ms매출액이 더 높은걸로 봐선,클라우드는 가상머신 외에도 다양하다다양한 분야에 관심을 가질 것각자의 장단점이 존재하므로 어느게 좋다고 장담할 수 없
많은 데이터가 선형일 때 이 모델을 고려해볼 수 있다.예를 들어, 이런 데이터인 경우.유의할 부분은 규제 부분이다. 하이퍼 파라미터를 잘 설정해줘야 한다.자동으로 설정하는 방법이 있다는데, 아직 배우지 않았다!일단 수동으로 수정했었는데, 알파값이 클 수록 결과가 좋았다
위 데이터처럼 각 칼럼의 최대-최소 범위 차이가 많이 난다면 StandardScaer함수를 사용해볼 수 있다.이것도 범위를 맞추는 여러 방법이 존재한다.여기서는 한가지 방법만 소개한다.
결측치를 채우는 방법에는 여러가지가 존재한다. 특정 대회의 결측치는 "데이터가 없어서" 결측치로 남겨놓는 것도 있다. 그래서 이런 데이터들은 "없다" 라는 느낌으로 채워줘야 하기 때문에 0으로 채우게 되면 모델이 오해할 소지가 생긴다.(기존 0과 겹칠 수도 있음)따라서
선형모델을 사용하는 경우 레이블 인코딩을 사용하게 되면 선형 모델이 각 클래스를 선형 관계로 이해해버리는 문제가 발생하게 된다.따라서 원-핫 인코딩을 해줘야 한다.예전 글에서도 한번 설명한 적이 있다.모든 클래스에 대해 칼럼을 생성하여 해당하는 칼럼에 1을 넣어주는 형
숫자형 + 문자형 칼럼의 중요도를 확인하기 위해서는 feature_importances\_를 사용할 수 있다.이렇게 넣어주면 각 칼럼의 중요도를 순서대로 확인할 수 있다.중요도가 0인 칼럼을 위에서 빼줘도, 해석을 위한 것이기 때문에 모델 점수 개선에 직접적으로 영향을
ascending = False를 인자로 넣어주게 되면 큰 순서로 정렬된다.이런 출력값을 확인할 수 있다.여기서는 물론 선형 데이터들만 확인할 수 있고, 음수로 표현된 부분은 반대방향으로 선형 관계가 있다는 것이다. 즉, 절대값이 중요하다.위 데이터의 설명을 조금 덧붙
로그를 사용하기 전에 꼭 확인해 볼 한가지가 있다.이 그래프를 그려서 한쪽으로 쏠려있으면 로그를 사용할 것!이 그래프에 로그를 씌운 결과는 아래와 같이 확인할 수 있다.만약에 이렇게 로그를 사용할 수 있는 상황이라면위처럼 모델을 학습할때 집어넣으면 된다.np.log(t
all_data\['Hour']는 x축all_data\['count']는 y축 bike sharing demand 대회의 예를 들자면 이런 그래프가 나오게 된다. 시간에 따른 자전거 대여 수이다. 해당 데이터에서는 튀는 값이 많아서 이후에 평일 데이터와 주말 데이
이전에 랜포를 소개하는 글에서 모델 학습 방법을 소개하면서 예측하는 방법도 같이 언급했었다.여기서는 조금 다른 예측 방법을 소개한다.캣부스트로 학습을 시켜준 코드를 먼저 확인해보자.여기서는 OutcomeType 셀에 대해서 학습을 시켜준 것 같다.이 셀의 내용을 확인해
이전 글 랜포 모델링에 이어서 캣부스트로 모델링하는 방법을 소개한다.가장 간단한 CatBoostClassifier로 모델링을 할 수 있다. 코드 형식은 랜포와 똑같다!아래는 캣부스터 모델의 특징이다. 이런 트리 모델은 정형데이터에서 점수가 잘 나온다.트리=모델이라고 생