코사인 유사도는 주어진 두 벡터 사이의 유사도를 의미합니다. 간혹 두 벡터 사이의 거리라고 소개하기도 하지만 엄밀히 말하면 거리는 아니고(삼각부등식 성립이 안됩니다), 방향성이 얼마나 일치하는지를 측정하고 이를 바탕으로 유사도로 해석하는 것
머신러닝 모델은 크게 분류와 예측의 두 가지 일을 수행하는 것으로 구분할 수 있는데, 분류에 대한 평가지표의 기초는 앞에서 먼저 다루었습니다. 이번에는 기본적인 예측모델의 평가지표(사실 ML을 조금이라도 아는분은 다 아실만한 내용입니다.)를 간단하게 정리
오늘은 간단하게 이미지 문제에서 과적합 발생시 해결할 수 있는 방법에 대해서 간단하게 요약해보고자 합니다.모델 개발을 하다보면 수 없이 과적합을 만나게 됩니다. 학습을 완료한 후에 테스트셋으로 돌려보니 현격하게 성능 차이가 발생한다면 이는 과적합이 발생했다는 것으로
Feature Engineering은 ML/DL 알고리즘이 더 좋은 성능을 보여주도록 데이터를 말그대로 가공하는 것이며, 데이터 타입이나 상황에 따라 적용할 수 있는 방법이 다르다. 여기서는 주로 수치형, 범주형, 결합형, 텍스트 등을 주로 설명하고자 한다.
OCR은 Digitization의 관문 OCR의 역사는 오래되었으나, 근래들어 기업들의 활용도가 높아 지고 있으며 시장 역시 2025년 133억 달러에 이를 것을 예상할 정도로 커지고 있습니다. OCR이 중요한 이유는 레거시 산업(전통적인 농업, 제조, 서비스 등)
언제나 헷갈리는 정밀도, 정확도, 재현율 머신러닝에 입문한지 얼마 안되는 초짜라 분류기의 평가 지표는 언제나 헷갈립니다. 익숙해졌다고 또는 다 외웠다고 자만(근자감)했을때 누군가 물어보면 어버버하면서 제대로된 설명이나 답을 못하는 경우가 많았습니다. 이 글을 쓰는
4차 산업 혁명이다 뭐다 최근 몇 년간 불어닥친 소위 Digital Transformation과 관련하여 회사내외에서 대화를 하다보면 Digitization, Digitalization, Digital Transformation이 혼용하는 경우가 많습니다.이 참에 간략
크로스 엔트로피는 딥러닝 분류문제에서 손실함수(loss function or cost function)으로 사용됩니다. 그러면 정보이론의 엔트로피와는 어떤 점이 다르고, 어떤 특징을 가지고 있기에 손실함수로 사용되는 것일까요
개인 데스크탑에서 cuda나 cudnn 등 nvidia 가속을 이용하는 환경을 구축하는 게 간단하지는 않습니다. 저의 경우 파이선 가성화를 위해서 anaconda를 주로 사용하는데, conda 업그레이드시 함께 포함된 패키지가 업데이트되면서 호환성이 깨지는 경우가 종