profile
Unknowns vastly exceeds knowns
post-thumbnail

AI를 바라보는 관점: 알고리즘에서 데이터로!

다소 도발적인 제목이긴 하지만, 나름 4년여의 머신러닝 엔지니어 경험을 쌓으면서 점점 깊어지는 확신입니다. 캐글이나 데이콘과 같이 머신 러닝 경진대회에서는 데이터들이 이미 확보되어 있고, 대부분의 경우에는 어느 정도 정제된 데이터들이기 때문에, 알고리즘의 성능으로 우

2022년 10월 30일
·
1개의 댓글
·

Jupyter Notebook에서 Plot시 한글

우선 사용 환경이 호스트 리눅스이건 맥이건 컨테이너건 상관없이 국문 폰트가 설치되어 있어야 합니다.저의 경우 Nanum 폰트 전체를 다운받아서 NanumBarunGothic 폰트만을 사용하였습니다.폰트를 설치할 위치는 사용자권한 문제가 없도록만 하여 적당한 위치에 복사

2022년 6월 14일
·
0개의 댓글
·

파일/디렉토리 regex 조건으로 골라 지우기

리눅스나 클라우드 원격 서버에 붙어서 작업을 하다보면, 조건에 맞추어 파일이나 디렉토리를 지우고 싶은 경우가 있습니다.파일이나 디렉토리 갯수가 너무 많거나 이름이 너무 길면 일일이 하나하나 지우기 귀찮습니다.이를 위해 regex (또는 다른 조건으로)로 걸러내어 조건에

2022년 1월 6일
·
0개의 댓글
·
post-thumbnail

Jupyter에 가상환경 kernel 추가 하기

Jupyter에 conda나 venv로 만든 가상환경 kernel을 추가해서 사용해야할 경우가 있습니다.우선은 가상환경이 있다고 가정하고, 해당 가상환경을 activate했다고 가정하겠습니다.아마 아래와 같이 activation 할것입니다.Jupyter Notebook

2021년 9월 30일
·
0개의 댓글
·

Python으로 공휴일 리스트를 만들자

Python에 공휴일을 알 수 있는 라이브러리가 있어서 간단하게 소개하려고 합니다.이름하여 holiday 패키지입니다. github: https://github.com/dr-prodigy/python-holidays현재 75개국이 넘는 국가들의 휴일을 제공하

2021년 7월 30일
·
1개의 댓글
·

코사인 유사도 정리

코사인 유사도는 주어진 두 벡터 사이의 유사도를 의미합니다. 간혹 두 벡터 사이의 거리라고 소개하기도 하지만 엄밀히 말하면 거리는 아니고(삼각부등식 성립이 안됩니다), 방향성이 얼마나 일치하는지를 측정하고 이를 바탕으로 유사도로 해석하는 것

2021년 1월 29일
·
0개의 댓글
·

예측모델 평가 지표 간단 정리

머신러닝 모델은 크게 분류와 예측의 두 가지 일을 수행하는 것으로 구분할 수 있는데, 분류에 대한 평가지표의 기초는 앞에서 먼저 다루었습니다. 이번에는 기본적인 예측모델의 평가지표(사실 ML을 조금이라도 아는분은 다 아실만한 내용입니다.)를 간단하게 정리

2021년 1월 28일
·
0개의 댓글
·

과적합에 대한 대응방법 몇 가지

오늘은 간단하게 이미지 문제에서 과적합 발생시 해결할 수 있는 방법에 대해서 간단하게 요약해보고자 합니다.모델 개발을 하다보면 수 없이 과적합을 만나게 됩니다. 학습을 완료한 후에 테스트셋으로 돌려보니 현격하게 성능 차이가 발생한다면 이는 과적합이 발생했다는 것으로

2021년 1월 27일
·
0개의 댓글
·

Feature Engineering 요약

Feature Engineering은 ML/DL 알고리즘이 더 좋은 성능을 보여주도록 데이터를 말그대로 가공하는 것이며, 데이터 타입이나 상황에 따라 적용할 수 있는 방법이 다르다. 여기서는 주로 수치형, 범주형, 결합형, 텍스트 등을 주로 설명하고자 한다.

2021년 1월 26일
·
0개의 댓글
·

국문 OCR 오픈소스 소개

OCR은 Digitization의 관문 OCR의 역사는 오래되었으나, 근래들어 기업들의 활용도가 높아 지고 있으며 시장 역시 2025년 133억 달러에 이를 것을 예상할 정도로 커지고 있습니다. OCR이 중요한 이유는 레거시 산업(전통적인 농업, 제조, 서비스 등)

2020년 7월 23일
·
1개의 댓글
·

분류기 평가 지표 간단 정리

언제나 헷갈리는 정밀도, 정확도, 재현율 머신러닝에 입문한지 얼마 안되는 초짜라 분류기의 평가 지표는 언제나 헷갈립니다. 익숙해졌다고 또는 다 외웠다고 자만(근자감)했을때 누군가 물어보면 어버버하면서 제대로된 설명이나 답을 못하는 경우가 많았습니다. 이 글을 쓰는

2020년 6월 12일
·
2개의 댓글
·

Digitization vs Digitalization vs Digital Transformation

4차 산업 혁명이다 뭐다 최근 몇 년간 불어닥친 소위 Digital Transformation과 관련하여 회사내외에서 대화를 하다보면 Digitization, Digitalization, Digital Transformation이 혼용하는 경우가 많습니다.이 참에 간략

2020년 5월 29일
·
0개의 댓글
·

엔트로피와 크로스 엔트로피

크로스 엔트로피는 딥러닝 분류문제에서 손실함수(loss function or cost function)으로 사용됩니다. 그러면 정보이론의 엔트로피와는 어떤 점이 다르고, 어떤 특징을 가지고 있기에 손실함수로 사용되는 것일까요

2020년 5월 29일
·
0개의 댓글
·

[NLP] Seq2Seq 요약

Seq2Seq에 대한 간략한 요약.

2020년 5월 16일
·
0개의 댓글
·

도커를 이용한 딥러닝 환경 구축하기

개인 데스크탑에서 cuda나 cudnn 등 nvidia 가속을 이용하는 환경을 구축하는 게 간단하지는 않습니다. 저의 경우 파이선 가성화를 위해서 anaconda를 주로 사용하는데, conda 업그레이드시 함께 포함된 패키지가 업데이트되면서 호환성이 깨지는 경우가 종

2020년 4월 4일
·
4개의 댓글
·