profile
행정학도 경찰의 DataScientist 되기
post-thumbnail

Causal Inference (4) - Structure Identification

이번 게시글에서는 저번에 이어 다른 Cause-Effect 모델들과 이들의 식별가능성에 대해 계속 살펴보도록 하자.Post-nonlinear model은 이전에 살펴본 Nonlinear ANM의 일반화된 모델이다. 결합분포 $P\_{X,Y}$가 X에서 Y로의 post-

2022년 6월 19일
·
0개의 댓글

AutoML에 대해

AutoML의 존재에 대해서는 머신러닝을 본격적으로 공부하기 시작한 시점부터 알고 있었다. 그러나, 개인적인 생각으로 머신러닝의 과정을 자동화하는 것에 의존하기보다 모델을 직접 공부해보고, 최적화 과정이 각각 어떻게 이루어지는지 살펴보는 것이 더 중요하다고 생각되었기에

2022년 6월 15일
·
0개의 댓글
post-thumbnail

따릉이 데이터 분석하기 (7) AutoML

이번 게시글을 끝으로 데이콘의 따릉이 데이터 분석 관련 포스팅을 마치고자 한다. 마지막 내용은 AutoML을 다룰 것인데, AutoML이란 이전에 살펴본 여러 종류의 모델들을 선택하고, hyperparameter들을 최적화하는 일련의 모든 과정들을 자동화하는 방법을 총

2022년 6월 15일
·
0개의 댓글

Bayesian (2) - Non-informative prior

이전 게시글에서는 single parameter model에서 이루어지는 bayesian inference의 대략적인 과정과, 그 과정에서 관찰되는 conjugate prior-posterior distribution에 대해 살펴보았다. 이번에는 prior distri

2022년 6월 12일
·
0개의 댓글
post-thumbnail

Causal Inference (3) - Learning Cause-Effect Models (1)

통계적 학습이론(Statistical Learning)의 관점에서 살펴보면, 가장 간단한 케이스인 cause-effect model을 학습하는 것 조차 어려움이 존재한다. Statistical Learning은 소위 주어진 관측값 $(X,Y)\_{i=1\\ldots,N

2022년 6월 10일
·
0개의 댓글
post-thumbnail

따릉이 데이터 분석하기 (6) SVM

이번 글에서는 대표적인 머신러닝 모델인 SVM(Support Vector Machine)을 이용해 따릉이 이용 데이터의 분석을 진행해보도록 하자. 본래 SVM은 classification의 목적을 위해 고안된 기법으로, 데이터들의 레이블을 분류하는 기준이 되는 초평면을

2022년 6월 10일
·
0개의 댓글

Bayesian (1) - Single Parameter Models

Frequentist, 즉 빈도주의적 관점에서는 확률은 반복되는 시행과정에서 해당 사건의 발생 빈도를 의미한다. 즉, 어떤 분류 모델의 성능이 95%라면, 이는 임의의 예제 100개 중 95개의 비율로 정확성을 갖는다는 것을 의미한다. 반면, 베이지안 관점에서는 해당

2022년 6월 4일
·
0개의 댓글

Causal Inference (2) - SCM

줄여서 SCM이라고 하는 Structural Causal Model은 인과관계모델을 구조화한 표현이다. 여기서는 우선 원인(C)과 결과(E) 두 변수로 구성된 Cause-Effect 모델만을 다루고, 이에 대한 SCM을 다음과 같이 정의한다.Def. $C\\to E$에

2022년 6월 2일
·
0개의 댓글
post-thumbnail

Causal Inference (1) - Causal Model

Causal Inference, 즉 인과관계추론은 통계학의 한 분야로 사회과학 등 다양한 분야에 응용될 수 있는 영역이다. 2021년 노벨경제학상이 인과관계추론 분야에서 수상되며 전통적인 방법론이었으면서도, 최근 통계학의 중요한 분야로 떠오르는 추세이다. 기존의 선형모

2022년 6월 1일
·
0개의 댓글

An overview of Statistical Learning

이번 게시글은 Statistical Learning, 즉 통계적 학습이론의 근간이 되는 추정 이론 중 Empirical risk 사용의 근거와 관련 이론에 대해 살펴보도록 하자. 내용은 대표적인 머신러닝 알고리즘인 Support Vector Machine의 공동 창시자

2022년 5월 29일
·
0개의 댓글
post-thumbnail

Support Vector Regression

이전 게시글에서 SVM의 작동 원리와 SVR, 즉 support vector regression이 SVM의 원리를 차용하여 생성되는 모델이라는 점에 대해 살펴보았다. 이번에는 paper "A Tutorial on Support Vector Regression(2003)

2022년 5월 24일
·
0개의 댓글

모델 성능 개선만이 전부일까

요새는 데이터사이언스에 대한 기틀을 잡고자 꾸준히 머신러닝 관련 공부를 하며, 이론 공부와 더불어 (가공되었지만 그래도 실생활에서 비롯된)몇몇 데이터셋을 대상으로 실제 데이터분석을 간간히 진행하고 있다. 하지만 분석도 해보고, 이와 관련되어 포스팅도 진행하며(ex. 따

2022년 5월 20일
·
0개의 댓글

백준 13460

문제 : https://acmicpc.net/problem/13460아이디어 : 최소 이동 횟수를 찾는 문제이므로, BFS 알고리즘 사용장난감을 상하좌우로 움직이는 네 가지 경우에 대해 적용되는 이동 함수 move 구현이때 이동 방향에 따라 먼저 움직이는 구슬

2022년 5월 15일
·
0개의 댓글
post-thumbnail

Support Vector Machine

이전에 Linear Classification에서 Fischer's LDA에 대해 다룬 적 있었다. 이는 특성공간에서 데이터들을 분류하기 위한 선형 경계를 만드는 것인데, support vector classifier/machine은 이와 유사하나 비선형인 결정경계를

2022년 5월 10일
·
0개의 댓글

Do it! 스위프트로 아이폰 앱 만들기

앱을 직접 만들어나가는 개발자가 되려는 목적은 없지만, 추후 IT 분야에서 창업에 도전하기 위해서는 프론트엔드와 백엔드, 그리고 앱 개발이 어떤 방식으로 이루어지는지 그 메커니즘 정도는 알아두어야 할 것 같다는 생각이다. 그래서 우선 현재 잘 사용하고 있는 파이썬과 유

2022년 5월 2일
·
0개의 댓글

[Programmers] 자물쇠와 열쇠

문제 : 2020 KAKAO BLIND RECRUITMENT고고학자인 "튜브"는 고대 유적지에서 보물과 유적이 가득할 것으로 추정되는 비밀의 문을 발견하였습니다. 그런데 문을 열려고 살펴보니 특이한 형태의 자물쇠로 잠겨 있었고 문 앞에는 특이한 형태의 열쇠와 함께 자물

2022년 4월 29일
·
0개의 댓글

[Programmers] 문자열 압축 문제

문제 : https://programmers.co.kr/learn/courses/30/lessons/60057문제 설명데이터 처리 전문가가 되고 싶은 "어피치"는 문자열을 압축하는 방법에 대해 공부를 하고 있습니다. 최근에 대량의 데이터 처리를 위한 간단한 비

2022년 4월 29일
·
0개의 댓글

백준 1003

문제 : https://www.acmicpc.net/problem/1003아이디어 : 피보나치 수열을 구할 때는 재귀가 가장 느린 방식 > 데이터를 저장해놓고 불러오는 형식으로 써야 가장 빠름!

2022년 4월 23일
·
0개의 댓글

백준 9012

문제 : https://www.acmicpc.net/problem/9012아이디어 : 스택 구조 흉내내기(여는 괄호일 때 stack, 닫는 괄호일 때 pop >> 개수가 남거나 부족하면 NO)

2022년 4월 22일
·
0개의 댓글
post-thumbnail

따릉이 데이터 분석하기 (5) Tree

이번에는 Tree 관련 모델들로 주어진 데이터셋을 훈련시켜보고 이를 검증해보도록 하자. 저번 Transformation 데이터 분석 과정과 마찬가지로 scikit-learn의 Pipeline을 이용해 데이터 전처리부터 모델링까지의 파이프라인을 구성해보도록 하겠다. Da

2022년 4월 22일
·
0개의 댓글