굉장히 다양한 분야에서 AI에 관심을 가지고 오신 분들이 많아 신기했다. 아직 무엇을 목표로 만들어보고 싶은지 막연하고, 부족한 점이 많아 걱정도 많이 되지만 기대도 되는 AIFFEL. 앞으로 공부했던 기록을 남겨서 12월에 마지막에 내 여정을 쭉 둘러보면 좋겠다. 출
자주쓰는 코드 정리 git confit --global user.email "(이메일 주소)" git config --global user.name "(git id)" git 초기화 하기전에 github에 올리고자 하는 파일의 상위폴더로 이동하기 git init gi
오늘의 주제는 Python! 풀잎스쿨에서도 하고 있는 내용이라 빠르게 지나갈 수 있었다.😋그 중에서 내가 아직도 정리가 안되거나 새로 알게된 것들만 정리하려 한다.스코프(scope) : 변수가 유효한 범위(전역스코프 변수, 지역스코프 변수)반복 가능한 (iterabl
.startswith() : 문자열 앞에서 검색.endswith(): 문자열 뒤에서부터 검색ex) space, \\t, \\n(줄바꿈 = 라인피드 line feed) \\r : 개행 복귀 (carriage return), 커서를 맨 앞(원위치)으로 이동(retrun)시
높은 생산성생산성 : 똑같은 기능을 하는 프로그램을 얼마나 빨리 작성할 수 있는가퍼포먼스(성능) : 어떤 언어든 코드를 짜서 실행을 시켰을 때 얼마나 빨리 처리가 되는가코드의 간결함빠른 개발 속도Python(3시간) >> C > Java > C++(11시간)스크립트 언
평균은 n으로 나누고 분산, 표준편차는 n-1로 나누는 이유는?동적배열(Dynamic Array)임의의 데이터 타입을 담을 수 있는 가변적 연속열(Sequence)형list와 array의 장점을 모두 취한 형태자료구조상 linked list의 기능을 가지나, 실제로는
Matplotlib, Pandas, Seaborn
1. 결측치(Missing Data) .isnell() : 결측치 여부 True/False 반환 .any(axis=1) : 행마다 하나라도 있으면 True/없으면 False 반환 Series 값으로 출력 .dropna() : 결측치 삭제 메서드 how 옵션 all - selected column가 all 결측치인 행 삭제 ...
numpy.pandas/pandas 문법과 메서드/matplotlib/train&test 모델 학습을 종합적으로 활용해 보는 시간!! 떨린다😂 겸사겸사 다시 정리해보자! 화이팅!!😆※ EDA(Exploratory Data Analysis, 탐색적 데이터 분석)데이터
머신러닝 대표적인 알고리즘
파이썬의 모든 것(부울, 정수, list, set, 함수, 프로그램, 모듈 등)이 객체객체 : object가 변수 할당 가능하고, 함수의 인자로 받을 수 있는 것속성(attribute) : 상태(state) ⇨ 변수 구현메소드(method) : 동작(behavior)
사용 패키지 : Pillow, OpenCV, Matplotlib이미지는 배열 형태 데이터, \[너비, 높이, 채널(RGB순서)]형태uint8 : 각 값이 부호가 없는(unsigned) 8비트 정수(integer)가 되어 0~255(2의 8승 = 256) 사이의 값을 나
Classifier
목표 : Numpy만을 이용한 신경망 훈련과정 구현인공신경망(Artificial Neural Network)우리 뇌 속의 신경망 구조에 착안해서 퍼셉트론(Perceptron)이라는 형태를 제안하며 이를 연결한 형태= DNN(Deep Neural Network)<
왜 선형성이 보이기만 한다고 모두 선형 회귀가 아닐까?선형 회귀분석 조건 : 1)선형성 2)독립성 3)등분산성 4)정규성 5)표현식통계 : $$y = \\beta x + \\epsilon$$ ⇨ 머신러닝 : $$H = Wx + b$$최소제곱법n 개의 점 데이터에 대하여
training data로 정답(label)이 없는 데이터가 주어지는 학습방법데이터셋의 특징(feature) 및 패턴을 기반으로 모델 스스로가 판단군집화명확한 분류 기준이 없는 상황에서도 데이터들을 분석하여 가까운(또는 유사한) 것들끼리 묶어 주는 작업k 값이 주어져
데이터가 실제 값으로 표현된 간결한 특성 벡터 표현. 이런 벡터를 임베딩이라 함고차원 벡터를 저차원 공간으로 변환하는 것Q : 컴퓨터에게 우리는 어떻게 다양한 형태의 정보를 표현해 줄 수 있을까요?A : 벡터 공간(Vector Space) 에다가 우리가 표현하고자 하는
Tensorflow : 딥러닝 프레임 워크(ex. Tensorflow V2 API, Keras)pyTorch특징 : 철저한 파이써닉, 직관적인 API 설계, 쉬운 사용법V1 대비 차별화된 장점 Ease of use(사용하기 쉬움)Eager Execution(즉시 실행)
이론자체가 너무 어려웠던 부분😱😰🤪😳🥴😭ImageNet Pretrained Model의 AccuracyTop-1 Accuracy : 예측값이 일반적으로 생각하는 정답을 맞춘 정확도Top-5 Accuracy : 예측한 확률이 높은 순서로 5개 내에서 정답이 있
Convolution layer
🦝 8/4(수)~6(금) 3일간 제 1회 해커톤: 캐글 축제가 진행되었다. 9개 조 중에서 5조에 배정되어 장재성님, 최성휘님 이렇게 한 팀이 되어 Kaggle의 Recruit Restaurant Visitor Forecasting에 참가하여 점수 도출 및 시각화
RMSE(Root Mean Squared Error) : 실제 정답과 예측한 값의 차이의 제곱을 평균한 값의 제곱근RSS(Root Square Sum; 잔차제곱합) : 문제 해결을 시작할 때 쉽게 사용해볼 수 있는 샘플Kernel(커널) : 주피터 노트북 형태의 파일이
Sequential data
아웃포커싱 : 배경을 흐리게 하는 기술피사계 심도(shallow depth of field) 또는 셸로우 포커스(shallow focus)라고 불림이미지 세그멘테이션(image segmentation) 기술이미지에서 픽셀 단위로 관심 객체를 추출하는 방법시멘틱 세그멘테
오버피팅(과적합): train set은 매우 잘 맞추지만, validation/test set은 맞추지 못하는 현상norm : 벡터나 행렬, 함수 등의 거리를 나타내는 것(여기서는 벡터로만 생각!)1차원 선형회귀분석에서는 의미가 없음X가 2차원 이상인 여러 컬럼 값이
협업 필터링(Collaborative Filtering) 방식 ⇨ 평가행렬을 전제로 함사용자의 행동 기록을 이용아이템과 사용자 간의 행동 또는 관계에만 주목다수의 사용자의 아이템 구매 이력 정보만으로 사용자간 유사성 및 아이템 간 유사성을 파악협업 필터링의 제약조건시스
activation function = Transfer function노
SGD(Stochastic Gradient Descent; 확률적 경사하강법)문제점1\.2\. local minima & saddle point두 가지 모두 valley에서 SGD가 멈춤 (∵opposite gradient = 0 : locally falt)Train
Likelihood, MLE, MAP
특징의료 영상 이미지는 개인 정보 보호 등의 이슈로 인해 데이터를 구하는 것이 쉽지 않음라벨링 작업 자체가 전문적 지식을 요하므로 데이터셋 구축 비용이 비쌈희귀질병을 다루는 경우 데이터를 입수하는 것 자체가 드문 일음성/양성 데이터 간 imbalance가 심함이미지만으
Backpropagation, NN
긴 길이의 문서(Document) 원문을 핵심 주제만으로 구성된 짧은 요약(Summary) 문장들로 변환하는 것요약 전후에 정보 손실 발생이 최소화되어야 함(중요) ⇨ '정보 압축 과정'과 동일원문의 문장을 추출하여 요약하는 방식ex) 네이버 뉴스의 요약봇(TextRa
멀티태스킹, 멀티프로세스, 멀티스레드
Pandas의 컬럼 합치기 메소드 merge(), join(), concat()merge(), join()inner join : 공통의 데이터에 대해서만 데이터를 합치는 것outer join : 전체 데이터에 합치는 연산concat()ignore_index : conc
표준 라이브러리 : 기본적로 설치되는 모듈Cursor : SQL 질의(Query)를 수행하고 결과를 얻는데 사용하는 객체commit() : 데이터베이스에 데이터 변경이 실제적으로 반영 ⇨ 데이터베이스 "트랜잭션(transaction) 관리"삽입, 갱신, 삭제 등의 SQ
Session 이란 https://88240.tistory.com/190 https://cheershennah.tistory.com/135 https://crossjin.tistory.com/entry/%EC%84%B8%EC%85%98Session%EC%9D%B4%EB%9E%80-%EB%AC%B4%EC%97%87%EC%9D%BC%EA%B9%8C https:...
1. 인터넷과 프로토콜 인코딩과 디코딩 : 텍스트 데이터의 변환과 교환 Python3는 UTF-8로 인코딩 프로토콜(protocol) : 데이터 교환 과정에서의 규약 ex) 웹은 HTTP 프로토콜에 따라 데이터를 주고받음 용어 정리 |용어|정의| |:-
가상 환경ngrok를 이용하여 공용 url을 할당받고 이를 통해 앱에 접속텍스트 에디터를 해당 경로에 hello_flask.py 파일을 생성해라<vi editor 내용>vi editori : insert 모드 변환esc + :wq : 파일 저장 후 종료(참고자료
빅데이터 : 제타바이트(Zettabyte, 10^{21}) 단위까지 증가한 데이터하나의 컴퓨터에서 하던 작업을 여러 개의 컴퓨터에서 처리하도록 분산시키는 프로그래밍 모델클러스터 위에 동작하는 알고리즘로직(논리의 흐름) : Map, Reduce , Shuffle, 함수형
GAN모델
시계열 예측(Time-Series Prediction)ARIMA(Auto-regressive Integrated Moving Average)시간 순서대로 발생한 데이터의 수열, $Y = {Y_t : t \\in T}$ Where T is the index set시간이
챗봇의 유형번역기를 만드는 데 사용한 대표적인 모델인코드 : 입력문장이 들어감디코더 : 이에 상응하는 문장 출력병렬 구조로 구성한 데이터 셋을 훈련번역기와 마찬가지로 인코더와 디코더 구성
픽셀 : 디스플레이를 구성하고 있는 가장 작은 단위(ex. RGB방식해상도 : 가로와 세로의 픽셀수. 픽셀수가 많아질수록 더 선명하게 보임HD < FHD < QHD < UHD 순으로 해상도가 높다Super Resolution 개념과 구조(SRCNN, S
특허 출원(심사신청서 같은 존재) ⇨ 특허 등록 각각 별도의 번호가 부여되나 특허 등록번호가 있어서 실효성이 있다. 특허, 디자인권 - 20년 존속기간 이후 공개 원칙(산업 발전을 위해)상표권 - 출처보호를 위해 10년 이후 무한 갱신가능
SQuAD : 미국 스탠퍼드 대학에서 구축한 대용량 데이터셋언어 모델의 성능을 측정하는 가장 표준적인 벤치마크KorQuAD(The Korean Question Answering Dataset, 한국어 질의응답 데이터셋)한국어 MRC를 위해 LG CNS에서 구축한 대규모
문자 인식 과정1\. 사진 속 문자의 위치 탐색 ⇨ Text Detection(문자검출)2\. 찾은 문자영역에서 문자를 읽어냄 ⇨ Text Recognition(문자인식)LeNet : 간단한 구조로도 어려운 글자를 읽을 수 있는 딥러닝 분류 모델LeNe-5 구조머신러닝
일반적인 GAN과 같은 unconditioned generative model은 내가 생성하고자 하는 데이터에 대해 제어하기 힘들다는 단점을 보완한 모델로 일반적인 GAN과 같은 unconditioned generative model은 내가 생성하고자 하는 데이터에 대
공간 데이터
KoNLP
Clustering
Semi-supervised learning
갖고 있는 데이터셋을 여러 가지 방법으로 증강시켜(augment) 실질적인 학습 데이터셋의 규모를 키울 수 있는 방법하드디스크에 저장된 이미지 데이터를 메모리에 로드한 후, 학습시킬 때 변형을 가하는 방법장점 데이터가 많아지면서 과적합(overfitting) 방지우리가
이상 탐지
딥러닝 기술 : 데이터 준비 → 딥러닝 네트워크 설계 → 학습 → 테스트(평가)손글씨 dataset : MNIST데이터 준비데이터 셋 불러오기딥러닝 네트워크 설계Sequential ModelConv2D(n,(i,j), activation = 'relu', input_s
랜드마크 landmark 또는 조정 alignment $in$ keypoint detection눈, 코, 입, 귀와 같은 얼굴 각각의 위치들을 찾아내는 기술대부분의 face landmark 데이터셋은 눈, 코, 입과 턱을 포함하고 있음OpenCV 컴퓨터 비전 라이브러리
자연어 처리시퀀스 실습 (1) 데이터 전처리(2) 인공지능 학습시키기순환신겨망 RNN학습시간이 epochs=10인데도 너무 느려.......
terminal 터미널(terminal) vs 쉘(shell) whoami : 현재 컴퓨터의 유저 이름 출력 pwd : 현재 위치/경로 출력 ls : 현재 Directory 내에 있는 모든 파일 목록 출력 -al : 각 파일 또는 폴더에 대한 자세한 목록 보기 cd : 원하는 Directory로 이동 .. : 상위폴더로 이동 ~ : hom...
분류
loss 최소화 = 좋은 prediction
NN의 설정, 학습, 평가
1. Parameter update schemes x += learning_rate * dx SGD가 속도가 느린이유? 이에 대한 개선 방법? momentum update : conversion을 촉진한다. v = mu * v - learning_rate *dx mu는 마찰 가속도로 Nesterov momentum update(nag) momentum ...
volumns 이란 Convoloution Layer 필터를 이미지 위에 컨볼류션(dot product 연산)을 시킨다. 1 filter -> 1 activation map
1. 문자열 1) 인코딩과 디코딩 파이썬에서 모든 문자열은 유니코드로 표현 인코딩 (encoding) : 문자열 → 바이트로 변환하는 과정 ord() : 문자 → 유니코드 숫자로 반환 디코딩 (decoding) : 바이트 → 문자열로 변환하는 과정 chr() : 유니코드 숫자 → 문자로 반환 2) 문자열 다루기 이스케이프 문자 |이스케이프 ...
사용자(user)에게 관련된 아이템(item)을 추천해 주는 것추천 로직범주형(categorical) 데이터를 다룸(숫자 벡터/numerical vector로 변환한 뒤) 유사도를 계산함종류콘텐츠 기반 필터링(Content Based Filtering)협업 필터링(Co
모델 성능 평가
토큰화와 분산 표현