profile
Data science
post-thumbnail

개인 공부-9

RNN은 Sequence 모델. 즉, 입력과 출력을 시퀀스 단위로 처리. 번역기를 생각해보면, 입력은 단어나 문장이 주어지고, 이를 원하는 국가의 언어로 번역해 준다. 시퀀스 처리를 위해 고안된 모델이 시퀀스 모델.용어는 비슷하지만, 순환 신경망과 재귀 신경망(Recu

2021년 10월 3일
·
0개의 댓글
post-thumbnail

개인 공부 - 8

인공 신경망은 머신 러닝 방법 중 하나. 인공 신경망을 복잡하게 쌓아올린 딥 러닝이 각광받고 있음.구조는 똑같음. activation function이 계단이냐, 시그모이드냐 그 차이.: 값을 보내는 단계와 출력하는 두 단계로만 이뤄짐. 즉 입력과 출력층만 존재단층을

2021년 10월 2일
·
0개의 댓글
post-thumbnail

개인 공부 - 7

머신러닝 1) 머신 러닝 이란? 1. 머신러닝이 아닌 접근의 한계 기존의 프로그래밍 방법은 이렇다 기존의 코딩 방식은 짜여진 로직에 걸린다면 제대로 분류를 하는 것이고, 아니면 잘못된 분류를 한다. 기존 고양이의 사진에 대해서 로직이 짜여졌다면 어래와 같은 사진을 제

2021년 10월 2일
·
0개의 댓글
post-thumbnail

개인 공부-6

LSA는 토픽 모델링을 위한 아이디어를 제공했음. LDA가 LSA를 개선해 토픽 모델링에 좀 더 최적화DTM과 TF-IDF는 빈도 기반 수치화 방법이기 때문에 단어 의미를 고려하지 못하는 한계가 있었음. Latent(잠재된) 의미를 이끌어내는 방법이 LSA. 이를 이해

2021년 10월 1일
·
0개의 댓글
post-thumbnail

개인 공부-5

1) 코사인 유사도 1. 코사인 유사도(Cosine Similarity) 두 벡터 간의 코사인 각도를 이용해 구할 수 있는 두 벡터의 유사도를 의미. 두 벡터의 방향이 완전히 동일하면 1(cos(0) = 1), 180도 반대라면 -1(cos(pi) = -1), 직교하면

2021년 10월 1일
·
0개의 댓글
post-thumbnail

개인 공부 - 4

크게 국소 표현(Local Representation)과 분산 표현(Distributed Representation)으로 나뉜다. 국소는 해당 단어 그 자체만 보고, 특정 값을 매핑해 단어를 표현하고, 분산 방법은 그 단어를 표현하고자 주변을 참고해 단어를 표현한다.예

2021년 9월 30일
·
0개의 댓글

개인 공부-3

언어 모델은 언어라는 현상을 모델링 하고자 단어 시퀀스(또는 문장)에 확률을 할당하는 모델!통계를 이용한 방법과 인공 신경망을 이용한 방법으로 나뉘는데, 최근엔 인공신경망이 더 좋은 성능을 보여준다.단어 시퀀스에 확률을 할당하는 일을 하는 모델. 가장 자연스러운 단어

2021년 9월 30일
·
0개의 댓글
post-thumbnail

개인공부-2

모든 문장을 구분해줄 만큼 아주 정확함. 만약 문장 내에 .와 같은 것이 많다면?그 의미를 제대로 파악해 분리해줬음. 아주 good한국어도 한 번 해봄. !!를 분리하긴 했지만 나름 good.한국어에 대한 토큰화 도구로 KSS(Korean Sentence Splitte

2021년 9월 28일
·
0개의 댓글

개인공부-1

현재 진행중인 산학협력 프로젝트의 주제는 LG AI Research가 주최하는 AI 기반 회의 녹취록 요약 경진대회를 참여하고, 생성된 모델을 바탕으로 Web 구현하는 것으로 정했습니다.자연어 처리 경험이 부족하므로 학습을 통해 채우고자 WikiDocs의 '딥 러닝

2021년 9월 28일
·
0개의 댓글
post-thumbnail

하루에 하나-19

단어별로 짝수/홀수 인덱스 판별해야 하므로 공백을 기준으로 문자열을 나눴습니다.enumerate를 활용해 각 단어별로 문자열의 인덱스를 가져왔고 짝수인 경우엔 tmp에 st의 대문자를, 홀수인 경우엔 st의 소문자를 추가해줬고이를 리스트에 담아서 공백을 기준으로 joi

2021년 9월 24일
·
0개의 댓글
post-thumbnail

하루에 하나-18

answer에 '수박'을 5000번 더한, 길이 10000짜리 수박수박...을 만들었습니다.후에 n까지만 슬라이싱!

2021년 9월 24일
·
0개의 댓글
post-thumbnail

하루에 하나-17

맨 앞에 + or -가 올 수도 있어 if~elif~else를 이용해 세 가지 경우를 구현했습니다.\+라면 그냥 int로 바꾸고, -라면 int에 -를 붙여주고, 아무것도 없다면 그냥 int(s).

2021년 9월 24일
·
0개의 댓글
post-thumbnail

하루에 하나 - 16

a~z까지 직접 입력해서 만들기보단 string의 ascii_lower, upper case를 이용했습니다.문자열 하나씩 돌면서 해당 문자열의 ascii의 index와 +n을 했고, z 다음은 a라고 했으니 26으로 나눈 나머지의 인덱스를 활용해 answer에 asci

2021년 9월 24일
·
0개의 댓글
post-thumbnail

하루에 하나-15

약수를 구해주는 모듈이 있지만, 사용하지 않고 풀었습니다.예를 들면 12의 약수라면 1, 2, 3, 4, 6, 12로 1, 2, 3 까지만 돌면 되고, 그 이후로는 어차피 12를 나눠준 몫이므로 굳이 돌 필요가 없습니다.따라서 sqrt(n)값의 내림을 한 값까지만 반복

2021년 9월 24일
·
0개의 댓글
post-thumbnail

하루에 하나-14(미완성)

소수가 아닌 숫자를 찾아서 전체에서 빼주는 게 나을거라 생각했습니다.시간 복잡도가 for문 $O(n^2)$에 이중비교까지... 효율성은 개나 줘버렸습니다.구현도 제대로 하지 못했는데 이유가 뭘까요....우선 재귀함수를 써서 수정해보겠습니다!

2021년 9월 21일
·
0개의 댓글
post-thumbnail

하루에 하나-13

list의 index 함수를 이용해 'Kim'의 위치를 찾고 format함수를 이용해서 {} 안을 채워줌.Kim은 반드시 seoul 안에 있고, 중복은 없음!

2021년 9월 21일
·
0개의 댓글
post-thumbnail

하루에 하나-12

1. int()를 이용하기 계속 테스트 케이스 5, 6 번이 틀리길래 왜 그런가 이유를 파악해보니 맨 처음 조건 문자열의 길이가 4 혹은 6을 빼먹었습니다..... 따라서, 4 or 6이라면 문자열 s를 int로 변환하고 된다면 answer는 True, ValueE

2021년 9월 21일
·
0개의 댓글
post-thumbnail

하루에 하나-11

sorted를 이용해 내림차순으로 정렬해줬고, sorted의 결과는 문자열의 한 문자열을 원소로 갖는 리스트 형태로 return되기 때문에 '' 공백을 기준으로 join 해서 하나의 문자열을 return!

2021년 9월 21일
·
0개의 댓글
post-thumbnail

하루에 하나-10

대소문자 상관없으므로 lower함수를 이용해 모두 소문자로 변경하고p엔 p의 개수, y엔 y개수를 할당해서 p와 y가 다르다면 False!맨 처음 answer를 True로 둔 이유는 p == y 혹은 p, y가 존재하지 않는 경우를 모두 고려해준 것!p != y인 경우

2021년 9월 20일
·
0개의 댓글
post-thumbnail

하루에 하나-9

a가 b보다 큰 경우가 존재하므로 조건을 걸어 a<=b라면 a ~ b+1까지의 숫자를 합하고 a>b라면 b ~ a+1까지의 숫자를 합한 결과를 answer에 담아줬습니다.a or b보다 +1을 한 이유는 range(a, b)는 a에서 b-1까지만 return 하는

2021년 9월 20일
·
0개의 댓글