내장함수 sorted 문자열의 길이로 정렬하고 싶을 때 특정 키의 값으로 정렬하고 싶을 때
에러 발생 시키기 LinkedList 인덱스 개념이 없어 Node.next를 통해 탐색 삽입과 삭제가 유연함 구현의 용이를 위해서 head에 dummy node를 넣음
1. Stack 라이브러리 이용 값을 꺼내지 않고 값을 알고 싶을 때 > 스택을 활용한 후위 표기식의 계산 피연산자를 만나면 스택에 넣고 연산자를 만나면 2개를 뽑아서 나중에 뽑은애 연산자 처음 뽑은애 계산 후 다시 스택에 넣는다. 후위 표기식 변환을 위한 과정1 - 리스트에 넣기 2. Queues 큐에서의 peek는 맨 앞에 원소를 보여줌 ...
파이썬 프로그램 작성시 참고하면 좋을 라이브러리 help 지정할 수 있어서 좋다
파이썬 2차원 리스트의 중복 제거 파이썬에서 3항 연산자 연습문제 오답노트 이게 틀린이유는 기준이 바로 전꺼가 아니라 뽑은 애 기준으로 해야해서임... 스택으로 다시 구현. 수정된 코드
더미헤드를 갖는 연결리스트 노드 삭제 틀린코드 수정코드 왜틀렸는지 분석해보자... Doubly Linked Lists 데이터를 갖고 있는 노드들이 모두 같은 모양을 같도록 헤드와 테일에 더미 노드를 둔다. 순환문에서 다음과 같이 처리 가능 양방향 연결 리스트 역순회 틀린코드 수정코드 틀린이유 리턴 안하고 조건 수정 선생님 코드 더 깔끔하다....
클래스 내에서 객체의 주소를 변경하는 방법(feat.호준강사님) 하지만 권장하는 방법이 아니라고 하셨으니 사용하는데 유의해야겠다. 딕셔너리에서 get() 딕셔너리에서 items() 완주하지 못한 선수 나는 정렬로 풀었는데 이렇게 되면 최적이 NlogN이라 해쉬로 풀어야한다. 탐욕법 알고리즘의 각 단계에서 그 순간에 최적이라고 생각되는 것을 선택 탐...
파이썬에서도 0은 거짓이다 우선순위큐에서 인큐 구현에서 다음과 같은 실수가 있었다. set에 원소 추가 파이썬 모듈 사용 주피터노트북 파란색은 명령모드 ESC + m ESC + y 초록색은 입력모드 Enter 셀추가하기 명령모드에서 a - 위에 추가(above) 명령모드에서 b - 아래에 추가(below) 셀삭제 명령모드에서 dd Ctrl+Enter ...
pip 설치 에러 아래 에러가 나는 이유는 아마 아나콘다로 파이썬을 설치해서 pip모듈이 아나콘다로 설치한것과 좀 달라서 인듯? 잘은 모르겠다... ERROR: Cannot uninstall 'PyYAML'. It is a distutils installed project and thus we cannot accurately determine which f...
노션 사용법에 대해서 배웠다. 팀페이지 제작을 위해 처음 써봤는데 재밌었다. https://www.notion.so/Home-Hot-6-d856c67a04d44e0bb4b37dc50f71f8e5
커스텀 보드에 파이썬 프로젝트 올리는법 pyinstaller 사용하기 -> 보드가 리눅스 풀패키지가 지원되지 않으면 같은 계열의 칩 보드에서 패키징 예시 개발용 linux 환경 준비 (arm cpu에 ubuntu 등) pyinstaller 설치 개발된 py 소스를 패키징 커스텀 보드에서 실행여부 확인 다른 보드가 없는 경우 커스텀보드에서 pip로 필요한 ...
선형시스템이란 Ax = b 연립 일차방정식의 대수적 표현이다. -> 선형대수의 목표는 어떤 연립일차방정식 문제라도 정형적인 방법으로 표현하고 해결하는 방법을 배우는 것! -> 변수가 굉장히 많더라도 Ax = b 꼴로 만들어서 풀어보자 -> A가 뭔지는 모르지만 A의 역수를 곱해서 푸는것 처럼 풀어보자!
numpy를 사용하는 이유 파이썬 리스트를 사용했을때보다 numpy.array를 사용했을 때 속도가 훤씬 빠르다. 벡터 사이즈 확인 역행렬 구하기 역행렬을 이용한 Ax = b해 구하기 결과 검증
물리적 표현은 좌표계가 없는 표현이고, 수학적 표현은 좌표계가 있는 표현이다. 수학적 표현(x,y좌표계)에서 끝점이 (3,2)이면 (3,2)라고 부른다. 항등행렬 == 좌표계 좌표계가 달라지면 동일한 점이 다르게 불릴 수 있다.
트리는 재귀적인 성질을 가지고 있다. 이진트리의 depth() 구현은 왼쪽 서브 트리의 높이와 오른쪽 서브트리의 높이 중 더 큰것 + 1 중위순회 왼쪽 자식 -> 나 -> 오른쪽 자식 전위순회 나 -> 왼쪽자식 -> 오른쪽 자식 후위순회 왼쪽자식 -> 오른쪽 자식 -> 나
넓이 우선 순회의 원칙 수준(level)이 낮은 노드를 우선으로 방문, 같은 수준의 노드들 사이에는 부모노드의 방문 순서에 따라 방문 왼쪽 자식 노드를 오른쪽 자식 노드보다 먼저 방문 순회의 결과는 전체 노드를 레벨 0부터 왼쪽에서 오른쪽으로 훑는 것과 같음 넓이 우선 순회의 구현 한 노드를 방문했을 때, 나중에 방문할 노드들을 순서대로 기록해두어야 ->...
이진탐색트리에서 원소 삭제 키를 이용해서 노드를 찾는다. 해당 키의 노드가 없으면, 삭제할 것도 없음 찾은 노드의 부모 노드도 알고 있어야 함(아래 2번 때문) 찾은 노드를 제거하고도 이진 탐색 트리 성질을 만족하도록 트리의 구조를 정리한다. 인터페이스의 설계 입력: 키(key) 출력: 삭제한 경우 True 해당 노드가 없는 경우 False 이진 탐...
Git 사용 git status git add example.py git commit -m "coment" git log git branch -v git branch `` git checkout `` git merge `` git branch -d `` git remote add ` ` git remote -v git branch -M...
파이썬은 3항 연산자가 존재하지 않고, 가장 왼쪽에 있는 비교 연산자부터 계산해서 True False가 결정되는 시점에 결과를 반환함. return stack and 1 or 0은 return (stack and 1) or 0 과 같다.
평균구하기 중앙값 구하기 분산 구하기 표준편차 범위 4분위수 사분위수 범위 z-score
테이블은 행과 열을 이용해서 데이터를 저장하고 관리하는 자료구조(컨테이너) 주로 행은 개체, 열은 속성을 나타냄 dataframe? 2-D laveled table 인덱스를 지정할 수도 있음. series의 병렬적인 모음 Pandas의 활용 groupby Split : 특정한 기준을 바탕으로 데이터프임을 분할 Apply : 통계함수 - sum(),m...
가상환경에 진입하기 리눅스 source venv/bin/activate 윈도우 ./venv/Scripts/activate.bat 윈도우는 path 안잡히면 안되는듯? 가상환경에 설치된 모듈 확인 pip freeze 인터넷은 전세계 컴퓨터를 하나로 합치는 거대한 통신망 웹 인터넷에 연결된 사용자들이 정보를 공유할 수 있는 공간 메일은 웹이 아니다! 메...
깃으로 하는 과제 제출 방법 과제가 있는 원격저장소를 자신의 원격저장소로 Fork한다 자신의 로컬저장소에서 브랜치를 만들어 작업을 진행하고 Push한다. 자신의 원격 저장소에서 과제 저장소로 Pull Request한다. Contribution 관련 용어 LGTM(Looks Good To Me) : 나에게 좋아보인다. PTAL(Please Take Anot...
serialization은 모델을 관리할수 있는 전송할 수 있거나 디스크에 쓸 수 있는 형태로 저장하는 기능 Windows cmd는 작은 따옴표가있는 문자열을 지원하지 않는다. 전체는 "로 묶고, 내부는 \"로 처리해야함...
선형 회귀 가잘 잘 설명하는(오차가 적은) 직선을 찾는것! 비용 함수 선형회귀로 예측한 값 - 실제값 의 제곱의 평균을 나타낸 함수
django에서 테이블 클래스를 만들고 admin에 들어가서 만든 테이블을 클릭하면 에러가 난다. 이는 settings에서 설정을 안해줬기 때문이다. settings를 통해 마이그레이션 해줘야 DB에 반영된다.
텐서플로 사용하려면 파이썬 버전 3.8 아래여야함... AWS를 활용한 인공지능 모델 배포 클라우드 환경에서늬 인공지능 모델 서빙 API 개발 문제 정의, 데이터 준비, 모델 학습 및 검증, 모델 배포, 모니터링의 과정을 통해 실제 서비스에 기계학습 모델을 적용 모델 서빙 모델 트레이닝 -> 학습된 모델 저장(시리얼라이징 모델) -> 모델 불러오고 핸...
django에서 모델 수정한 다음에 반영하기 날짜형 : DateTimeField() models.py 작성한 후에 admin.py 작성하기 그다음 데이터 베이스 변동사항을 적용하기 위해 마이그레이션 진행
heapq로 최대힙 구현 값을 집어넣을때 꺼낼때 모두 -1을 곱해주기 튜플이용하기 조합 사용법
정렬 기준 주기 첫번째 오름차순 두번째 내림차순
해당 인덱스에 요소 삽입 a.insert(2, 500) 아래와 같이 작성하면 인덱스 1부터 시작 for i,a enumerate(arr,1):
Logistic Classification 참과 거짓을 분류 logostic function(sigmoid function)을 활용하여 0-1사이의 값 도출 Logistic Classification Cost function 시그모이드 함수 자체가 구부러져 있기
파이썬 가상환경 모듈 설치 pip install virtualenv 가상환경 만들기 virtualenv 내 가상환경 이름은 venv source venv/bin/activate
NCP 배포관련 conda deactivate 118.67.130.88:8000 uwsgi --ini uwsgi.ini tail /var/log/nginx/error.log tail /tmp/uwsgi.log vi /home/duduzi/.config/uwsgi.ini tail /home/duduzi/webproj/django.log cd /...
aws에서 아나콘다 파이썬으로 실행하는 것이 오류가 많은것 같다. 아나콘다 파이썬과 그냥 파이썬이 다 설치되어 있는 경우 충돌을 야기할 수 있다 참고 링크 https://snowdeer.github.io/python/2017/11/07/python-vs-anaconda/
판다스 데이터 프레임에서 원하는 컬럼만 추출 특정 컬럼의 부분 데이터만 추출하는 방법(DB 와일드 카드) 검색후 위치를 반환하는데 없으면 -1을 반환하므로 -1 보다 큰 경우를 검색하면 됨 참고 url https://yganalyst.github.io/datahandling/memo9/ https://ponyozzang.tistory.com/622 c...
판다스 피벗 테이블 https://yganalyst.github.io/datahandling/Pd14/ 데이터프레임 NaN 값 채우기 특정값 바꾸기 컬럼들 조회 결측치 처리 https://m.blog.naver.com/youji4ever/221791455668 groupby 주피터 노트북에서 모든 행과 열 보기
값이 높은것 보기 https://steadiness-193.tistory.com/218 python manage.py collectstatic 디장고 소스 추가하고 uwsgi --ini uwsgi.ini 이거 꼭 해야함... 그래프 동적으로 변환할 수 있는 라이브러리 https://plotly.com/
histogram에서 bin이란? 막대그래프에서 x축에서 각 막대그래프의 폭 또는 interval을 cell 또는 bin이라고 부른다. URL로 다운받은 파일 사용하기 주피터 노트북에서 가상환경 추가하기 https://medium.com/@5eo1ab/jupyter-notebook%EC%97%90-%EA%B0%80%EC%83%81%ED%99%98%EA%...
파이썬 배포 관련 https://curioso365.tistory.com/85 텐서플로 vs 토치 케라스 편하고 잘짜여져 있음. 쉽고 편하다! 라이브러리가 잘 되어있음 토치는 구현해야하는 구분이 있음. 텐서의 fit으로 해결되었던 부분이 따로 구현을 해야함... 페이스북 NLP관련? Fast text
전미분과 편미분이 값이 같은 경우와 다른 경우가 있다. 편미분에서는 좌표평면에 따라 미분 값이 다르다. set("abc") 이렇게 하면 {"a","b","c"} 이거랑 같다. 따라서 set(["abc"])이렇게 해야한다. L = [1,2,3,4]를 L = [1,2,3,4,5] 이렇게 하려면 L.append(5) -> 더 좋음 L += [5] 리스트는...
2 ** B[i] = 1 << B[i] 모듈로 연산은 (1 << B[i]) -1과 and 연산 for i in range(L): sol.append( fib[A[i] + 1] & ((1 << B[i]) - 1) ) 뉴런마다 activation 함수(w값을 조정하는?)를 가지고 있다. 역전파의 핵심적인 아이디어는 activatio...
이원변량분석(二元變量分析)에서 二元의 元은 원소 할때 원이다. 나는 원인(原因) 할때 原(근원 원)인가 했는데 아니였다. 두 가지 독립변인(요인,요소)에 대한 것이므로 이렇게 쓰는 것이다. 생각해보면 요소에 더 가깝지 근원이라고 하기엔 어려운 것들이다. (인과가 아니라 상관이므로...) 통계 용어를 공부할 때 한자도 같이 보면서 봐야겠다.
딕셔너리 최대값 https://bio-info.tistory.com/40 파이썬 함수에서 함수로 객체를 넘겨줬는데 넘겨받은 함수에서 객체가 새로 생성되는지 연결이 안된다.. 뭐지? 파이썬은 함수에서 또 초기화 하면 지역변수 화 된다. 신기... 이원 상대도수분포표는 자료를 수가 아닌 백분율로 보여줍니다. 이원 상대도수분포표는 두 변수의 관계를 잘 보여...
wsgi를 쓰는 이유 많은 요청을 동시에 처리하도록 해주는 것. 서버와 앱의 인터페이스를 담당한다. 기본적으로 웹 서버는 HTTP 형식의 요청을 받아서 처리한 뒤 응답해주는 기능을 한다. 이와 같은 처리은 1차적으로 nginx를 통해 이루어지며 서버에서 처리해야 할 작업이 있다면 Django와 같은 WAS(Web Application Server)가 필요...
사분위수범위(IQR) IQR은 3사분위수에서 1사분위수를 뺀 값으로 전체 자료의 중간에 있는 절반의 자료들이 지니는 값의 범위를 말한다. 사분위수 구하기 2,4,10,12,18 이면 중앙값 10 Q1 = (2+4)/2 = 3 Q3 = (12+18)/2 = 15 IQR = 15 - 3 = 12 2,4,10,12,18,20 이면 18 - 4 = 14
대체 분산 공식에 대해서 배웠다. 모평균을 알거나, 모평균을 구하지 않고 분산을 구하는 방법을 유도해내는 것이다.
pip로 모듈 설치시 sudo 쓰지말자 https://medium.com/@chullino/sudo-%EC%A0%88%EB%8C%80-%EC%93%B0%EC%A7%80-%EB%A7%88%EC%84%B8%EC%9A%94-8544aa3fb0e7 우분투 16.04를 썼더니 생기는 오류... 파이썬 가상환경 라이브러리 설치하고 pip3 install virt...
이상치를 판단하는 방법 사분위수범위(IQR)을 통해서 이상치를 판별하는 방법에 대해서 배웠다. Q1 - (1.5IQR) 보다 작거나 Q3 + (1.5IQR) 보다 크면 이상치라고 볼 수 있다. 이상치는 정의하기 나름이라 이거는 통계학자들이 간편하게 구하기 위해서 만든 정의이지만 나름 유용한거 같다.
자연어처리란? 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공 지능 기술. https://www.aitimes.kr/news/articleView.html?idxno=15036 자연어 처리 기본 도구들 https://blog.naver.com/leeyangachi/222199483297
d-차원 데이터를 위한 학습 모델의 예 직선모델을 사용하는 경우 매개변수 수 d + 1 2차 곡선 모델을 사용하는 경우 매개변수 수 d**2 + d + 1 백분위 나 이하인 것의 개수 / 전체 * 100 Z값이란 평균으로부터 표준편차의 몇배나 떨어져 있는가를 나타내는 값 (X - 모평균)/표준편차 자료에 사칙연산을 할 때, 매개변수에 미치는 영향 |...
벡터 요소의 종류와 크기 표현 예) $$x \in\mathbb{R}^n$$ 실수가 n개 있는 (열)벡터 데이터 집합의 여러 개 특징 벡터를 첨자로 구분 ($$x_i$$) 예) $$x_1 = \dbinom{5.1}{3.5}$$ $$x_2 = \dbinom{3.1}{7.5}$$ 여기서 5.1을 $$x1:x^1$$ 3.5을 $$x1:x^2$$ 이런식...
01/21 세션 target distribution을 얻기 어려운이유 P(y|X1,X2,...,Xn)이렇게 많고 X1과 X2과 독립이 아닌 관계가 있음... 내적의 의미 == 필터링 내가 가지고 있는 기준과 얼마나 유사한지 보는 것이기 때문에. 내가 가지고 있는 성분과 얼마나 비슷한지 거른다 노드에서 화살표 뻗어나가는게 내적 바이어스는 이동 행렬의 곱...
git 사용 https://victorydntmd.tistory.com/74 https://pks2974.medium.com/%EC%9E%90%EC%A3%BC-%EC%82%AC%EC%9A%A9%ED%95%98%EB%8A%94-%EA%B8%B0%EC%B4%88-git-%EB%AA%85%EB%A0%B9%EC%96%B4-%EC%A0%95%EB%A6%AC%ED%...
7주차 신경망의 기초 - 기계학습1 데이터를 통해서 학습하는것은 이 데이터에는 우리가 알지못하는 자연의 법칙이 녹아들어 있고, 그것을 찾기 위함. 모델 == 가설 이 모델이 1차원(선)일수도 2차원일수도 3차원 혹은 딥러닝 모델일수도 있음. 그 안에서 일어나는 훈련에서 최적의 파라미터를 찾는 작업이다.
MLP 성능 향상 히든레이어 추가 self.fc1 = nn.Linear(28 * 28, 512) self.fc2 = nn.Linear(512,14*14) self.fc3 = nn.Linear(1414, 77) self.fc4 = nn.Linear(7*7,10) x = F.relu(...
초기값 설정관련 모두를 위한 딥러닝 10-2 강 Activation 함수 관련 https://seongkyun.github.io/study/2019/05/01/activations/
크로스엔트로피 == 소프트맥스 7주차 과제를 GPU로 돌리고 잘못인식된 이미지를 확인하려고 하니 에러가 났다. 그래서 모델을 다시 CPU에 할당하고 확인했다. model.to("cpu")
그래디언트 디센트는 방향만 결정. 얼마만큼 이동할지는 lr로 결정됨... 파이썬 2차원 배열 초기화관련 https://leedakyeong.tistory.com/entry/Python-2-dimension-list mat = [[0]3]3 이런식으로 이차원 리스트 선언하면 안되는 이유
규제는 과잉적합을 피하기 위해서 쓰는것 대부분 가지고 있는 데이터에 비해 훤씬 큰 용량의 모델을 사용 매개변수 > 데이터 규제란 어떤 범위를 정해두고 벗어나지 못하게 하는것. 가정은 입력과 출력 사이의 변환은 매끄럽다 유사한 데이터는 가깝게 매핑된다. validation은 test랑 똑같음. 그렇기 때문에 dropout말고 커넥션 살려야함. 배치 사이즈...
n 타일링 문제가 효율성 테스트에서 걸리길래 O(n) 같아 보이는데 왜일까 고민하다가 질문하고 진섭님이 답변을 주셨다. 시간복잡도 문제가 아니라 메모리 문제였다. 팩토리얼로 수가 너무 커져서 감당이 안되는 거였는데 신기했다. 수 제한이 60000까지였는데 60000! 내 코드는 먼저 구하는 식이여서 문제가 있다. 미리 계산된 팩토리얼 값이 아닌 소거되는거 ...
CNN output 사이즈 계산 (N-F)/stride + 1 Pooling은 sampling임. max pooling 같은 경우에 큰 값 하나만 선택하는데 이렇기 때문에 샘플링이라고 생각하면 됨.
테스트 데이터 나누기 stratify는 훈련 데이터를 나눌 때 클래스 비율을 동일하기 맞추기 위함. 만약 클래스 분포가 불균등하면 stratify=y 지정해줘야함 test_size는 디폴트 값인 75%25% 가 아닌 다르게 나누고 싶을 때 사용 샘플데이터 한개에 대한 그레이언트 == SGD(확률적 경사 하강법) 전체 데이터 그레디언트 계산 == 배치 경...
사이킷런 원핫인코딩 https://injo.tistory.com/11 https://m.blog.naver.com/PostView.nhn?blogId=wideeyed&logNo=221343373342&proxyReferer=https:%2F%2Fwww.google.com%2F spark란 판다스가 분산환경에서 되고 sql이 지원되는 버전이라고 생각하면 됨...
spark 프로그램의 시작은 spark 세션을 만드는 것 CPU수로 파티션 수가 정해짐 "local[*]" -> 로컬에 있는 모든 CPU 사용하겠다. Lazy Execution -> RDD를 가지고 뭔가 의미있느 것을 할때 실행됨. 파이썬 제너레이터 yield문 https://nodoudt.tistory.com/31
Dense == 완전연결층 Dense 클래스의 매개변수 units은 층의 노드 개수 activation은 활성화 함수 다중분류에서 최적화 알고리즘은 경사 하강법이고 손실함수는 크로스 엔트로피 Sequential 클래스의 compile() 매서드를 활용해서 최적화 알고리즘과 손실함수 지정함. optimizer loss
데이터 전처리 관련 코드 문자열 데이터 앞에 패딩 주는 것 one-hot encoding
아래와 같은 경우 i+j+1의 길이가 s의 인덱스를 넘었어도 에러가 나지 않음 여러가지 환경에서 통용되는 머신러닝 파일포맷이 있다면 어떨까? 해서 나온 것이 PMML, MLeap 머신러닝 모델을 마크업언어로 표현해주는 XML언어 Spark는 차세대 분산 데이터 처리 프레임웤 RDD,데이터프레임,데이터셋
오늘은 KDT에서 진행한 캐글 경진대회가 있었다. 우리조는 아래와 같은 시행착오(?)를 겪었다. 나는 결정트리 기반 모델 알고리즘을 모르는데 스코어가 높은 모델들은 거의 결정트리 기반 모델이였다. 정말 공부할게 많은것 같다. 타이타닉 전처리 부분 수정한 특성 cabin,name,sex,age 선택한 특성값 [‘...
구글 드라이브 마운트 데이터 분리 라벨인코딩(one-hot) 모델 생성 model = keras.Sequential() 모델 컴파일 및 학습 훈련 히스토리 보기 드롭아웃
확률이론 : 예측값의 불확실성을 정량화시켜 표현할 수 있는 수학적인 프레임워크를 제공한다. 결정이론 : 확률적 표현을 바탕으로 최적의 예측을 수행할 수 있는 방법론을 제공한다. 다항식 곡선 근사에서 x에 대해서는 선형이 아니지만 가중치 w에 대해서는 선형함수임. M(==차원)이 커질수록 w(==가중치,계수) 값이 엄청 커지거나 작아짐. 학습을 하면서 계...
파이썬 함수인 reverse 와 reversed https://itholic.github.io/python-reverse-reversed/ 나는 행렬의 회전을 직접 구현했는데 이 함수를 이용해서 쉽게 행렬(2차원 리스트)의 회전을 구할수 있다. 파이썬은 내장함수가 많아서 앞으로 많이 공부해야겠다. 파이썬 zip
기대값이 평균과 다른게 무엇인가? 기대값은 말 그대로 기대되는 값이다. 평균을 확률적으로 해석한 값이라고 생각하면 된다. 이산 확률 분포에서 평균과 기대값은 같은 값이지만, 기대값의 의미 자체는 어떠한 확률 변수와 그에 대응되는 확률값으로 계산하는 예측이다. 그동안 수업때 예제는 이해를 돕기 위해 모든 경우를 아는 경우로 보여줬지만 확률이란게 전체 모집단...
vscode 원격접속 https://seokhyun2.tistory.com/42 우분투 셀레니움 사용을 위한 https://somjang.tistory.com/entry/Ubuntu-Ubuntu-%EC%84%9C%EB%B2%84%EC%97%90-Selenium-%EC%84%A4%EC%B9%98%ED%95%98%EA%B3%A0-%EC%82%AC%EC%9A%...
파이썬 set 초기화 할 때 set().add(1) 이런식으로 사용하지는 못함. python에서도 매서드의 리턴값이 0인 경우 False로 인식하기 때문에 조건 flag로 사용 가능하다. 다익스트라 알고리즘에 대해서 공부했다. 경로 관련된 문제에서 나는 깊이우선탐색 방법으로 문제를 해결하려고 했으나 길을 지워버리면 다른 경로를 통해 같은 길을 지나갈 수...
파이썬 assert문 https://wikidocs.net/21050 assert 뒤에 오는 조건의 값을 확인하는 구문 아직 어떤 상황에서 사용해야하는지 감이 오진 않는다... 좋은 코드들을 보면서 사용 방법에 대해서 익혀야할듯. 파이썬에서 MAX_VALUE 구하는 법 https://hashcode.co.kr/questions/1092/%ED%8C%...
너비 우선 탐색과 깊이 우선 탐색의 차이 1) 한 단계 진행 시 가능한 경우의 수, 2) 두 단계 진행 시 가능한 경우의 수 와 같이 매 단계에서 가능한 경우의 수들을 모두 확인하며 탐색한다면 그것이 바로 너비 우선 탐색. 깊이 우선 탐색은 1) 여러 경우의 수 중 하나를 선택, 2) 선택 후 가능한 여러 경우의 수 중 또 하나를 선택 하는 식으로 매 ...
자연어 처리 소개 자연어의 의미를 컴퓨터로 분석해서 특정 작업을 위해 사용ㅎ할 수 있도록 하는 것 문장은 몇개의 단어를 가지고 있나? 문장부호를 단어에 포함시켜야할까? 문장부호는 문장의 경계를 의미. 이런 구분이 필요한 경우 포함시킨다. 문장부호 자체가 의미를 가지고 있는 경우도 있음(?,! 등) 구어체 문장의 경우 Fragments 깨어진 단어 ->...
언어모델 문장 다음에 이어질 단어는? 문장들 중 나타날 확률이 더 높은 것은? 목표 : 문장이 일어날 확률을 구하는 것 언어모델은 왜 필요한가? 기계번역 맞춤법 검사 음성인식 언어모델은 연속적인 단어들에 확률을 부여하는 모델 P(W) = P(w1,w2,w3,...,wn) 결합 확률 관련된 일 연속적인 단어들이 주어졌을 때 그 다음 단어의 확...
문서분류 문서분류란? 텍스트를 입력으로 받아, 텍스트가 어떤 종류의 범주에 속하는지를 구분하는 작업 다양한 문서 분류 문제들 문서의 범주, 주제 분류 이메일 스팸 분류 감성 분류 언어 분류 주제분류 CS논문 -> CS 주제분류(AI,DB 등등) 감성분류 영화리뷰 긍부정 어디에 쓰일 수 있을까? 영화 : 리뷰가 긍정적인가 부정적인가...
단어 임베딩 단어의 의미를 어떻게 나타낼 것인가? 글자의 나열? one-hot encoding? 좋은 표현방식: 단어간의 관계를 잘 표현할 수 있어야 함 단어의 의미 어근(lemma),의미(sense) 마우스는 쥐라는 뜻과 컴퓨터 주변기기 마우스가 있음. 복수형이나 단수형이나 모두 같은 어근임. 동의어(Synonyms) 문맥상 같은 의미...
아파치 에어플로우 테스트해봤다. https://austcoconut.tistory.com/entry/%EB%AC%B4%EC%9E%91%EC%A0%95-%EB%94%B0%EB%9D%BC%ED%95%98%EA%B8%B0-LinuxUbuntu-%ED%99%98%EA%B2%BD%EC%97%90%EC%84%9C-Airflow-%EA%B5%AC%EC%B6%95%ED...
Transformer 추론단계 이해 self attention "The animal didn't cross the street because it was too tired" 여기서 it이 가리키는 단어는? 단어의 의미는 문맥에 의해 결정된다. 같은 단어라도 문맥에 의해 뜻이 달라진다. 현재 단어의 의미(임베딩을 통해 표현되는)를 주변 단어의 ...
동적계획법이란? 주어진 최적화 문제를 재귀적인 방식으로 보다 작은 부분 문제로 나누어 부분 문제를 풀어, 이 해를 조합하여 전체 문제의 해답에 이르는 방식 알고리즘의 진행에 따라 탐색해야 할 범위를 동적으로 결정함으로써 탐색범위를 한정할 수 있음. 솔루션 스페이스의 확장 예로는 피보나치 수열, 배낭 문제가 있음.
url로 존재하는 txt 파일 구글 colab에서 다운받기 pymysql 설치하고 아무리 임포트 해도 모듈 찾을수 없다길래 원인이 뭘까 알아보다가 python3로 실행하면 된다는 것을 알게됨 https://stackoverflow.com/questions/45345377/python-module-not-found-even-though-requirement...
query 영향을 받는 단어 A를 나타내는 변수 key 영향을 주는 단어 B를 나타내는 변수 value 그 영향에 대한 가중치 q,k,v 를 만드는 가중치가 모델 파라미터임. q,k,v 만드는 매커니즘이 똑같음. 객체인식 IoU(intersection over union) measure 합집합/교집합 두개의 블럭의 교집합과 합집합을 생각하면 됨.
크롤링 관련 엘리먼트가 로드되는 것을 기다리는데 참고하면 좋을 코드 https://neung0.tistory.com/40 그런데 나같은 경우에는 특정 클래스 앨리먼트의 몇번째라서 이 코드를 적용하기 어려워 보인다. 현재는 time.sleep으로 하고 있는데 내일 팀원들과 논의하면서 더 좋은 방법이 있는지 봐야겠다.
tr:nth-child(1) 첫번째가 0이 아니라 1이다... mysql 데이터 타입 범위 맨날까먹어... https://dololak.tistory.com/260 utf8mb4 언어셋 소개 및 표현범위. https://blog.lael.be/post/917 Pymysql에서 인서트한 데이터 index 가져오기 cursor.lastrowid 병헌님이...
pymysql 데이터는 커서를 지정해서 받을 수 있다. DictCursor로 받으면 딕셔너리가 들어있는 list로 반환된다. 참고 https://yurimkoo.github.io/python/2019/09/14/connect-db-with-python.html 딕셔너리를 str()로 사용 가능 셀레니움으로 attr 값 가져오기 title = driver...
Word2Vec(Word Embedding to Vector) 주위 단어가 비슷하면 해당 단어의 의미는 유사하다 라는 아이디어 단어를 트레이닝 시킬 때 주위 단어를 label로 매치하여 최적화 단어를 의미를 내포한 dense vector로 매칭 시키는 것 Word2Vec은 분산 된 텍스트 표현을 사용하여 개념 간 유사성을 본다. 예를 들어, 파리와 프랑스...
한국어 토크나이저 관련 한국어는 형태소 분석하여 토큰화를 진행해야하는데, 형태소 분석기(토크나이저)가 종류가 굉장히 다양하다. 토크나이저마다 성능차이가 크다고 해서 여러개를 테스트 해야하는데 우선 언어가 파이썬이고 속도가 빠른것 위주로 테스트 해야겠다. 파이썬으로 해결되는 것은 konlpy랑 fasttext이다. 그리고 따로 프로그램을 돌려서 해결할...
gensim python32에서만 설치가능. https://underblogger.com/55 메모리 부족 에러 https://bskyvision.com/799 젠심 32bit으로 하래서 했더니 32bit에서는 설정 해줘도 메모리 에러가 남 이게 뭐지? 해결방법은 버전 지정해서 설치 pip install gensim==3.4.0 두개의 리스트를 zi...
DB정보 밖으로 빼기 https://redapply.tistory.com/entry/SQL-%EC%A0%91%EC%86%8D%EC%8B%9C-%EC%A0%91%EC%86%8D%EC%A0%95%EB%B3%B4-%EB%B3%84%EB%8F%84-%EB%B3%B4%EA%B4%80%ED%95%B4%EC%84%9C-%EC%82%AC%EC%9A%A9%ED%95%98...
파이은전 https://github.com/koshort/pyeunjeon 설치 오류 https://somjang.tistory.com/entry/Python-pip-install-%EC%8B%9C-error-Microsoft-Visual-C-140-is-required-%EC%98%A4%EB%A5%98-%ED%95%B4%EA%B2%B0-%EB%B0%A9...
딕셔너리에 키가 없는 경우 0을 반환 print(a.get('f',0)) 깃허브에 잘못올라간 파일 삭제 https://gmlwjd9405.github.io/2018/05/17/git-delete-incorrect-files.html 파이썬 문자열 인덱스로 문자열 변경은 못함 s[-1] = 'f' #에러 발생
한글 형태소 품사 http://kkma.snu.ac.kr/documents/?doc=postag 깃주소로 pip설치 pip install -e git+https://github.com/zzsza/chatspace/chatspace https://github.com/zzsza/chatspace.git pip install git+https://githu...
파이썬 두 리스트 원소 곱하기 https://www.delftstack.com/ko/howto/python/multiply-two-lists-python/ 중복 조합 https://juhee-maeng.tistory.com/91
문장유사도 관련 주요 알고리즘 정리 https://wiserloner.tistory.com/932?category=837251 리스트를 순환큐로 사용 시작과 끝 인덱스 지정 후 (시작인덱스 + 텀길이) % 리스트 전체 길이
핵심문장 추출 관련 https://lovit.github.io/nlp/2019/04/30/textrank/ 텍스트 요약 https://wikidocs.net/72820 git에서 이슈관리 하는 방법 https://www.popit.kr/github%EB%A1%9C-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EA%B4%80%EB%...
python명령어로 python3기본 실행 https://nuggy875.tistory.com/48 airflow DB연동 에러 https://top100itw.medium.com/airflow-mysql-unicodeencodeerror-latin-1-codec-can-t-encode-characters-in-position-652-653-3e7291...
파이썬 싱글톤 구현 https://bitcodic.tistory.com/89 중복데이터 제거 https://steemit.com/kr/@yjiq150/mysql 데몬으로 실행 https://stackoverflow.com/questions/45168300/how-do-you-keep-your-airflow-scheduler-running-in-aws-e...
데몬 확인 명령어 ps -xa 에어플로우 데몬 실행 https://stackoverflow.com/questions/39383429/how-to-run-airflow-scheduler-as-a-daemon-process 데몬으로 실행했는데 안되는 경우 아래 두 파일을 삭제해줘야한다. rm airflow-scheduler.err rm airflow-sch...
Airflow Dag 추가하면 그냥 스케쥴러 종료하고 다시 시작하자... dag파일을 스케쥴러 실행중에 ID 중복된거를 넣었더니 자기 마음대로 다시 시작되고 난리도아님... git ignore관련 https://nochoco-lee.tistory.com/46
도서 한국어 임베딩 잠재 의미 분석 Latent Semantic Analysis 단어 사용 빈도 등 말뭉치의 통계량 정보가 들어 있는 커다란 행렬에 특이값 분해 등 수학적 기법을 적용해 행렬에 속한 벡터들의 차원을 축소하는 방법을 말한다. 잠재 의미 분석 수행 대상 행렬 TF-IDF 행렬 단어-문맥 행렬 점별 상호 정보량 행렬 NN 기반 임베딩 문장...
토큰 관련 https://jins-sw.tistory.com/6 전이학습 관련 https://velog.io/@hamdoe/fasttext-add-pretrainedVectors 판다스에서 정규식 일괄 처리 http://blog.naver.com/PostView.nhn?blogId=wideeyed&logNo=221605317822
전이학습을 할때 추가로 학습하는 데이터가 원래 데이터의 일부만을 표현하고 있으면 문제가 된다. https://stackoverflow.com/questions/63831856/problem-retraining-a-fasttext-model-from-bin-file-from-fasttext-using-gensim 시간복잡도 관련 https://choichu...
ETRI Korbert 관련 https://monologg.kr/2020/05/02/koelectra-part1/ 아스키 아트 모든글꼴 볼 수 있어서 편함 https://ko.rakko.tools/tools/68/ https://wepplication.github.io/tools/asciiArtGen/?fontSelector=Coinstak&userIn...
그동안의 TIL을 돌아보며... 태그를 안하면 검색이 어렵다. 그래서 이미 TIL에 있는 것임에도 불구하고 그냥 새롭게 검색하게 된다. 내 블로에 있는 것들은 내 환경에서 동작하는 것이기 때문에 앞으로 TIL에 태그를 다는 습관을 들여야할것 같다.
크롤링 관련 이슈 만약 음식점들이 랭킹이 정해져있고 페이지별로 랭킹이 보인다면 이 랭킹이 업데이트 되는 시기에 맞춰 에러가 나거나 데이터가 중복되서 들어갈 수 있다. 음식점 이미지가 없는 경우가 있기 때문에 이미지를 클릭하는 경우보다는 없을 수 없는 정보 예를들면 식당 이름 같은거를 클릭하도록 하는 것이 좋다. 셀레니움에서 언노운에러도 발생하는데 이거...
화면 UI https://interactivo.latercera.com/esteban-paredes-goleador-historico/paredes-goleador-historico/ 화면기획서 참고 https://yslab.kr/148 https://recordsofstudymya.tistory.com/entry/drawio%EB%A5%BC-%EC%...
pyplot scatter에서 각 점에 라벨 붙이기 annotate 활용 한글이 깨지는것을 방지하기 위해서는 위에 맑은 고딕 지정이 필요하다.
서버 CPU 80%까지 사용하는것 확인했는데 그 이후에 더 사용량이 늘었는지 airflow scheduler가 죽는 현상을 발견했다. 크롬드라이버가 CPU를 많이 잡아먹어서 돌리면서 확인해야겠다. 그리고 요기요 크롤러가 병렬처리가 안되는데 이유가 뭔지 봐야할것 같다. invalid session에러도 자꾸 발생하는데 원인을 아직 못 잡고 있다. 계속 알...
문장단위 임베딩관련 https://sonsnotation.blogspot.com/2020/11/10-3-transformer-model.html 문장단위 임베딩 시각화 https://towardsdatascience.com/deconstructing-bert-part-2-visualizing-the-inner-workings-of-attention-60...
크롤링 에러 https://hreesoul.tistory.com/entry/%ED%81%AC%EB%A1%A4%EB%A7%81-Selenium-Chrome-%EC%97%90%EB%9F%AC 엘라스틱서치 타입 벡터 https://velog.io/@jakeseo_me/%EB%AC%B8%EC%84%9C-%EC%9C%A0%EC%82%AC%EB%8F%84-%EC%B...
파이썬 코드 터미널 종료해도 실행되도록 https://blkcoding.blogspot.com/2018/03/nohup.html 앨라스틱서치 데이터 조인 https://blog.naver.com/PostView.nhn?blogId=olpaemi&logNo=221642052297&categoryNo=0&parentCategoryNo=0&viewDate=&c...
판다스 데이터 조작 https://nittaku.tistory.com/124 같은 식당에 같은 아이디 부여할 예정. https://wikidocs.net/45582 아나콘다 django https://travelbeeee.tistory.com/3 서버 메모리 확인 htop nvidia-smi free -mh df -lh du -sh *
DataFrame 이나 Serises 를 txt 파일로 깔끔하게 바꿀경우 (이건 tsv) sample.tocsv('samplefile.txt', index=False, header=None, sep="\t") https://sosomemo.tistory.com/5 앨라스틱서치에 덴스벡터 타입 넣기 https://www.elastic.co/guide/en/...
mecab 형태소 분리 사용 https://m.blog.naver.com/PostView.nhn?blogId=aul-_-&logNo=221557243190&proxyReferer=https:%2F%2Fwww.google.com%2F SQL로 키워드 검색
검색어 토큰화 Mecab 형태소 분석으로 필요 없는 형태소 제거 신조어를 위해서 마지막 형태소만 비교 토큰들의 벡터 유사도 단어를 구하는 함수 구현 검색어 토큰화 할때 사용한 토큰들을 사용한다 토큰이 겹치는 단어는 제외하면서 5개씩 뽑는다 벡터유사도는 0.7 이상으로 한다
엘라스틱서치 벡터유사도 검색할 때 벡터를 보내는것을 잘 보내야한다. 키바나에서 보내려면 백터 안의 숫자들을 모두 다른 라인으로 보내야한다.
AND OR 조건 엘라스틱 서치 쿼리
tmux https://dgkim5360.tistory.com/entry/the-first-steps-for-tmux-terminal-multiplexer
django runserver 돌릴 때 다른 사람도 들어가기 위해서는 다음과 같이 명령어 실행 필요 python manage.py runserver 172.31.35.110:8080 tmux 종료를 위해서는 ctrl + b 다음에 d를 누르면 된다.
KDT를 마치며... 좋은 팀원들 덕분에 프로젝트로 마음에 들게마치고 좋은분들도 많이 만났다. 4개월동안 내 나름대로 열심히 한거같다. 과정에 임하면서 기술적인거나 인공지능 관련 지식을 얻은것도 많고, 같은 과정에 계신 분들이 좋은 분들이 많아서 그분들을 통해 많이 배웠다. 사람의 대하는 방식이나 표현하는게 성숙하신 분들이였다. 기술적인 부분과 인격적인 부...
크기가 4 이상인 부분집합의 평균들은 크기가 2,3인 부분 집합의 평균보다 클 수가 없다. https://velog.io/@dosanahnchangho/%EC%BD%94%EB%94%9C%EB%A6%AC%ED%8B%B0-MinAvgTwoSlice-javascript
로그스태시는 엘라스틱서치에 데이터를 mysql,csv등으로 벌크로 넣을 수 있는 툴 https://shelling203.tistory.com/7 앨라스틱서치 로그스태시 사용 동영상 https://www.youtube.com/watch?v=EKZb64xc3kA
~는 파이썬 비트연산의 not을 의미한다. abs(x)는 x의 절대값을 반환하는 함수이다.
코딜리티 lesson8 Leader Dominator 리스트에서 절반이상으로 나타나는 요소를 Leader라고 한다. 처음 푼 코드 - 퍼포먼스에서 감점이 있어서 87% 수정한 100% 통과 코드
빅데이터의 정의와 예 빅데이터란 무엇이며 어떤 예들이 있는가? 빅데이터의 정의 1 서버 한대로 처리할 수 없는 규모의 데이터 - 존라우저 빅데이터의 정의 2 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터 빅데이터의 정의 3 4V volume:데이터의 크기가 대용량? velocity:데이터의 처리 속도가 중요? variety:구조화/비구조화 데이터 둘다...
spark 데이터 구조 RDD, 데이터프레임, 데이터셋 RDD는 가장 로우 레벨 spark 세션 spark 프로그램의 시작은 spark 세션을 만드는 것 spark 세션을 통해 spark이 제공해주는 다양한 기능을 사용 spark 컨텍스트, hive 컨텍스트, SQL 컨텍스트 spark 2.0 전에는 기능에 따라 다른 컨텍스트를 생성해야했음 명령을 내리려...
포트폴리오 관련 툴 포트폴리오용으로 많은 템플릿이 존재하고, 웹으로 공유하기 편리한 툴들이 많은것 같다. 노션 노션은 PDF로 저장할수도 있다. 하지만 포폴내에 페이지가 많이 존재하면 PDF보단 주소를 공유하는게 나을것 같다. 깃북 깃붓 제작 메뉴얼에 대해서 배웠다. 깃북을 제작하면 README 보다 상세하게 프로젝트에 대해서 설명할 수 있다는 장점이...
구글 코랩에서 spark 실습을 위해 pyspark와 py4j를 설치해야한다. sparksession은 SparkSession.builder를 호출하여 생성하며, 다양한 함수들을 통해 세부 설정이 가능하다. master의 인자는 내가 사용하고 싶은 호스트 이름이 들어감. [*]의 의미는 서버에 있는 모든 CPU를 쓰겠다는 의미. 파이썬 리스트를 RDD...
애플 주식 데이터를 가지고 간단한 데이터 분석해보기(PySpark) Spark Session 만들기 애플주식 csv파일을 로딩하고 spark 데이터 프레임으로 변경하기 어떤 컬럼 이름들이 있는가? 스키마를 프린트해보기 처음 5개 레코드를 출력해보기 describe를 사용하여 데이터프레임의 컬럼별 통계보기 close 컬럼의 평균값은 얼마인가 v...
프로그래머스 K번째 수 n번째는 n-1인덱스인것에 유념하자...
귀찮고 기운없는 날에는 쉬운 문제를 풀면서 보내자 :D 프로그래머스 lv1 문제 5개 풀기프로그래머스 lv1 문제 5개 풀기 문자열 정렬 원하는 인덱스로 정렬 원하는 인덱스로 정렬 가운데 글자 반환 문자열에서 p와 y의 개수 세기 서울에서 김서방 찾기서울에서 김서방 찾기 문자열 다루기 기본
탐욕법(Greedy) 부분적인 최적해가 전체적인 최적해 알고리즘의 각 단계에서 그 순간에 최적이라고 생각되는 것을 선택 현재의 선택이 마지막 해답의 최적성을 해치지 않을 때 == 앞 단계에서의 선택이 이후 단계에서의 동작에 의한 해의 최적성에 영향을 주지 않음 프로그래머스 탐욕법 문제 풀기 체육복 빌려줄 학생들을 "정해진 순서"로 살펴야하고, 이 "정해...
탐욕법 프로그래머스 문제 구명보트
크루스칼(kruskal) 알고리즘이란 탐욕적인 방법을 이용하여 네트워크의 모든 정점을 최소 비용으로 연결하는 최적 해답을 구하는 것 크루스칼 알고리즘 동작 그래프의 간선들을 가중치의 오름차순으로 정렬한다. 정렬된 간선 리스트에서 순서대로 사이클을 형성하지 않는 간선을 선택한다. 해당 간선을 현재의 최소비용신장트리 집합에 추가한다. 어떻게 사이클을 감지할...
파이썬 collections 모듈의 Counter 사용하기 프로그래머스 완주하지 못한 선수를 나는 딕셔너리로 풀었는데 카운터를 사용하여 풀수도 있다! 다른 사람의 코드도 열심히 봐야겠다.
sdict = sorted(d.items(),reverse=True) 이렇게 하면 안되서 sdict = sorted(d.items(),key=lambda x : -x[1]) 이렇게 했다. 정렬하려는 인자를 지정하는것 잊지 말기!
파이썬 reduce 사용하기 파이썬 functools 내장 모듈의 reduce() 함수 임포트 from functools import reduce 사용방법은 다음과 같다. reduce(집계 함수, 순회 가능한 데이터, 초기값) 초기값은 선택사항 lambda함수 말고 정의된 함수 사용
동적계획법 주어진 최적화 문제를 재귀적인 방식으로 보다 작은 부분 문제로 나누어 부분 문제를 풀어, 이 해를 조합하여 전체 문제의 답에 이르는 방식 알고리즘의 진행에 따라 탐색해야할 범위를 동적으로 결정함으로써 탐색범위를 한정할 수 있음 동적계획법의 적용 예 피보나치 수열 재귀함수로 구현한다면? f(4) = f(3)+f(2) = f(2...
숫자 array가 있을 때, 각 수들을 더했을 때 가장 큰 수가 나오는 sub array를 찾는 것을 카데인 알고리즘이라고 한다. 이는 DP로 해결할 수 있는데, 현 인덱스까지의 최대값은 바로 전 인덱스까지의 최대값 + 현재 인덱스 값 혹은 현재 인덱스 값 이기 때문이다. https://leetcode.com/problems/maximum-subarra...
자바스크립트에서 map 함수와 reduce 함수의 차이 https://velog.io/@harrycod/Map%EA%B3%BC-Reduce-%EB%A9%94%EC%86%8C%EB%93%9C%EC%9D%98-%EC%B0%A8%EC%9D%B4 파이썬 반복 가능한 객체 이터레이터 https://dojang.io/mod/page/view.php?id=2405 ...
오늘 이런 코드를 짰는데, s[-2]가 '0'임에도 불구하고 or 다음 연산이 들어갔다. 이유는 이게 3항 연산이 아닌, 우선순위가 가장 높은 왼쪽에 있는 비교 연산자부터 계산해서 뒤에 식을 확인하지 않아도 참거짓이 결정되는 순간에 데이터를 리턴하는 파이썬의 독특한 성질이다. 나는 아래 레퍼런스를 보고 작성한건데 나의 케이스 같은 경우는 arr[-2]...
0의 약수의 개수는 모든 정수의 개수이다. https://ko.wikipedia.org/wiki/%EC%95%BD%EC%88%98
파이썬 문자열 정렬하기 https://programmers.co.kr/learn/courses/4008/lessons/12728
파이썬 reverse, reversed의 차이 https://itholic.github.io/python-reverse-reversed/ 행렬 회전을 reversed를 통해 구현 진수변환 https://www.daleseo.com/python-int-bases/
유클리드 호제법 a와 b의 최대공약수는 a를 b로 나눈 나머지(a>b)와 b의 최대공약수와 같다. a,b의 최소공배수는 a,b의 곱을 a,b의 최대공약수로 나누면 된다. https://velog.io/@jwisgenius/%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98-%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%B5%9...
프로그래머스 튜플 내 코드와 다른 사람 코드 비교 문재훈님 코드 같은 모듈을 사용해도 훨씬 깔끔하게 사용할 수 있으며 나는 정규식을 썼는데 굳이 안쓰고 파싱을 저렇게 하면 되는구나를 배웠다.
itertools chain 모듈을 사용하여 2차원 리스트를 일렬로 이어붙이기 list로 변환하지 않아도 max 같은 함수 사용이 가능하다. 프로그래머스 순위검색 효율성 떨어지는 코드 효율성 통과 코드 key point 0.딕셔너리에 미리 저장해둬야함 1.정렬 미리 해야함 2.이진탐색으로 찾아야함 upper bound 알고리즘 특정값 이상의 값이 ...
위 처럼 코드를 작성했는데, answer list에 있는 원소들이 변화되지 않았다. 그리고 공백이 연속되어 있는 케이스 처리를 하지 않아 위에 코드를 수정해서 통과했다. s.capitalize() 앞글자만 대문자로 만들어주는 함수
푸는 방식(?)은 똑같은데 구현한것에 따라서 효율성이 많이 차이가 난다. 여러가지 코드를 참고하면서 효율적인 코드 작성에 대해서 공부해야겠다. 짝지어 제거하기 효율성 통과 못한 코드 효율성 통과 코드 두 코드 실행시간이 10배 가까이 난다. 숫자의 표현 효율성 통과 못한 코드 효율성 코드 https://velog.io/@insutance/%ED%9...
다익스트라 알고리즘 출발노드부터 각 노드까지의 최단거리를 계산하는 알고리즘 https://justkode.kr/algorithm/python-dijkstra
파이썬 정규식 사용법 복습 https://wikidocs.net/4308 import re p = re.compile('\d+') #연속된 숫자만 l = p.findall('adfs123sfdf') # 매칭되는 문자열 리스트로 반환 이 외에도 match 객체를 사용할 수 있다. m = p.match('123') # 패턴과 일치하지 않으면 None 반...
파이썬 append extend 차이점 https://m.blog.naver.com/wideeyed/221541104629 파이썬 set 연산의 종류 discard remove 차이 https://dev.plusblog.co.kr/41 합집합 |(OR) 또는 union 함수 사용 가능 교집합 차집합 대칭차집합 == 합집합에 교집합이 제거된 형태 ...
zip(*) => 행과 열을 바꿔줌.
LRU 알고리즘 https://j2wooooo.tistory.com/121
파이썬 eval 함수 https://blockdmask.tistory.com/437 숫자와 그 외 나머지를 끊어서 배열로 만드는 방법 튜플은 자료가 선언되고 변하지 않기 때문에 sort 함수 사용이 불가능하다. 튜플을 정렬하고 싶을 때는 sorted함수를 사용하자.
그래프 관련 알고리즘 https://driftmind.tistory.com/57
leetcode 841번 문제 임시저장만 해두고 배포를 안했다 ㅜㅜ 다음부터는 내용이 조금이라도 써지면 우선 배포하고 블로그 내용 수정해야지... 매일매일 블로그 쓰기가 습관이 될수 있도록...
파이썬 내장 함수 filter 함수 말그대로 필터 역할을 하는 함수를 인자로 넣어 엘리먼츠를 필터링함. 함수를 재사용할 필요가 없으면 lambda로 처리해도된다.
모델의 용량 capacity == 모델의 용량 == 표현능력 가중치(==파라미터)와 관련이 큼. 과소적합과 과잉적합 과소적합이란 모델의 편향(오차)가 크고 모델의 변동성이 낮은것 과잉적합이란 모델의 편향은 작으나 분산과 변동성이 큰 것 과소적합은 모델의 한계로 일어나며, 과잉적합은 모델의 용량이 지나지게 큰 경우 생김. 과소적합은 모델의 용량을 늘리...
인공지능에서 확률의 의미 모델학습에 사용되는 실제 데이터들은 노이즈가 낀 데이터임. 따라서 이 데이터들이 생성되는 것에 불확실성이 존재하고, 불확실성을 다루는 확률과 통계를 잘 활용해야함. 확률벡터 확률변수를 요소로 가지는 벡터 최대우도 어떤 확률변수의 관찰된 값들을 토대로 그 확률변수의 매개변수를 구하는 방법
모두의 알고리즘 - 길벗 출판사 그래프 자료구조 모든 친구를 찾는 알고리즘
파이썬 list에서 ::로 슬라이싱하기 ::n은 n만큼 점프하겠다는 의미 리스트에서 n의 배수 인덱스만 추출됨 m::n은 m인덱스부터 n점프 이를 이용한 문제 프로그래머스 n진수 게임 이용하지 않은 코드
FloodFill 문제에 대한 2가지 풀이법 기존에 프로그래머스에서 이 문제를 재귀로 풀었고 그래서 앞에 다음과 같이 재귀함수 호출 제한을 푸는 코드를 추가해서 문제를 풀었다. 리트코드에도 해당 문제가 있어서(733번) 이번에는 DFS로 접근하여 해결하였다.
다익스트라 알고리즘은 싸이클을 가진 경우에는 가중치가 양수일 때만 적용된다. 음의 가중치를 가진 그래프에서 최단 경로를 찾으려면 벨만-포드 알고리즘을 사용해야한다. https://developer-alle.tistory.com/103 백준 문제 푸는법 백준은 입력을 문자열 나열해서 줘서 따로 처리가 필요하다. https://www.acmicpc.net...
키바나 musql 연동 https://joypinkgom.tistory.com/232?category=874360 로그스태시 실행하면 자바 환경변수 에러 날때 https://stackoverflow.com/questions/47269718/logstash-with-windows-shows-java-error 엘라스틱서치 검색결과 수 설정 config/e...
csv 파일을 logstash로 처리할때 주의해야할점. 만약 컬럼내 데이터에 \n 혹은 "같은 데이터가 섞여있다면 처리해줘야함. 나같은 경우 리뷰 컬럼에 \n이 많아 판다스 df.replace('\\\n','')로 데이터를 처리했다. 어차피 뷰에 데이터 넘겨줄때 변환하기 때문! 이것을 몰라서 시간을 엄청 뺏겼다... csv 형식이 맞는데 왜그러지 계속 ...
django 템플릿 언어 for문 인덱스 사용하고 싶을때 {{forloop.counter}} https://itinerant.tistory.com/13 아래와 같이 디장고에서 자동으로 특수기호 변환하는 경우 off하는법은 다음과 같다 {% autoescape off %} Hello {{ name }} {% endautoescape %} 출...
django 템플릿 리스트 원소가 존재하지 않을 경우 empty로 처리 https://jjinisystem.tistory.com/38
leetcode에서 노드관련된 문제를 푸는 방법을 익혔다. 정의된 노드의 모양을 보여주기 때문에 참고해서 풀면 된다. 104
코딩공부관련 사이트 SoloLearn 현재 스터디에서 코드공유하는 용도로 사용중이다. 팔로우한 계정의 코드도 볼 수 있는데, 앱에서는 바로 이동 된다고 하는데 웹에서는 안된다 ㅜㅜ 저장할때 Public으로 설정해야 모든 사람들이 볼 수 있다.
진짜 시스템 명령어는 매번사용하지 않으면 까먹는것 같다. 우분투에서 root 패스워드 변경 https://www.psychz.net/client/question/ko/how-to-change-root-password-in-linux.html 우분투에서 엘라스틱서치 설치 https://johnmarc.tistory.com/32 엘라스틱서치 버전확인 실행...
계정변경 su - username https://seyul.tistory.com/20 우분투에서 계정 생성 후 su 명령어 되게 하기 https://psychoria.tistory.com/707 엘라스틱서치 설치및 실행 https://hayden-archive.tistory.com/334
엔진엑스 설치 에러가 날때 https://www.fun25.co.kr/blog/nginx-ipv6-address-family-not-supported-by-protocol/?category=001 삽질기록... logstash 설정파일에 /public/21-05-19.csv 이렇게 넣어서 작동이 안됬었다. C:/public/21-05-19.csv 이렇게...
디장고 admin 사이트 css가 깨져보일때 https://sys09270883.github.io/web/43/ 나는 `STATICFILES_DIRS = [ os.path.join(BASE_DIR, 'static'), ]`이런식으로 설정해서 그랬다. 디장고에서 ip 저장 https://www.python2.net/questions-1098798.h...
자연어처리 관련 사이트가 정리되어있음 https://blog.naver.com/con9755/221271375713
백준 맞는것 같은데 계속 테스트케이스가 틀려서 의아했다. 입력코드 바꾸니까 해결됬다... 전 후 deepcopy 속도비교 https://velog.io/@emplam27/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%A6%AC%EC%8A%A4%ED%8A%B8%EC%9D%98-%EA%B9%8A%EC%9D%80%EB%B3%B5%EC%82%AC%E...
VS code 익스텐션 BOJ helper를 사용하면 쉽게 테스트할 수 있다!
Google I/O 2021, NLP 위주 리뷰 https://jiho-ml.com/google-io-2021/
개인프로젝트에 엘라스틱서치를 적용했는데, 내 쿼리는 wildcard를 통해 결과를 얻는다. 그러나 이런경우 결과를 제대로 없을 수 없고 성능문제가 발생하기 쉽다는 글을 보았다. https://findstar.pe.kr/2018/01/17/understanding-whildcard-query-on-elasticsearch/ https://www.elastic...
Graph Neural Network란? http://www.secmem.org/blog/2019/08/17/gnn/ https://data-weirdo.github.io/data/2020/09/30/data-graph-08.graph_nn/ 내가 그동안 알던 인공신경망들은 인풋이 벡터나 행렬이였다. 그런데 인풋이 그래프일 수 있다니! 너무 신기하다. ...
TensorFlow Extended(TFX) 이란? 프로덕션 ML 파이프라인을 배포하기 위한 엔드 투 엔드 플랫폼 https://www.tensorflow.org/tfx?hl=ko ML pipeline이란? https://lsjsj92.tistory.com/579 kubeflow란? 머신러닝 파이프라인을 관리해주는 툴 Google Kubernetes ...
검색관련 비디오 및 자료 참고 https://deview.kr/2020/sessions TF-IDF를 통해서 검색 구현하는 방법 참고
검색 서비스에 대한 평가는 어떤식으로 이뤄질까? 궁금해서 찾다보니 좋은 사이트를 알게 되었다. 우선 정량적 평가는 속도 위주로 평가한다. https://support.google.com/webmasters/answer/9205520?hl=ko#cls_description 참고하기 좋은 블로그 구글검색센터 블로그 https://developers.googl...
가상환경 커널 이용하기 https://analytics4everything.tistory.com/144 NLP 데이터셋 정리 https://littlefoxdiary.tistory.com/42
[DEVIEW 2020]일본어 까막눈이 만드는 일본주소검색 (검색 엔지니어는 무슨일을 할까요?) 검색의 스펙 -> 어떤 쿼리까지 지원되는가? 검색 요구사항의 예 음차변환 rkdskadur -> 강남역 오타교정 우편번호 검색 빌딩명 검색 유의어 검색 부분쿼리 검색 다국어 쿼리 검색 카테고리 검색 검색데이터분석 검색 엔지니어 업무에서 가장 많은 시간을 차...
엘라스틱서치 토큰확인 GET _analyze { "text": "원하는 문장" } GET _analyze { "tokenizer": "nori_tokenizer", "text": [ "동해물과 백두산이" ] } 로그스태쉬로 데이터 넣을때 문제가 생기지 않기 위해서 다음과 같은 처리하자. 엘라스틱서치에 노리토크나이저 적용 http...
데이터프레임 합치기 pd.concat([df1,df2]) 엘라스틱서치 버전 7.4부터 필터 사용안함 https://brownbears.tistory.com/462 엘라스틱서치 post filter http://clearpal7.blogspot.com/2018/04/elasticsearch-post-filter.html pandas 행열 전환 df.t...
비터비 알고리즘 https://ratsgo.github.io/data%20structure&algorithm/2017/11/14/viterbi/ ES 버전확인 https://inovalley.tistory.com/4
은닉마르코프모델 https://ratsgo.github.io/machine%20learning/2017/03/18/HMMs/
자연어 이해(Natural Language Understanding, NLU) Rule의 역습:NLU에서 머신러닝 기술을 보조/보완할 수 있는 정규표현식 언어 nlu_script https://tv.naver.com/v/16968266/list/657024 검색어를 처리하기 좋게 가공한다! slot이 검색에서는 무슨 의미일까? 아래 자료 참조 htt...
AI 알고리즘 탐색기법 비터비 알고리즘 복습 각 시간의 탐색순서 등을 전혀 신경쓰지 않고 어떤 시간의 각 지점으로부터 다음 시간의 각 지점까지의 비용을 모두 구해서 가장 비용이 낮은 지점을 남기는 과정 반복 Symmetric vs Asymmetric 사전적 의미 Symmetric 동일하다 Asymmetric 동일하지 않다 방향에 따라서 비용이 달라지는...
파이썬 비트연산 https://dojang.io/mod/page/view.php?id=2460 ^ XOR 연산 ~ NOT 연산
Rule의 역습:NLU에서 머신러닝 기술을 보조/보완할 수 있는 정규표현식 언어 nlu_script ![](https://images.velog.io/images/du-du-zi/post/cb
파이썬 슬라이싱 사용법 정리 https://dojang.io/mod/page/view.php?id=2208
https://www.youtube.com/watch?v=NV5rjDRCebk&list=WL&index=45&t=87s 형태소란? 일정한 의미가 있는 가장 작은 단위로 발화체 내에서 따로 떼어낼 수 있는 것을 말한다. 즉, 더 분석하면 뜻이 없어지는 말의 단위이다. 음소와 마찬가지로 형태소는 추상적인 실체이며 발화에서 다양한 형태로 실현될 수 있다. 위키...
프로그래머스 삼각달팽이
프로그래머스 네트워크
KDT 10주차 세션 강의 복습(~37분까지) ML이 검색분야에서 어떻게 사용되는지 랭킹 위주로 세션이 진행됨. > 텍스트검색엔진의 진화 1세대(1994~1998) 통사적 유사성에 기반 2세대(1998~2000년대 중반) 페이지내의 정보 이상의 것들을 사용하기 시작 링크분석, 클릭 3세대(2000년대 중반~2010년대 초반) "10 blue link...
프로그래머스 프린터
다이나믹 프로그래밍 vs 백트랙킹 DP는 문제와 서브문제로 쪼개는 것 DP table에 값을 저장하여 활용 BT은 Decision Space라고 해서 우리가 가져갈 수 있는 모든 경우의 수를 하나씩 살펴봄. 가능성들을 하나씩 트랙킹하면서 Decision Tree를 만듦 대표문제 phone keypad문제 https://colab.research.goog...
단위벡터는 크기가 1인 벡터를 의미함. 단위벡터를 이용하는 이유? 크기, 방향을 한눈에 알아보기 쉬움. 크기를 앞으로 빼서 크기*(x,y)이런식으로 나타내기 때문 방향(단위벡터) 벡터의 성분을 단위벡터로 나타내기 좌표축 방향의 단위벡터로 쪼갤 수 있다. 즉 모든 벡터는 좌표축 방향 단위벡터의 스칼라곱으로 표현가능 헷은 보통 단위벡터를 나타냄
이분탐색 문제 프로그래머스 징검다리 https://deok2kim.tistory.com/122
형태소 분석 어절 내에서 다양하게 나누어지는 분석 후보들을, 모두 나열하여 분석 하는 것 품사 부착 모호한 형태소 분석 후보들 중에서, 문장 내에서 알맞은 형태소와 그 품사를 결정하는 것 한국어 형태소 분석의 어려움 두 가지 중의성 Segmentation 중의성 영어(X),중국어(O),일본어(O) 품사 중의성 띄어쓰기 사용자는 띄어쓰...
git 이슈관리 https://www.popit.kr/github%EB%A1%9C-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EA%B4%80%EB%A6%AC%ED%95%98%EA%B8%B0-part1-%EC%9D%B4%EC%8A%88-%EB%B0%9C%EA%B8%89-%EB%B6%80%ED%84%B0-%EC%BD%94%EB%93%...
슬랙과 깃 연동하기 https://sepiros.tistory.com/37
OKR Objective(목표)와 Key Result(핵심결과) 성과를 위해 목표를 설정하고 그 목표가 어떤 KR로 판단할 수 있는지를 설계한 후 KR의 현재 상황을 수치로 측정할 수 있는 지표에 대한 목표수준을 설정하여 그 KR에 대한 목표수준을 달성하고자 하는 과정을 효과적으로 관리하는 방법론 CTR Click-through rate 클릭율 검색 쿼리...
검색이론 IR중에 하나가 검색임 IR != 검색 QA도 IR의 영역 중에 하나임 많은 문서들 중에서 관련있는 문서를 보내주는 것 사용자가 입력한걸 찾아주는 것과 의도에 맞게 찾아주는 것은 다름 Relevance를 구분하는게 IR에서는 좋다 정의하기도 평가하기도 어려움 DB는 쿼리가 한정적임 색인을 할 것을 정하는 것도 중요한 일임 모든 디...
빅쿼리 구글이 관리해주는 데이터웨어하우스 빠른속도를 자랑하며 SQL문으로 제어 가능 빅쿼리 연동은 코랩에서 판다스를 통해 가능하다
오타교정 관련 자료 https://hhhaeuuu.tistory.com/17 https://www.slideshare.net/deview/242-52779038 https://scienceon.kisti.re.kr/commons/util/originalView.do?cn=JAKO201820765441985&dbt=JAKO&koi=KISTI1.1003%...
편집거리 알고리즘 https://hsp1116.tistory.com/41
네이버 오타교정 자료 오탈자유형 단순 입력 실수(70% 이상) 한글을 영어로 영어를 한글로(20% 이상) 맞춤법 왜래어표기 등 지식 부족(9% 미만) 잘못된 지식(1% 미만)
서브쿼리 https://mozi.tistory.com/233
UTC 세계표준시 DB가 이 시간에 맞춰있는 경우가 있어서 +9시를 더해서 계산한다.
pyenv https://lhy.kr/configuring-the-python-development-environment-with-pyenv-and-virtualenv
지라에 대해서 https://reviewmaniac-00.tistory.com/43
pyenv로 global을 설정했는데도 되지 않을때
direnv https://www.44bits.io/ko/post/direnvformanagingdirectoryenvironment dotfiles https://blog.appkr.dev/work-n-play/dotfiles/
SQL with as 문 https://coding-factory.tistory.com/445
pandas 시리즈 데이터를 리스트로 변환하기 https://pydole.tistory.com/entry/%EC%9E%91%EC%84%B1%EC%A4%91
한글 정규식 인코딩 관련 test는 정규식으로 한글 추출하는 함수였는데 똑같아 보였는데 'ㄹ'을 직접 입력한것과 결과가 달랐음 해결방법 코드포인트를 직접 쓰는 방법 r = re.compile(r'[\uAC00-\uD7AF|\u1100-\u11FF|\uA960-\uA97F|\uD7B0-\uD7FF|\u3130-\u318F]+') 참고 https://ko...
레플리카 - 데이터 스토리지 저장할 때 복제본을 리플리카 개수만큼 또 만든다. 메인 스토리지에 - 복제본 샤드 - 자원 한정으로 분산해서 저장하는 것. 데이터 저장을 분산하는 것. 정해진 규칙으로 라우팅 가능
오타 정타 판별에서 인접 검색어 파악은 필수다... 데이터에 답이 있다. 실수하지 말자 ㅜㅜ
ANN Approximate Nearest Neighbor Search https://spark.apache.org/docs/3.1.2/ml-features.html#approximate-nearest-neighbor-search
데이터 라벨링 작업의 한계. 우선 유명한 모델을 돌려서 기본 데이터 셋을 만들자 구글 빅쿼리에서는 변수 선언할때 @안쓴다.
.envrc를 복사 cp .envrc {저장할 패스} chmod +x .envrc python -m venv venv ipykernel 설치하고 python -m ipykernel install --user --name “venv” --display-name “PythonHome_p37”
오타의 종류 입력실수뿐만 아니라 발음상의 차이가 없는단어로 초래하는 것도 있음 ㅔ ㅐ 는 발음 상의 차이가 없어 사용자들이 자주 헷갈림
주피터노트북 출력이 너무 크면 다음에 불러올때 오래걸리고 에러남... 출력이 긴것은 적절히 삭제하자 python 유니코드 https://ponyozzang.tistory.com/258
partition 함수 그룹 내 순위 및 그룹 별 집계를 구할 때 유용하게 사용할 수 있다. 순위함수 row_number rank dense_rank 집계함수 sum avg max,min count https://ggmouse.tistory.com/119
#데이터 정합성 : 어떤 데이터들이 값이 서로 일치함. 중복 데이터를 많이 사용하면 데이터끼리 정합성을 맞추기 어렵다.
빅쿼리에서 제이슨 타입으로 들어간 데이터를 조회할 수 있다. countif(cast(jsonextractscalar(json형식컬럼이름, '$.json_key') as type) < 숫자) as 별칭 목적격조사 https://www.korean.go.kr/front/onlineQna/onlineQnaView.do?mnid=216&qnaseq=35785 ...
outer join은 한쪽은 다 보여주고 다른쪽은 매칭되는 것만 보여주는 것. 예시 직원들을 다 보여주되, 소속부서가 있는 직원들은 소속부터도 같이 보여줘라. pull outer join은 inner join과 양쪽 outer join을 모두 합한 형태
집계함수 집계된 결과만을 출력해서 보여준다. 분석함수 특정 집합 내에서 결과 건수의 변화 없이 해당 집합안에서 특정 컬럼의 평균을 구하는 함수이다. avg (컬럼1) over (partition by 컬럼2) 컬럼2 기준의 컬럼1의 평균값을 출력
롤업은 소계를 구할 때 사용. 전체 집계도 보여줌. sql로 누적값을 구하기 셀프조인으로도 가능하지만 select a.no,a.countdt,max(a.downloadcnt) ,sum(b.couwnload_cnt) from ssak3 a, ssak3 b where a.no = b.no and a.countdt >= b.countdt order by a.n...
산점도와 회귀선 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=dotorimj2&logNo=222117972039
print(re.sub('\d{4}', 'XXXX', '010-1234-5678')) 전방탐색 후방탐색 https://blog.hexabrain.net/205
베이즈정리 http://expertchoice.co.kr/bayes_theorem.html
자소분리시 초성중성종성으로 분리됨. 그래서 종성이 쌍자음인경우 ㅃ 이런식이 하나로 취급되기 때문에 잘 분리해야함.
파이썬에서 유니코드 문자를 아스키로 변환 https://www.delftstack.com/ko/howto/python/python-unicode-to-string/ 정규식 범위에서 <- 에러 안남 <- 에러남
ann https://brunch.co.kr/@goodvc78/15
파이썬에서 공백 제거하기 위해 ''.join(s.split(' ')) 하고 나면 뭔가 결과가 바뀌는 듯 하다. 정규식 매칭결과가 다름.
df['who'].value_counts() 파이썬 가정 설정문 https://wikidocs.net/21050 판다스 행 for문 접근 파이썬 정규식 매치와 서치를 잘 구분해서 쓰자..
은닉 마르코프 모델 은닉은 관찰가능하지 않은 상태를 이야기함 관찰 가능한 상태를 통해 관찰 가능하지않은 상태를 예측하는 것
HMM 모델의 파라미터 A → HMM이 작동하는 도중 다음 상태를 결정 B → HMM이 어느 상태에 도달하였을 때, 그 상태에서 관측될 확률 결정. 즉, 은닉상태에서 관측치가 도출될 확률 π → HMM을 가동할 때 어디서 시작할지 결정
편집추적 https://blog.naver.com/PostView.nhn?isHttpsRedirect=true&blogId=ndb796&logNo=220870218783&parentCategoryNo=23&categoryNo=&viewDate=&isShowPopularPosts=true&from=search
https://hexists.tistory.com/227
draw.io로 플로우차트 그리기 https://dukdo.com/it/3031
symspell 알고리즘 https://americanopeople.tistory.com/349 들어온 단어를 가지고 후보 단어를 만든 후 그 단어들이 단어 사전에 있는지 보는? 알고리즘
파이썬 피클 모듈 https://wayhome25.github.io/cs/2017/04/04/cs-04/
초성 중성 종성 https://202psj.tistory.com/305
판다스 그룹별 카운트 https://rfriend.tistory.com/391 판다스 컬럼이름 변경 https://rfriend.tistory.com/468 ARIMA https://m.blog.naver.com/bluefish850/220749045909
https://stackoverflow.com/questions/19605537/how-to-create-lazy-evaluated-dataframe-columns-in-pandas 판다스 lazy
캐릭터 단위 언어모델 https://towardsdatascience.com/character-level-language-model-1439f5dd87fe
언어 생성 모델 https://minsuksung-ai.tistory.com/12
파이차트 그리기 https://wikidocs.net/92114
중복되지 않는 무작위 숫자 뽑기 https://m.blog.naver.com/new27kr/220998501772 출력을 파일로 저장하기 https://codetorial.net/tipsandexamples/saveprintoutput.html
dic = { name:value for name, value in zip(a, b) }
이중리스트를 판다스 데이터 프레임으로 pd.DataFrame(list) list의 형태는 [[',ㅐㄱ상', 0.0, '책상', 5.475504735056842], [',ㅓㅁ블러', 0.0, '텀블러', 5.434442946915032], ['.ㅐㄱ상', 0.0, '책상', 5.475504735056842], ['01ㅔ', 0.0, '010', 5.3...
캐릭터 단위 언어모델 https://towardsdatascience.com/character-level-language-model-1439f5dd87fe
char rnn https://junstar92.tistory.com/129
rnn을 활용한 텍스트 생성 https://wikidocs.net/45101
판다스 열값 일괄변환 https://www.delftstack.com/ko/howto/python-pandas/pandas-replace-values-in-column/
seq2seq 모델 https://wikidocs.net/24996
seq2seq 모델을 오타교정에 적용하고 나서 배운점 처음부터 오타가 있는경우에는 효과가 그닥 좋지 못함
버켓팅 https://nlp.gitbook.io/book/ml_base/sequence-to-sequence
p = re.compile(r'[\uAC00-\uD7AF|\u1100-\u11FF|\uA960-\uA97F|\uD7B0-\uD7FF|\u3130-\u318F]) 천지인 자판에서 입력되는 특수문자들도 한글 범위에 들어감...
http://doc.mindscale.kr/km/unstructured/13.html seq2seq 제너레이터 적용 예제
텐서플로우 모델 저장 및 로드 https://www.tensorflow.org/tutorials/keras/saveandload?hl=ko
tokenizer.fitontexts() https://stackoverflow.com/questions/65238940/how-can-i-use-fit-with-generator-on-seq2seq-model
LSTM 기반의 sequence-to-sequence 모델을 이용한 한글 자동 띄어쓰기 https://scienceon.kisti.re.kr/srch/selectPORSrchArticle.do?cn=JAKO201810866006252&dbt=NART
one-hot generator 사용 https://github.com/google/seq2seq/issues/320
네이버 검색결과 없음 https://www.etoday.co.kr/news/view/1671411
쉬운 통계학 책들 https://flowkater.io/data/recommendation-stat-book/ 이야기로 아주 쉽게 배우는 확률과 통계 https://blog.naver.com/applevill/220493208977
시맨틱 검색 http://www.konantech.com/?p=952 멀티모달 https://my-coding-footprints.tistory.com/81
fit_genorator에서 벨리데이션 쓰기 https://m.blog.naver.com/jeonghj66/221762791471 fit_genorator https://github.com/google/seq2seq/issues/320 trainonbatch https://i-am-eden.tistory.com/15 코랩 세션 유지 https://mo...
코랩 프로 플러스 https://aimb.tistory.com/216
샘플사이즈 계산기 https://www.nownsurvey.com/calculator/ TPU사용 https://jybaek.tistory.com/783
데이터프레임 값을 변경할 때 날 수 있는 오류 https://velog.io/@jonsyou/%EC%98%A4%EB%A5%98-%EB%85%B8%ED%8A%B8-Pandas-Try-using-.locrowindexercolindexer-value-instead
fit_genoreter 밸리데이션 https://m.blog.naver.com/jeonghj66/221762791471 데이터프레임 컬럼간 상관 보기 https://blog.naver.com/PostView.nhn?blogId=kiddwannabe&logNo=221205309816&parentCategoryNo=&categoryNo=38&viewDate...
백앤드 관련 용어 토픽,컨슈머 https://sjh836.tistory.com/186
서비스에 대한 고민 서비스를 맡았다면 이 서비스의 일부분의 기술적인 성능이 아니라 전체 서비스에 대한 고민이 필요함. 사용자가 중요하게 생각하는게 뭔지 진짜 사용자 입장에서 위험이 무엇인지
antd https://ant.design/
프리시젼과 리콜 https://sumniya.tistory.com/26
어려움의 나열> 어려움을 어떻게 극복할껀데에 대한 부분이 부재 (이런건 사실 태도적인 측면으로도 보일 수 있어어, 이 어려움을 어떻게 극복하고 어떻게 해결해나아갈건지 보이는게 정말 정말 중요하다고 생각함) NR이 사용자편의성을 저해한다고 하지만, NR이 나오는 소비자는 정정을 바로 하므로 사용자반감이 적지 않을까? (1번째 케이스에 제시한 의도와는 다른 논...
철자 교정기 http://theyearlyprophet.com/spell-correct.html
성과 지표를 산정하고 케이스를 나눠서 커버리지 파악하고 효과를 파악하는 것이 전략에 있어서 중요함!
샘플 사이즈 선정 https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=jiehyunkim&logNo=221050347283
머신러닝 적용의 실제 https://brunch.co.kr/@kakao-it/104
행렬분해 https://www.secmem.org/blog/2019/06/15/matrix-decomposition/
예측속도 향상 https://cloud.google.com/architecture/minimizing-predictive-serving-latency-in-machine-learning?hl=ko
Representation Learning https://ratsgo.github.io/deep%20learning/2017/04/25/representationlearning/
도서 검색을 위한 딥러닝 https://jpub.tistory.com/1017
허깅페이스 https://hyunlee103.tistory.com/118
자연어처리를 위한 필수 용어들 https://wdprogrammer.tistory.com/35
계획 세우는 법 https://evernote.com/blog/ko/how-to-make-a-plan/
심리상담 챗봇 구현하기 https://rogerheederer.github.io/ChatBot_Wellness/
기지국 설치 예전에 풀었던 것과 비교 예전 새로푼것 기지국 위치 - 거리 기지국 위치 + 거리 이런식으로 처음과 끝을 잡고 그 사이는 나누기로 설치할 기지국 계산
인수인계 방법 https://ko.wikihow.com/%EC%9D%B8%EC%88%98%EC%9D%B8%EA%B3%84-%ED%95%98%EB%8A%94-%EB%B0%A9%EB%B2%95
트라이 알고리즘 https://blog.naver.com/cocokelly1229/222059739350
판다스 데이터프레임 딕셔너리화 https://seong6496.tistory.com/109
판다스 여러개의 컬럼으로 그룹바이 df.groupby(['city', 'fruits']).mean()
구글 데이터스튜디오 https://support.google.com/datastudio/answer/9171315?hl=ko&ref_topic=6267740
판다스 마스크 복습
신입개발자가 알면 좋은 개발 외적인 개념 https://velog.io/@jereint20/%EC%8B%A0%EC%9E%85-%EA%B0%9C%EB%B0%9C%EC%9E%90%EA%B0%80-%EC%95%8C%EB%A9%B4-%EC%A2%8B%EC%9D%80-%EA%B0%9C%EB%B0%9C-%EC%99%B8%EC%A0%81%EC%9D%B8-%EA%B0%...
seq2seq data_generator
CLIP https://inforience.net/2021/02/09/clipvisual-modelpre_training/
형태소 분석기 비교 https://velog.io/@metterian/%ED%95%9C%EA%B5%AD%EC%96%B4-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0POS-%EB%B6%84%EC%84%9D-3%ED%8E%B8.-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84...
카프카와 다른 메세지큐 차이점 https://blog.naver.com/culdm/222461186284
언더샘플링과 오버샘플링 https://hwi-doc.tistory.com/entry/%EC%96%B8%EB%8D%94-%EC%83%98%ED%94%8C%EB%A7%81Undersampling%EA%B3%BC-%EC%98%A4%EB%B2%84-%EC%83%98%ED%94%8C%EB%A7%81Oversampling