profile
AI engineer
post-thumbnail

[python] 한글,영문이 아닌 문자 제거

한글, 영문이 아닌 특수문자나 한자를 제거하는 일이 빈번히 생긴다.정규식을 사용하여 아래와같이 간단하게 해결이 가능하다.

2021년 10월 27일
·
0개의 댓글
post-thumbnail

hiveserver2 실행

1. hive log 찾기 2. hive metastore 실행

2021년 10월 21일
·
0개의 댓글
post-thumbnail

dict 기본값 처리 (collections.defaultdict)

https://www.daleseo.com/python-collections-defaultdict/

2021년 10월 20일
·
0개의 댓글
post-thumbnail

[python] url image 바로 읽기, file에서 불러오기

1. 한장 불러오기 2. 랜덤하게 여러장 불러오기

2021년 10월 19일
·
0개의 댓글
post-thumbnail

한글영문인지 확인 정규식

카테고리 예측을 하면서 카테고리에 중국어와 같은 제거해야될 단어가 포함되는 경우가 있다.한글, 영문만 받아오도록 정규식 설정

2021년 10월 19일
·
0개의 댓글
post-thumbnail

img to base64 and base64 to arr

restapi를 통해 이미지를 넘길경우 base64형식으로 넘겨주는 경우가 있는데 그럴경우 사용

2021년 10월 15일
·
0개의 댓글
post-thumbnail

to category

label을 숫자로 맵핑시켜줘야하는 경우가 있다. 그럴때 사용!softmax의 경우 아래와같이 가장 큰 값을 선택 후 해당 숫자로 label원본 변환

2021년 10월 15일
·
0개의 댓글
post-thumbnail

nvidia-smi cuda 강제종료

가끔 nvidia-smi를 통해 gpu process를 kill해도 gpu메모리가 비워지지 않는 경우가 있다. 그럴때 사용!

2021년 10월 14일
·
0개의 댓글
post-thumbnail

keras 모델 잘라 붙이기

기존 모듈로 제공되는 모델들(BERT나 EfficientNet 등..)을 커스텀 할 필요가 가끔씩 생긴다. 예로 마지막 class_num이 다르다면 마지막 layer는 바꿔줘야 하니까.. 이럴때 유용하게 쓰일 수 있는것이 keras로 모델을 원하는 만큼 자르고 원하는

2021년 10월 13일
·
0개의 댓글
post-thumbnail

sparse_categorical_crossentropy

text data를 다룰때 label을 원한 인코딩으로 변환시켜야 하는 일들이 빈번하게 일어난다.ex) to_categorical(list(df'labels'))하지만 매우 큰 데이터의경우 이러한 변환자체가 부담이되고 심지어 OOM을 발생하기도 한다.이러한 이슈 때문에

2021년 10월 12일
·
0개의 댓글
post-thumbnail

개체명, 의미역

단어의 유형ex) 빌게이츠는 마이크로소프트에서 근무 한다.빌게이츠 : 사람마이크로소프트 : 조직술어와 논항 관계ex) I love youlove : 술어 (행위자, 대상자 필요)I : 행위자you : 대상자https://wikidocs.net/30682

2021년 10월 12일
·
0개의 댓글
post-thumbnail

spark sql

spark sql을 통해 hive external table로 부터 데이터를 가져와서 managed table(data warehouse)를 만드는 방법을 알아보자https://wikidocs.net/16565https://www.inflearn.co

2021년 10월 10일
·
0개의 댓글
post-thumbnail

hive sql

hive 테이블을 이용하여 hdfs에 저장된 json파일들을 읽는 방법hdfs경로의 파티션이(dt=20200326)와 같은 경우가 아니므로 직접 파티션과 hdfs 경로 매핑필요.https://heum-story.tistory.com/141

2021년 10월 10일
·
0개의 댓글
post-thumbnail

hadoop supergroup 추가

리눅스 사용자에게 hdfs접근 권한으르 주는 방법여러가지가 있지만 개인적으로 가장 편한 supergroup추가에 대해 알아보자aidw 사용자 supergroup에 추가aidw 사용자 그룹 확인사용자 그룹 매핑 리프레시aidw 사용자 supergroup에서 삭제사용자 그

2021년 10월 8일
·
0개의 댓글
post-thumbnail

Hadoop active, standby 구조

https://eyeballs.tistory.com/251https://eyeballs.tistory.com/236

2021년 10월 5일
·
0개의 댓글
post-thumbnail

토픽모델링 (LDA)

문서집합에서 토픽을 찾아네는 프로세스검색엔진과 같이 문서의 주제를 알아내는 곳에서 주로 사용.LDA(Latent Dirichlet Allocation) 문서들은 토픽들의 혼합으로 구성토픽들은 확률 분포에 기반하여 단어들을 생성한다고 가정LDA는 문서가 생성되던 과정을

2021년 9월 29일
·
0개의 댓글
post-thumbnail

EfficientNet

width scaling, depth scaling, resolution scaling은 성능과 시간에 많은 영향을 끼친다.기존에는 task마다 달라져야할 이 scaling을 임의로 정해따ㅏ.1) model의 성능을 높이기 위한방법width scaling, depth

2021년 9월 29일
·
0개의 댓글
post-thumbnail

ALBERT

1) 기존 pre-trained language model의 문제점좋은 성능에는 large model이 필요하지만 model이 클 수록 large memory가 필요 할 뿐만 아니라 inference 및 학습 시간이 오래 걸린다. (하드웨어의 한계)2) score의 많

2021년 9월 29일
·
0개의 댓글
post-thumbnail

OpenCV-Python

1) BMP픽셀 데이터를 압축하지 않고 그대로 저장용량이 크다2) JPG주로 컬러사진 저장손실압축3) GIF256색상 이하의 영상 저장일반 사진을 저장시 화질 열화가 심함무손실 압축움직이는 GIF지원4) PNG무손실 압축알파 채널(투명도) 지원

2021년 9월 27일
·
0개의 댓글
post-thumbnail

linux sudo권한 주기

우선 root권한으로 이동하여 /etc/sudoers를 vim으로 연다아래와 같이 수정

2021년 9월 9일
·
0개의 댓글