profile
정리하고 복습하고 일기도 쓰고

NLP - 텍스트 데이터 전처리

0. Intro 이전까지 Vision 관련 데이터 및 모델만 다뤄왔다. NLP에 대해서도 궁금한 점이 많이 있었지만, 공부해볼 기회가 따로 없었기에 미루고만 있었다. 그리고 얼마 전에 관심 있는 회사에서 NLP관련 과제 테스트를 요청했고, 드디어 NLP 공부할 기회가

4일 전
·
0개의 댓글
post-thumbnail

데이터 파이프라인 핵심 가이드(1) - 데이터 인프라

대중 교통을 타거나 또는 오랜 시간 기다려야할 때, 시간이 아깝다는 생각을 많이 한다. 그래서 책을 사서 공부해보기로 하였다.어떤 책을 읽는 게 좋을까? 어느 회사 면접에서 '\~~데이터를 위한 파이프라인은 어떻게 설계해야할까요?' 라는 질문을 받았었다. 지금까지는 기

2022년 5월 31일
·
0개의 댓글
post-thumbnail

udemy Hadoop - GCP 실습 환경

udemy hadoop 강의에서는 Virtual Machine에 Linux 이미지를 올려 실습한다. 여기에 필요한 건 8GB 이상의 RAM 이라는 점이다... 하지만 내 노트북은 딱 8GB짜리라 돌아가진 않고, Mac의 경우엔 M1을 지원하지 않는다.강의를 그냥 들어볼

2022년 5월 23일
·
0개의 댓글
post-thumbnail

udemy Hadoop - Spark(2)

이전 시간에 Spark에 대해서 알아보았고, Spark의 데이터 구조로 RDD, Dataframe, Dataset이 있다는 것을 배웠다. 각각은 어떤 형태로 되어 있으며 어떻게 조작하는 것일까?RDD의 의미 Resillient Distributed Data를 해석하자면

2022년 5월 21일
·
0개의 댓글
post-thumbnail

뜬금없이 회고하기

요새 지친다는 느낌을 많이 받는다. 생각이 많아지고, 자신감이 없어진다. 내가 가고 있는 길이 맞는 걸까? 회고 글을 쓰면서 생각을 정리하고 마음을 다시 잡아보자!지원하는 회사마다 떨어지면서 내가 가고 있는 방향이 잘못된 것 같다는 생각을 종종 한다. 그러면서 내가 공

2022년 5월 19일
·
0개의 댓글

udemy Hadoop - Spark(1)

java scala 파이썬 프로그래밍 언어 이용 스크립트 작성 유연성 제공 복잡 데이터 조작 변형 분석. pig 기술 다른 점은 스파크 위에 또다른 생태계 존재하여 머신 러닝 데이터 마이닝 그래프 분석 데이터 스트리밍 복잡한 일 할 수 잇음.범용 클러스터 작업 분배해

2022년 5월 18일
·
0개의 댓글

Structured vs Unstructured Data

한 회사에서 면접을 보면서, 당황했던 질문 중 하나였다. 이전까지는 구조화된 데이터라 함은 구조가 잡힌 데이터인 줄 알고 넘어갔지만, 정확히 어떠한 의미로 구조화된 데이터인지 알지 못했다. 이미지 형식은 어떤 쪽에 속할까? JSON, XML은? RDB는?구조화된(Str

2022년 5월 16일
·
0개의 댓글

udemy Hadoop - Pig

이전 강의에서 Pig는 SQL Script 형식으로 작동하고, 데이터를 가공할 수 있다고 배웠던 기억이 있다. SQL Script 형식은 어떤 것이며, 데이터를 어떤 형태에서 어떤 형태로 가공할 수 있는 걸까?Pig는 MapReduce 위에서 작동하며, SQL Scri

2022년 5월 15일
·
0개의 댓글

udemy Hadoop - HDFS, MapReduce

udemy 강의 실습은 VM Virtual Machine을 사용하여, Hadoop 이미지(다양한 프로젝트가 미리 설치되어 있는)를 가져온다. 해당 이미지를 실행시키기 위해서는 8gb RAM이 필요한데, 내 노트북으로는 돌아가지 않는다... AWS 인스턴스를 만들어 직접

2022년 5월 13일
·
0개의 댓글

udemy Hadoop - Hadoop이란?

일단 큰 관심을 갖게 된 계기는 대부분 채용 우대 기술에 hadoop이 포함되어 있기 때문이다. Nota 인턴 전까지는 hadoop 이름만 들어봤을 뿐, 어떤 기술인지 알지는 못했다.Nota 인턴을 하면서 Elasticsearch 검색 기술 도입을 위해 ELK stac

2022년 5월 11일
·
0개의 댓글
post-thumbnail

Nota Intern - Elasticsearch & Kibana 도입기

배경 기존의 ITS 팀에서는 모든 데이터를 NAS와 GCP의 File System에 저장하고 있었습니다. 데이터 저장 경로와 파일 이름 형식이 데이터마다 달라 모델 학습에 필요한 데이터를 찾기도 힘들었고, 어떤 데이터가 얼마나 존재하는 지 파악하기 어려웠던 경험이 있

2022년 5월 6일
·
0개의 댓글
post-thumbnail

FaceNet을 이용한 이상형 학습 및 추천 알고리즘

최근 3주동안 지인들을 만날 때마다 제가 만든 서비스를 테스트 해보도록 했습니다.

2021년 9월 11일
·
0개의 댓글
post-thumbnail

JPEG 이미지 압축 방식은 CNN 모델에 어떠한 영향을 끼치는가?

이미지 데이터를 정리하면서 "어떻게 하면 효율적으로 데이터를 관리할 수 있을까" 생각하던 중, image format이 CNN 모델에 어떤 영향을 끼치는지 궁금해졌습니다. 그래서 자주 쓰이는 JPEG(jpg)와 PNG

2021년 9월 10일
·
0개의 댓글
post-thumbnail

AutoEncoder를 이용한 Image Feature Engineering, 그리고 Clustering

Colab 주소:https://colab.research.google.com/drive/1BxT6PimzrYCQNIIB1Ipcxhj9ORCUUlVF?usp=sharing또는 Github Link:https://github.com/xcellentbird

2021년 7월 27일
·
0개의 댓글
post-thumbnail

Django - 점프 투 장고 4단원을 마치고.

마지막 단원이다. 이번 단원에서는 아주 간단하게 AWS 클라우드에 서버를 올리는 것을 목표로 한다. 개인 프로젝트 계획에 없던 부분은 모두 건너뛰고 진행하였다프로그래머스 스터디에서 배운 것(EC2 인스턴스를 사용했었다)과는 다르게 LightSail 서비스를 이용하여 인

2021년 7월 26일
·
0개의 댓글
post-thumbnail

Django - 점프 투 장고 2단원을 마치고.

장고, 백엔드를 공부하게 된 계기를 상기할 겸, 다시 설명하자면, 후에 머신러닝 모델이나 데이터 처리는 대부분 백엔드에서 이루어진다. (스마트폰도 충분히 가능할 것 같은데... 아직까지 Edge 기기 머신 러닝 모델에 대한 미련을 놓지 못했다) 그리고 장고를 선택한 이

2021년 7월 22일
·
0개의 댓글

Database - RDBMS와 ORM

Django 서버를 배우면서 일단 ORM이 뭘까 궁금했다. 덩달아 나오는 키워드들 DB, SQL Mapper, JPA, DBMS, Hibernate, PostgreSQL, MySQL, MyBatis에 대해서도 공부할 필요가 있어보인다. 그리고 Spring은 어떤 방식으

2021년 7월 20일
·
0개의 댓글
post-thumbnail

Django - 점프 투 장고 02.2~4

Django는 SQL 대신 ORM(object relational mapping)기능을 사용하여 DB를 관리할 수 있다. (그렇다면 SQL(Query)과 ORM은 어떠한 차이점이 있으며, 어떤 환경, 프레임워크를 사용할까?)Django에서는 테이블을 생성하기 위해 mi

2021년 7월 19일
·
0개의 댓글
post-thumbnail

Review - 네이버웹툰 Data/ML Engineer 2차 과제 테스트

시험 보고 바로 쓰는 후기!저번주(7.10)에 2차 과제 테스트가 있었지만, 시스템 상 문제로 오늘(7.17) 2시에 다시 테스트를 보게 되었다.저번주에는 Pandas, Scikit-Learn을 이용한 Data Preprocessing, Modeling에서 과제가 출제

2021년 7월 17일
·
0개의 댓글
post-thumbnail

Dev Diary - 데이터 분석 시험공부

내일(7.15)은 마이다스 데이터 분석 직무 역량 평가 날이다. 어떤 게 문제로 나올까? 일단 오늘, 내일은 Django 공부를 쉬고, 데이터 분석 공부에 집중해야겠다. 네이버웹툰 과제 테스트를 참고해서 예상해보자면, 데이터 정제, 시각화, Feature Enginee

2021년 7월 14일
·
0개의 댓글