0. Intro 이전까지 Vision 관련 데이터 및 모델만 다뤄왔다. NLP에 대해서도 궁금한 점이 많이 있었지만, 공부해볼 기회가 따로 없었기에 미루고만 있었다. 그리고 얼마 전에 관심 있는 회사에서 NLP관련 과제 테스트를 요청했고, 드디어 NLP 공부할 기회가
대중 교통을 타거나 또는 오랜 시간 기다려야할 때, 시간이 아깝다는 생각을 많이 한다. 그래서 책을 사서 공부해보기로 하였다.어떤 책을 읽는 게 좋을까? 어느 회사 면접에서 '\~~데이터를 위한 파이프라인은 어떻게 설계해야할까요?' 라는 질문을 받았었다. 지금까지는 기
udemy hadoop 강의에서는 Virtual Machine에 Linux 이미지를 올려 실습한다. 여기에 필요한 건 8GB 이상의 RAM 이라는 점이다... 하지만 내 노트북은 딱 8GB짜리라 돌아가진 않고, Mac의 경우엔 M1을 지원하지 않는다.강의를 그냥 들어볼
이전 시간에 Spark에 대해서 알아보았고, Spark의 데이터 구조로 RDD, Dataframe, Dataset이 있다는 것을 배웠다. 각각은 어떤 형태로 되어 있으며 어떻게 조작하는 것일까?RDD의 의미 Resillient Distributed Data를 해석하자면
요새 지친다는 느낌을 많이 받는다. 생각이 많아지고, 자신감이 없어진다. 내가 가고 있는 길이 맞는 걸까? 회고 글을 쓰면서 생각을 정리하고 마음을 다시 잡아보자!지원하는 회사마다 떨어지면서 내가 가고 있는 방향이 잘못된 것 같다는 생각을 종종 한다. 그러면서 내가 공
java scala 파이썬 프로그래밍 언어 이용 스크립트 작성 유연성 제공 복잡 데이터 조작 변형 분석. pig 기술 다른 점은 스파크 위에 또다른 생태계 존재하여 머신 러닝 데이터 마이닝 그래프 분석 데이터 스트리밍 복잡한 일 할 수 잇음.범용 클러스터 작업 분배해
한 회사에서 면접을 보면서, 당황했던 질문 중 하나였다. 이전까지는 구조화된 데이터라 함은 구조가 잡힌 데이터인 줄 알고 넘어갔지만, 정확히 어떠한 의미로 구조화된 데이터인지 알지 못했다. 이미지 형식은 어떤 쪽에 속할까? JSON, XML은? RDB는?구조화된(Str
이전 강의에서 Pig는 SQL Script 형식으로 작동하고, 데이터를 가공할 수 있다고 배웠던 기억이 있다. SQL Script 형식은 어떤 것이며, 데이터를 어떤 형태에서 어떤 형태로 가공할 수 있는 걸까?Pig는 MapReduce 위에서 작동하며, SQL Scri
udemy 강의 실습은 VM Virtual Machine을 사용하여, Hadoop 이미지(다양한 프로젝트가 미리 설치되어 있는)를 가져온다. 해당 이미지를 실행시키기 위해서는 8gb RAM이 필요한데, 내 노트북으로는 돌아가지 않는다... AWS 인스턴스를 만들어 직접
일단 큰 관심을 갖게 된 계기는 대부분 채용 우대 기술에 hadoop이 포함되어 있기 때문이다. Nota 인턴 전까지는 hadoop 이름만 들어봤을 뿐, 어떤 기술인지 알지는 못했다.Nota 인턴을 하면서 Elasticsearch 검색 기술 도입을 위해 ELK stac
배경 기존의 ITS 팀에서는 모든 데이터를 NAS와 GCP의 File System에 저장하고 있었습니다. 데이터 저장 경로와 파일 이름 형식이 데이터마다 달라 모델 학습에 필요한 데이터를 찾기도 힘들었고, 어떤 데이터가 얼마나 존재하는 지 파악하기 어려웠던 경험이 있
이미지 데이터를 정리하면서 "어떻게 하면 효율적으로 데이터를 관리할 수 있을까" 생각하던 중, image format이 CNN 모델에 어떤 영향을 끼치는지 궁금해졌습니다. 그래서 자주 쓰이는 JPEG(jpg)와 PNG
Colab 주소:https://colab.research.google.com/drive/1BxT6PimzrYCQNIIB1Ipcxhj9ORCUUlVF?usp=sharing또는 Github Link:https://github.com/xcellentbird
마지막 단원이다. 이번 단원에서는 아주 간단하게 AWS 클라우드에 서버를 올리는 것을 목표로 한다. 개인 프로젝트 계획에 없던 부분은 모두 건너뛰고 진행하였다프로그래머스 스터디에서 배운 것(EC2 인스턴스를 사용했었다)과는 다르게 LightSail 서비스를 이용하여 인
장고, 백엔드를 공부하게 된 계기를 상기할 겸, 다시 설명하자면, 후에 머신러닝 모델이나 데이터 처리는 대부분 백엔드에서 이루어진다. (스마트폰도 충분히 가능할 것 같은데... 아직까지 Edge 기기 머신 러닝 모델에 대한 미련을 놓지 못했다) 그리고 장고를 선택한 이
Django 서버를 배우면서 일단 ORM이 뭘까 궁금했다. 덩달아 나오는 키워드들 DB, SQL Mapper, JPA, DBMS, Hibernate, PostgreSQL, MySQL, MyBatis에 대해서도 공부할 필요가 있어보인다. 그리고 Spring은 어떤 방식으
Django는 SQL 대신 ORM(object relational mapping)기능을 사용하여 DB를 관리할 수 있다. (그렇다면 SQL(Query)과 ORM은 어떠한 차이점이 있으며, 어떤 환경, 프레임워크를 사용할까?)Django에서는 테이블을 생성하기 위해 mi
시험 보고 바로 쓰는 후기!저번주(7.10)에 2차 과제 테스트가 있었지만, 시스템 상 문제로 오늘(7.17) 2시에 다시 테스트를 보게 되었다.저번주에는 Pandas, Scikit-Learn을 이용한 Data Preprocessing, Modeling에서 과제가 출제
내일(7.15)은 마이다스 데이터 분석 직무 역량 평가 날이다. 어떤 게 문제로 나올까? 일단 오늘, 내일은 Django 공부를 쉬고, 데이터 분석 공부에 집중해야겠다. 네이버웹툰 과제 테스트를 참고해서 예상해보자면, 데이터 정제, 시각화, Feature Enginee