# 빅데이터

61개의 포스트
post-thumbnail

0730 빅데이터 취업 특강

지난주부터 부산에도 코로나 단계가 올라가서 집에서 원격으로 수업을 듣고 있었는데, 특강은 오프라인으로 교실을 나눠서 진행을 한다고하여 시간 맞춰서 교육원에 도착했다. 비전공자로서 한달 정도 수업을 들으면서 생각이 많았다. 무엇보다 진로에 대한 고민과 미래에 대한 막연함

5일 전
·
0개의 댓글
post-thumbnail

[Spark] colab에서 스파크 세션 열기

pyspark,py4j를 설치해줌설치 후 로컬스토리지 확인하면 샘플데이터가 설치됨기본적으로 깔리는 csv 들이 있음마스터에 local\[\*]은 코어를 얼마나 사용할지 설정\* 표시를 두면 전부를 사용하는 것, 숫자를 지정하면 숫자만큼의 코어를 사용하겠다는 설정앱네임을

2021년 7월 20일
·
0개의 댓글
post-thumbnail

[Spark] 데이터프레임, 데이터셋, RDD

Spark 세션을 만드는 것이 Spark 프로그램의 시작appName을 통해 세션의 이름을 정하고.config를 통해 세션에 적용할 세부적인 옵션을 다룸.getOrCreate() 는 appName을 보고 기존에 같은 내용이 있으면 get 하고 없으면 create해줌로우

2021년 7월 20일
·
0개의 댓글
post-thumbnail

[Spark] Spark?

Spark는 기본적으로 메모리 기반메모리가 부족해지면 디스크사용분산 컴퓨터 환경 지원배치 프로그래밍, 스트리밍 프로그래밍, SQL, 머신 러닝, 그래프 분석 등의 서비스 지원드라이버 프로그램의 존재클러스터 매니저를 통해 데이터를 워크노드에 분산시켜줌RDD(Resilie

2021년 7월 20일
·
0개의 댓글
post-thumbnail

데이터 분석 절차

데이터 분석 절차이다

2021년 7월 13일
·
0개의 댓글
post-thumbnail

데이터 파이프라인 구축 - 이론

데이터 파이프라인이란? 한마디로 언제든지 필요한 데이터를 가져와 꺼내 쓸 수 있도록 데이터를 계속 쌓아두는 파이프를 만드는 것이라고 보면된다. 데이터 파이프라인 사용 예시 파이프를 한 번 만들고 나면(배수관 파이프를 생각해보자, 여기서 데이터는 배수관 안으로 흐르는

2021년 6월 22일
·
0개의 댓글
post-thumbnail

[BigData] 로지스틱회귀 모델📊

빅데이터 분석 로지스틱회귀 모델 삽질 정리.

2021년 6월 8일
·
0개의 댓글
post-thumbnail

[BigData] 선형회귀 모델📊

빅데이터 분석 선형회귀 모델 삽질 정리.

2021년 6월 8일
·
0개의 댓글
post-thumbnail

[BigData] 데이터 분석 공부 자료

python, R 데이터 분석 공부 자료 정리

2021년 6월 5일
·
0개의 댓글
post-thumbnail

포스코 청년 AI•Big data 아카데미 13기 합격 후기 [서류/면접/지원팁]

포스코 청년 AI•Big Data 아카데미 13기 합격자가 전하는 서류 및 면접 꿀팁! 15기 또는 하반기 지원을 노리고 있으신 분들은 모두 주목하세요 👀

2021년 5월 18일
·
0개의 댓글
post-thumbnail

이상 탐지

본 내용은 데이콘 스터디에서 배운 내용을 토대로 정리한 것입니다. 이상 값은 '정상'이 아닌 값으로, '정상'에 대한 정의는 적용 분야 및 문제마다 다르게 정의될 수 있다. 이상 값은 Anomalies, Outliers, Novelties, Noise, Deviatio

2021년 5월 16일
·
0개의 댓글
post-thumbnail

초보 데이터 사이언티스트를 위한 3권의 추천 책

http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9791162241479&orderClick=LAG&Kc=http://www.kyobobook.co.kr

2021년 5월 12일
·
0개의 댓글

데이터 구할 수 있는 곳

국내AI 팩토리 : http://aifactory.space​공공데이터포털 : https://www.data.go.kr/datasetsearch​AI허브 : http://www.aihub.or.kr​데이콘 : https://dacon

2021년 5월 11일
·
0개의 댓글
post-thumbnail

00 졸업하기전에 바리바리 싸갈 것

암튼 한다고요

2021년 5월 10일
·
0개의 댓글

빅데이터 응용 보안 - 2주차 (1) Arena 설치, email security gateway 구현

1. Arena 설치 > Arena Simulation : 프로그래밍 모델을 디자인하기 위한 툴 Arena를 설치해야 되는디 https://www.arenasimulation.com/ 여기서 다운받으면 된다. 고....하는데 다운이 안된다 ㅋㅋㅋㅋㅋ 64-bit

2021년 4월 24일
·
0개의 댓글
post-thumbnail

빅데이터 응용 보안 - 1주차 (5) R설치 및 FailedRequestsByDay 차트 출력

0. (4)에 이어서.. ​ 마지막으로 select 했던 데이터를 저장합시다.. 근데 여기서 주의할 점! txt 파일 형태로 정상적으로 열려면 요놈을 추가해 줘야한다.. 요놈참고 ​ 저기서 000000_0 을 notepad로 열어보면 ​ 짜자잔~ 1. R을

2021년 4월 24일
·
0개의 댓글
post-thumbnail

빅데이터 응용 보안 - 1주차 (4) Time Aggregation

1. Time Aggregation 요런 형식의 time field를 가지고 데이터들을 분석해보자. 우선 parsing 작업을 위해 전에서 배운 substr과 concat이라는 문자열 연결 함수 c언어에서 다 해봤다구욧! 를 사용하게 된다. 전 처럼 view를 만드

2021년 4월 17일
·
0개의 댓글
post-thumbnail

빅데이터 응용 보안 - 1주차 (3) xss request ,failed request 데이터 수집

저번 내용과 유사한 내용인데 오늘은 좀 더 이론적인 이야기도 해보자. 1. Cross-site Request Forgery 정상적인 사용자가 시스템 or 서버에 접근해서 사용 중 -> 공격자가 phsing을 통해서 공격 javascript alert에 관한 키워드

2021년 4월 15일
·
0개의 댓글
post-thumbnail

Improving Language Understanding by Generative Pre-Training(GPT1) 논문 리뷰

대부분의 딥러닝 모델은 labeled된 데이터를 바탕으로 지도학습을 하는데, 이는 레이블이 지정되지 않은 데이터(unlabeled data)보다 훨씬 적은 수이기 때문에 unlabeled data의 언어 정보를 활용한다면 훈련에 필요한 시간과 비용을 절약할 수 있다.

2021년 4월 13일
·
0개의 댓글
post-thumbnail

Attention Is All You Need(Transformer) 논문 리뷰

Transformer 논문 : https://arxiv.org/abs/1706.03762RNN, LSTM, Gated RNN이 sequence modeling에서 많이 사용됨.(1) Recurrent modelsymbol position에 따라서 계산token

2021년 4월 7일
·
0개의 댓글