태그 목록
전체보기 (69)악성 PDF파일(3)grid search(3)clustering(2)super(2)lambda(2)git(2)kaggle(2)plot(2)One-Hot Encoding(2)SHAP(2)Random Forest(1)seaborn(1)gan(1)시각화(1)fasttext(1)apply(1)Video Game Sales(1)모수검정(1)ci(1)정규표현식(1)underscore(1)recall(1)heroku(1)GPT(1)assert(1)flask 데이터베이스(1)파라미터 튜닝(1)벡터내적(1)sql(1)버블정렬(1)API(1)ORM(1)Object Detection(1)Adaboost(1)confusion matrix(1)OOP(1)ADT(1)http(1)비모수검정(1)콤마제거(1)악성 PDF file(1)Chisquare test(1)word2vec(1)행렬식(1)컴프리헨션(1)접근제어(1)메모이제이션(1)imbalance class(1)linear_regression(1)overfitting(1)project(1)try(1)Constraint(1)metric(1)빅오(1)AutoEncoder(1)Imputer(1)RANK(1)transfer learning(1)scraping(1)initialize(1)up-sampling(1)트리(1)wsgi(1)데코레이터(1)파이썬 내장함수(1)Regression(1)가상환경(1)feature selection(1)precision(1)python(1)LSTM(1)bayes(1)CLT(1)정적 메소드(1)분할정복(1)Cramer's rule(1)dropout(1)Optimal threshold(1)weight decay(1)target encoder(1)magic method(1)feature importance(1)span(1)transformer(1)PCA(1)시각화 보충(1)Cardiovascular Disease dataset(1)correlation(1)conda(1)validation data(1)projection vector(1)cli(1)model selection(1)docker(1)Label encoder(1)cross table(1)Partial Dependence Plot(1)randomized search(1)Optimizer(1)Decision Trees(1)bootstrap(1)어플리케이션 구조(1)BERT(1)XGBoost(1)sorting(1)Feature Engineering(1)Attention(1)wrangling(1)T-test(1)except(1)Classification(1)결측치 처리(1)Simple(1)elbow방법(1)데이터베이스(1)ANN(1)searching(1)sqlite(1)리눅스 기본 명령어(1)getter setter(1)encoding(1)불균형 데이터 처리(1)Ridge(1)퀵정렬(1)Eigenvalue(1)machine learning(1)LightGBM(1)cross validation(1)log(1)캐글(1)Multiple(1)forelse(1)covariance(1)Logistic Regression(1)h1n1 vaccination classification(1)Markdown(1)재귀(1)스택(1)삽입정렬(1)getter(1)setter(1)hypothesis test(1)gunicorn(1)f-beta(1)실루엣(1)image segmentation(1)크롤링(1)객체지향(1)Flask(1)역행렬(1)RNN(1)Pandas tric(1)EDA(1)Data augmentation(1)model evaluate(1)Map(1)CNN(1)TF-IDF(1)(1)프로그래밍 스탠다드(1)병합정렬(1)early stopping(1)linear(1)docker compose(1)BOW(1)

Detection of malicious PDF files and directions for enhancements: A state-of-the art survey 요약 및 정리

생략생략PDF 파일에 악성 JavaScript code를 난독화하여 공격하는 경우가 많음.Embedded : 하드웨어나 소프트웨어가 다른 하드웨어, 소프트웨어의 일부로 내재되어있는 것.static analysis파일 또는 어플리케이션을 실행시키지않고 단지 코드만으로 조

3일 전
·
0개의 댓글

Data Mining Based Strategy for Detecting Malicious PDF Files 요약 및 정리

Extracted Features15개의 specific keyword의 등장 빈도3개의 data description featureentropy in stream object(stream은 binary 형태로 저장되는데 그에 대한 entropy를 의미하는 것 같음)e

3일 전
·
0개의 댓글

Hidost: a static machine-learning-based detector of malicious files 요약 및 정리

PDF를 중심으로 요약 및 정리해보았다.머신러닝을 이용한 정적 malware detection system인 Hidost를 소개한다. Hidost는 이전에 존재했던 연구들을 확장시켜 logical structure 파일인PDF, SWF에서 효과적으로 동작하게 설계되었다

3일 전
·
0개의 댓글

Detection of Malicious PDF based on Document Structure Features and Stream Objects 요약 및 정리

이전에는 이메일에 실행 파일 포맷인 PE(portable executable) 파일을 첨부하였으나, 최근에는 문서 파일의 취약점을 이용하여 문서형 악성코드를 유포하고 있다. 문서형 악성코드는 실행 파일 자체가 아니기 때문에 기존 보안 프로그램을 우회하기 쉬운 특징을 이

3일 전
·
0개의 댓글

7/20 분할정복을 이용한 알고리즘

복잡하거나 큰 문제를 여러 개로 나눠서 푸는 방법재귀와의 차이재취호출은 같은 함수코드를 재호출하는 것분할정복은 비슷한 작업을 재진행하는 것퀵정렬피봇을 정한다.피봇을 기준으로 작은 것들은 왼쪽으로, 큰 것들은 오른쪽으로 배치한다.피봇의 위치는 정해지고 왼쪽 오른쪽으로 분

2021년 8월 1일
·
0개의 댓글

7/19 알고리즘 기초

파이썬에서의 swap선형 검색한 번에 하나씩 모두 검색하는 방법시간 복잡도 : O(n)이진 검색반복을 통해 숫자를 반으로 줄이면서 검색이미 정렬된 경우에만 작동시간 복잡도 : O(log n)selection sort(선택정렬)가장 작은 노드를 선택가장 왼쪽에 있는 노드

2021년 8월 1일
·
0개의 댓글

7/16 재귀, 트리

재귀는 말 그대로 재호출 로직을 의미한다.특징스택의 개념이 적용되며, 후입선출 방식으로 실해왼다.단점 : 메모리를 더 많이 사용한다.장점 : 수학적으로 개념이 복잡한 경우에 하위 문제를 구성하여 쉽게 해결가능.조건base case가 있어야한다.추가 조건과 기본 케이스의

2021년 8월 1일
·
0개의 댓글

7/15 자료구조 기초

대용량의 다양한 데이터를 효율적으로 처리 및 저장하기 위해 자료구조라는 개념이 개발되었다.효율적 처리란?자동화빠른 계산여러개의 값을 한 번에 처리값의 변경특정 변수에 대한 처리특정 값을 다양한 형태로 보기를 원하는 경우조건에 따른 처리숫자, 문자열배열각각의 변수를 하나

2021년 8월 1일
·
0개의 댓글

7/13 python and OOP

img사진 출처 : https://umar-yusuf.blogspot.com/2016/05/an-introduction-to-object-oriented-programming-in-python6.html?m=1클래스 생성자에 있는 private변수에 접근하기위

2021년 7월 13일
·
0개의 댓글

7/12 python with OOP

반복되는 것만 함수로 만들기null값을 반환하는 일이 있다면 함수 이름에 orNULL 넣어주기OOP(객체지향프로그래밍 )객체끼리의 상호작용이 일어나는것최소비용으로 최대효율을 얻기위해 개발된 페러다임절차지향과 다르게 기능을 독립적으로 사용가능용어 정리Object(객체)

2021년 7월 12일
·
0개의 댓글

7/09 파이썬 프로그래밍

for ~ else문은 “for문에서 break가 발생하지 않았을 경우”의 동작을 else문에 적어주는 것assert '조건', '에러메시지' : 조건이 맞지 않는 경우, 에러메시지(Assertion Error)를 띄워준다.컴프리헨션전역변수 : 모든 부분에서 정의glo

2021년 7월 12일
·
0개의 댓글

7/08 정규표현식, 파이썬 내장함수

메타문자원래 그 문자가 가진 뜻이 아닌 특별한 용도로 사용하는 문자\[] : 문자 클래스, \[] 사이의 각 문자들과 매치0-9 : 숫자모두^0-9 : ^는 \[]안에 들어가면 not이라는 의미를 가짐\\d : 숫자와 매치\\D : 숫자 아닌 것과 매치\\s : whi

2021년 7월 8일
·
0개의 댓글

6/25 GAN

특정 이미지를 모방하여 생성하는 generator, 생성된 이미지가 원본인지를 판별하는 discriminator로 구성되어있다. generator는 자신이 생성한 이미지를 discriminator가 원본으로 인식하도록 하기위해 이미지 생성에 대한 학습을 진행하고 dis

2021년 7월 7일
·
0개의 댓글

6/24 Auto-encoder

인코더, Latent representation, 디코더를 갖는 형태이며 인코더에 데이터가 입력되면 Latent representation에 특징들이 추출되고 디코더에서 Latent representation이 잘 추출되었는지 확인하는 과정을 거친다.입력데이터 자체를

2021년 6월 25일
·
0개의 댓글

6/23 CNN 응용

원본의 sparse한 데이터를 만드는 것unpoolingNearest Neighbor : 데이터를 그대로 늘려서, 빈 구역에 채워넣는 것Bed of Nails : 빈 구역을 0으로 채워넣는 방법MaxUnpooling : 어느 position이 pool된 것인지를 알아두

2021년 6월 23일
·
0개의 댓글

6/22 CNN

고양이의 시각 피질의 수용영역에서 영감을 받음convolution layer와 pooling layer의 조합으로 이루어져있다.convolution : 주어진 데이터에 filter를 통해 곱과 덧셈의 연산을 계산하여 데이터의 feature를 추출해내는 방식filter

2021년 6월 23일
·
0개의 댓글

6/18 Transformer, BERT, GPT

attention 메커니즘을 극대화하여 기존의 RNN구조를 사용하지않고 attention만으로 인코더 디코더를 형성하여 기계번역을 시행한다.장점 : RNN 기반 모델이 가진 구조적 단점은 단어가 순서대로 들어온다는 점이다. 트랜스포머는 이런 문제를 해결하여 많은 양의

2021년 6월 19일
·
0개의 댓글

6/17 RNN, LSTM, Attention

이전까지 학습했던 Word2Vec, fastText같은 경우는 단어 및 문장을 임베딩했다면 이제 임베딩한 text들을 여러가지 모델들을 통해 사용해보자.언어 모델 : 문장과 같은 단어 시퀀스에서 각 단어의 확률을 계산하는 모델, Word2Vec도 여기에 해당함Word2

2021년 6월 18일
·
0개의 댓글

6/16 Distributed Representation

단어를 고정 길이의 벡터, 즉 차원이 일정한 벡터로 나타내는 것을 의미함.임베딩 방법으로 count based representation, distributed representation 등이 있다.벡터로 표현하고자 하는 타켓 단어가 해당 단어 주변 단어에 의해 결정되

2021년 6월 16일
·
0개의 댓글

6/15 NLP(Count-Based-Representation)

<용어정리>토큰 : 단어, 형태소corpus(말뭉치) : 특정한 목적을 가지고 수집한 텍스트 데이터문장(Sentence) : 여러 개의 토큰으로 구성된 문자열. 기호로 구분문서(Document) : 문장들의 집합벡터화(vectorize) : 자연어를 컴퓨터가 이해

2021년 6월 15일
·
0개의 댓글