# Data Analytics

22개의 포스트

[python / Pandas ] 데이터프레임(DataFrame)(0)

판다스(pandas)는 파이썬(python)을 이용한 데이터 분석 및 처리 작업에 필수 오픈소스 라이브러리입니다. 판다스(pandas)는 파이썬으로 실제 데이터 처리를 수행할 때 자주 언급됩니다. 파이썬을 이용하는 데이터 분석 작업에서 필수 라이브러리로 알려져 있습니다. [About pandas] (https://pandas.pydata.org/about/) ★ python with pandas ★ 파이썬으로 데이터 처리를 할 때 판다스 라이브러리를 사용하는 곳은 주로 금융, 신경과학, 경제학, 통계, 광고, 웹 분석 등의 학문과 상업영역입니다. 보통, 세미콜론(,)으로 데이터목록이 구분되어있는 CSV(Comma Separated Values)파일, Microsoft Excel, 일반 Text 파일 등 여러 포맷의 원천데이터를 불러오고, 그와 같은 형태의 새로운 데이터를 생성할 수 있습니다.

2023년 1월 7일
·
0개의 댓글
·
post-thumbnail

[python / Pandas ] 데이터프레임(DataFrame)(1)

파이썬으로 데이터를 처리할 때 사용하는 판다스(pandas)가 데이터 구조를 표현하는 클래스 객체인 데이터프레임(Dataframe)에 관한 내용입니다. 주요한 어트리뷰트(Attribute) 및 메소드(Method) 중 자주쓰는 몇 가지만 정리해보겠습니다. 어트리뷰트(Attributes) | 속성명 | 설명 | |:------:|:---------| |at|Access a single value for a row/column label pair.| |attrs|Dictionary of global attributes of this dataset.| |axes|Return a list representing the axes of the DataFrame.| |columns|The column labels of the DataFrame.| |dtypes|Return the dtypes in the DataFrame.| |empty|In

2023년 1월 7일
·
0개의 댓글
·
post-thumbnail

Label Classification 데이터 분석 베이스라인( RandomForest, EDA, VIZ, Standard Scaler)

이번 포스팅은 데이터 분석 중 Label 값을 Classification 할 수 있는 데이터 분석 코드를 통해서 알아보겠습니다. 해당 Baseline 코드는 데이콘의 와인 품질 데이터를 통해서 작성되었습니다. 데이터 전처리 LIBRARY 데이터 로드 index 구분자 quality 품질 fixed acidity 산도 volatile acidity 휘발성산 citric acid 시트르산 residual sugar 잔당 : 발효 후 와인 속에 남아있는 당분 chlorides 염화물 free sulfur dioxide 독립 이산화황 total sulfur dioxide 총 이산화황 density 밀도 pH 수소이온농도 sulphates 황산염 alcohol 도수 type 종류 데이터 크기 확인 pandas_profiling을 통한 데이터 시각화(pip로 설치 필요) **EDA &

2022년 10월 27일
·
0개의 댓글
·
post-thumbnail

[IBM data analyst]-Introduction to Data Analytics

Modern data ecosystem Forbes 2020 향후 10년간 데이터에 대한 보고서를 인용 > 데이터 처리 속도와 대역폭의 지속적인 증가, 데이터 생성, 공유 및 소비를 위한 새로운 도구의 끊임없는 발명, 새로운 데이터 생성자와 소비자의 꾸준한 추가 데이터가 계속해서 증가함 데이터가 나오는 곳 > 데이터는 텍스트, 이미지, 비디오, 클릭 스트림, 사용자 대화, 소셜 미디어 플랫폼, 사물 인터넷 또는 IoT 장치, 데이터를 스트리밍하는 실시간 이벤트, 레거시 데이터베이스 및 전문 데이터 제공업체 및 기관에서 제공한 데이터등등 여러가지 원천이 있음 데이터 작업할때 첫번째로 해야하는 일은 원본 소스의 데이터를 복사해 이터 리포지토리로 가져오는 것 > 1. 최종 사용자가 액세스할 수 있도록 구성, 정리 및 최적화 > 2. 조직에서 시행하는 규정 준수 및 표준을 준수 > 3. IoT 장치의 경우 건강, 생체 인식 또는 가정 데이터와 같은 개인 데이

2022년 7월 17일
·
0개의 댓글
·
post-thumbnail

[Project] Natural Language Processing with Disaster Tweets - Kaggle

| 머리말 | 전공과목인 데이터마이닝 수업의 2달 여정의 프로젝트로 저는 LSTM을 이용한 재난관련 트윗 분류문제를 선정했습니다. 지난 학기에는 타이타닉 분류예측 문제를 했었는데 교수님께서 이번에는 LSTM을 이용한 문제를 다뤄보라고 하셔서 캐글에서 가져온 문제입니다. 타이타닉 같은 숫자값으로 이루어진 데이터가 아닌 자연어를 처리하는 이진분류를 해보려고 합니다. 문제 정의 주어진 트윗(tweet) 데이터를 분석하여 재난(disaster)에 관련된 트윗인지 아닌지의 여부를 분석하는 문제입니다. 목표 이번 과제를 통해 자연어를 전처리하는 방법을 연습하고 keras에서 LSTM을 사용한 모델을 만들어보려고 합니다. 또 keras layer를 구축할 때 Embedding도 함께 사용해보겠습니다. L

2022년 3월 26일
·
0개의 댓글
·

Python | 데이터 분석 도구

데이터 분석을 위해 python을 쓰는 여러 장점 중, 다양한 라이브러리의 지원 이 큰 부분을 차지한다고 생각한다. 데이터 조작 도구 라이브러리와 데이터 시각화 도구를 살펴보자. 1. 데이터 조작 Numpy - 입출력 자료 구조 Pandas - 입력 데이터를 만드는 과정, 데이터 시각화 과정 1-1. Numpy Numpy = numerical python 파이썬 내장 리스트보다 데이터 저장 및 처리에 있어 효율적인 Numpy 배열 제공 선형대수와 관련된 기능 제공 Python을 기반으로 한 데이터 과학 도구의 핵심 패키지 데이터 사이언스 영역 대부분의 도구는 Numpy기반이라해도 과언이 아니다. 1-2. Pandas Numpy를 기반으로 개발된 패키지 유연한 인덱스를 가진 1차원 배열 구조의 Series객체와 유연한 행 인덱스와 열 이름을 가진 2차원 개열 구조의 DataFrame객체를 제공 -

2022년 3월 12일
·
0개의 댓글
·
post-thumbnail

PCA 차원축소를 하는 이유?

PCA 주성분 분석은 차원축소의 방법 중 하나이다. 먼저, PCA를 하는 이유를 살펴보자. 시각화 (Visualization) 3차원이 넘어간 시각화는 우리 눈으로 볼 수 없으므로 차원 축소를 통해 시각화를 해야 한다. 시각화는 데이터를 한눈에 볼 수 있게끔 해주므로 필요하다. 노이즈 제거 (Reduce Noise) 쓸모없는 feature를 제거함으로써 노이즈를 제거할 수 있다. 메모리 절약 (Preserve useful info in low memory) 쓸모없는 feature를 제거하면 메모리가 절약된다. 퍼포먼스 향상 불필요한 feature들을 제거해 모델 성능 향상에 기여한다. 주성분 분석에 대한 이해를 돕는 이미지이다. 정보의 유실을 막으면서 차원을 줄

2022년 2월 23일
·
0개의 댓글
·

Why is Big Data Analytics important?

The Big Data industry is the most flourishing industry which helps organizations to handle large amounts of data. It involves both qualitative and quantitative techniques to enhance profits and productivity. This tool is mainly used by researchers, engineers and analysts to access the data efficiently. Enroll in Data Analytics courses in Chennai to explore more. Big Data challenges include data transfer, data storage, visualizatio

2021년 3월 9일
·
4개의 댓글
·
post-thumbnail

HackerRank > Symmetric Pairs

Practice > SQL > Advanced Join > Symmetric Pairs Problem > Two pairs (X1, Y1) and (X2, Y2) are said to be symmetric pairs if X1 = Y2 and X2 = Y1. Write a query to output all such symmetric pairs in ascending order by the value of X. List the rows such that X1 ≤ Y1. 문제링크 Answer 1. UNION을 이용한 풀이 2. HAVING절에서 모든 조건을 입력한 풀이

2020년 9월 13일
·
0개의 댓글
·
post-thumbnail

LeetCode > 197. Rising Temperature

197. Rising Temperature Problem > Write an SQL query to find all dates' id with higher temperature compared to its previous dates (yesterday). Return the result table in any order. The query result format is in the following example: 문제링크 Answer

2020년 9월 13일
·
0개의 댓글
·
post-thumbnail

LeetCode > 181. Employees Earning More Than Their Managers

181. Employees Earning More Than Their Managers Problem > The Employee table holds all employees including their managers. Every employee has an Id, and there is also a column for the manager Id. Given the Employee table, write a SQL query that finds out employees who earn more than their managers. For the above table, Joe is the only employee who earns more than his manager. 문제링크 Answer

2020년 9월 13일
·
1개의 댓글
·
post-thumbnail

LeetCode > 183. Customers Who Never Order

183. Customers Who Never Order Problem > Suppose that a website contains two tables, the Customers table and the Orders table. Write a SQL query to find all customers who never order anything. 문제링크 Answer

2020년 9월 13일
·
0개의 댓글
·
post-thumbnail

HackerRank > Average Population of Each Continent

Practice > SQL > Basic Join > Average Population of Each Continent Problem > Given the CITY and COUNTRY tables, query the names of all the continents (COUNTRY.Continent) and their respective average city populations (CITY.Population) rounded down to the nearest integer. Note: CITY.CountryCode and COUNTRY.Code are matching key columns. 문제링크 Answer

2020년 9월 13일
·
0개의 댓글
·
post-thumbnail

HackerRank > Asian Population

Practice > SQL > Basic Join > Asian Population Problem > Given the CITY and COUNTRY tables, query the sum of the populations of all cities where the CONTINENT is 'Asia'. Note: CITY.CountryCode and COUNTRY.Code are matching key columns. 문제링크 Answer

2020년 9월 13일
·
0개의 댓글
·
post-thumbnail

HackerRank > African Cities

Practice > SQL > Basic Join > African Cities Problem > Given the CITY and COUNTRY tables, query the names of all cities where the CONTINENT is 'Africa'. Note: CITY.CountryCode and COUNTRY.Code are matching key columns. 문제링크 Answer

2020년 9월 13일
·
0개의 댓글
·
post-thumbnail

LeetCode > 1179. Reformat Department Table

1179. Reformat Department Table Problem > Write an SQL query to reformat the table such that there is a department id column and a revenue column for each month. 문제링크 Answer

2020년 9월 13일
·
0개의 댓글
·
post-thumbnail

HackerRank > Type of Triangle

Practice > SQL > Advanced Select > Type of Triangle Problem > Write a query identifying the type of each record in the TRIANGLES table using its three side lengths. Output one of the following statements for each record in the table: Equilateral: It's a triangle with sides of equal length. Isosceles: It's a triangle with sides of equal length. Scalene: It's a triangle with sides of differing lengths. Not A Triangle: The given values of A, B, and C don't form a triangle.[문제링크](https://ww

2020년 9월 9일
·
0개의 댓글
·
post-thumbnail

LeetCode > 177. Nth Highest Salary

177. Nth Highest Salary Problem > Write a SQL query to get the nth highest salary from the Employee table. For example, given the above Employee table, the nth highest salary where n = 2 is 200. If there is no nth highest salary, then the query should return null. 문제링크 Answer 1. CASE와 사용자 정의 함수 활용한 문제풀이 2. IF문을 활용한 문제풀이 3. LIMIT를 활용한 문제풀이 (1) A라는 변수를 DECLARE해서 푸는 방법 (2) DECLARE에서 A라는 변수를 만들지 않고 그냥 N으로

2020년 9월 8일
·
0개의 댓글
·
post-thumbnail

HackerRank > Weather Observation Station 9

Practice > SQL > Basic Select > Weather Observation > Station 9 세번째 정규표현식 문제입니다. Problem > Query the list of CITY names from STATION that do not start with vowels. Your result cannot contain duplicates. 문제링크 Answer

2020년 9월 8일
·
0개의 댓글
·
post-thumbnail

HackerRank > Weather Observation Station 7

Practice > SQL > Basic Select > Weather Observation Station 7 첫번째 정규표현식 문제입니다. Problem > Query the list of CITY names ending with vowels (a, e, i, o, u) from STATION. Your result cannot contain duplicates. 문제링크 Answer

2020년 9월 8일
·
0개의 댓글
·