📌 colab을 이용한 데이터 분석




1. 변수와 문자열

▶️▶️ 변수 - 숫자시작, 예약어와 동일한 단어사용, '_'를 제외한 특수문자 사용 X
(ex. 1dog, for, *dog)

( + 대소문자구분하긴하나 소문자를 주로 쓴다.)

▶️▶️ 문자열(string) - '+'로 문자열 연결, 한 줄 이상 여러 줄로 된 문자를 사용하려면 Multiline String -> (''') 사용


2. 리스트

: 여러 값을 함께 모을 수 있는 자료형 대괄호([]), 콤마(,) 사용

<예시>

train = [1,2,3,4,5]


✅ list의 특정 데이터만 추출 -> indexing

세번째 데이터만 추출-> 출력하고 싶으면?

print(train[2])

✅ list의 특정 범위의 데이터만 추출 (list 슬라이싱)
❗인덱스 -> [위치:번째]❗

특정 위치에 연속적인 데이터 가져오기
(1,2,3 데이터만 추출❗)

print(train[0:3])  

✅ list에 데이터를 추가 -> list에서 제공하는 append() 함수 이용


<예시>

week = ["월", "화", "수", "목", "금"]
print(week)
  
# 토, 일을 추가
week.append("토")
week.append("일")
  
print(week)

3. 딕셔너리

▶️▶️Dictionary(사전) - 키와 값으로 구성되어 있는 자료형. 중괄호({key : value})로 구성


<예시>

student 변수를 선언해서 학생정보를 딕셔너리로 저장하고 출력하기

student = {"이름" : "김정민", "학과" : "빅데이터학과", "학년" : "휴학", "학번" : "20190177"}
student

✅데이터 가져오기

print(student["이름"])


✅데이터 추가하기

student["취미"] = "드라마"

4. 실전! 기온데이터 분석

✏️ 데이터 분석은 떠오르는 질문을 구체적으로 상세하게 잘 정리해야함!


✅ 기온 관측 이래 서울의 최고 기온이 가장 높았던 날은?

  import csv


# 1) 데이터를 읽어온다.
f = open('/content/seoul.csv', 'r', encoding = 'cp949')
data = csv.reader(f)  # delimiter=',' -> 콤마인 경우에는 생략 가능
header = next(data)

max_temp = -999 # 최고 기온 값을 저장할 변수 -> 정확한 값을 위해 극단적인 값 지정
max_date = ''   # 최고 기온이 가장 높았던 날짜를 저장할 변수

# 2) 순차적으로 최고 기온을 확인한다.(+ 날짜 출력까지)
for row in data:
  # 2-1) 결측치 데이터 처리
  if row[-1] == '':
    row[-1] = - 999      # 명확한 결과를 위해 극단적인 값으로 초기화(절대 나오지 않을 값!)
  row[-1] = float(row[-1])  # 최고 기온 출력 -> 실수형으로 출력 -> 결측치로 인한 오류발생 -> ?

# 3) 최고 기온이 가장 높았던 날짜의 데이터를 저장한다.
  if max_temp < (row[-1]):
   max_temp = (row[-1])
   max_date = row[0]

f.close()

# 4) 최종 저장된 데이터를 출력한다.
print("기상 관측 이래 서울의 최고 기온이 가장 높았던 날은", max_temp, "도로", max_date, "였습니다.")

위의 코드를 활용하여 최저 기온 가장 낮은 날도, 평균 기온이 가장 높은 날도 구해보았다.
전공에서 파이썬을 배웠을 때나 교필로 파이썬을 배웠을 때 모두 리스트를 파일로 불러오는 것을 배웠는데 전공 때는 Pandas로 하는 거만 좀 제대로 배웠던 것 같고(아닐수도 ...) 교양수업은 그때 한 과제를 봐보니까 진짜 리터럴리 한땀..한땀 리스트를 한줄 한줄 불러왔었더라.. 보자마자 저게 뭐임?하면서 걍 창 끔


이거는 광주의 최고기온이 가장 높았던 날!
고향이 광주이기 때문에 2018년도까지는 광주에서 살아서 광주 최고기온을 한번 구해보았다.
엄마가 매년 여름마다 1994년이 제일 더웠다고 했는데 서울에서는 1994년이 안나오길래 2018년이 더 더웠구나 .. 했는데 광주는 최고기온이 1994년 7월 19일로 나왔다.

1개의 댓글

comment-user-thumbnail
2022년 8월 16일

수업시간에 광주도 해봤다고 얘기 헤 주지.. 아쉽다 아쉬워. 어머니의 기억은 데이터 분석과 같이 정확했다는 것을 알 수 있는 시간 이었네요. 1994년 더위는 응답하라 1994 드라마에서도 에피소드로 나왔었죠 ^_&

답글 달기