Hackathon1

매일 공부(ML)·2021년 10월 24일
0

Hackathon

목록 보기
1/16

Code:링크텍스트

Brainstorming: 링크텍스트

Script: 링크텍스트

PPT: 링크텍스트

Preview

  • 시작: 해커톤이라는 것을 처음 들은 저에게는 너무나 막연했던 것 같습니다. 처음 본 팀원과 난해한 데이터셋 그리고 결과물을 낼 수 있을까하는 정말로 어둠속에 있었습니다.

  • 중간: 팀원들과 협업적인 소통을 통해서 어떤 방식으로 데이터를 이용하고 분석할지에 대해서 정리하고 선택과 집중의 포인트를 잡았습니다.

  • 결론: 저희는 시계열데이터를 활용보단 데이터 분석에 초점을 두었습니다.

Hackton1

Dataset

  • 데이터 형성 목적: 타깃 마케팅 전략을 구축하기 위해서이다.

  • 데이터

    i) age: 나이별 숫자

    ii) gender: 성별 및 승무원 숫자

    iii) purpose : 목적별 숫자

    iv) growth: 작년과 비교하여 성장률

    v) share: 월별 방한 외국인 비율 측정한다. 특정 국가 방문객 수 / 전체 국가 방문객 수

How to analyze these Data

  1. 상위 5개국 선택

    How: 총 방문객 수를 나열.

    Why: 효율적인 마케팅 전략 구축(60개국 중에 70% 방문객 수 차지)

  1. 이상치 탐색.

    : 분석 오류를 회피할 수 있다.

  1. 2019 와 2020 나눠서 데이터 분석

    i) 2019 - 월별 자국의 국경일과 국내 이슈에 영향을 준다.

    ii) 2020 - 코로나 영향.(급감)

Code

  1. 60개국 그래프화( 월별 방문자객 수)

def all_graph(df, x, y, length):
    fig,axes = plt.subplots(1,1,figsize=(20, 16))
    axes.set_title(y)
    axes.set_ylabel(y)
    axes.set_xlabel(x)
    axes.set_xticklabels(df[x].unique(), rotation=45)
    qualitative_colors = sns.color_palette("Paired", length)
    sns.lineplot(x, y, ci=None, hue='nation', 
                 marker='o', data=df, linewidth=2, palette=qualitative_colors)
    axes.legend(loc='center left', bbox_to_anchor=(1, 0.5))
    
all_graph(df, 'date', 'visitor', 60)
  1. 상위 5개국(월별 방문자 수)
top_countries = ['China', 'Japan', 'Taiwan', 'USA','Hong Kong']

def time_visitor_graph(name):
    fig,axes = plt.subplots(1,1,figsize=(10, 8))
    x = df[df['nation']==name].date
    y = df[df['nation']==name].visitor
    axes.set_title(name)
    axes.set_ylabel("The number of visitors")
    axes.set_xlabel("Date")
    axes.set_xticklabels(x, rotation=45)
    axes.plot(x, y, linewidth=3.0)
    

for country in top_countries:
    time_visitor_graph(country)
    
  1. 코로나의 영향 그래프 비교 (2019년, 2020년)
def month_compare_graph(name):
    fig,axes = plt.subplots(1,1,figsize=(10, 8))
    x = [1, 2, 3, 4, 5]
    y = df[(df['date'].str.endswith(('-1', '-2', '-3', '-4','-5'))) & (df['nation'] == name)].visitor
    
    axes.set_title(name)
    axes.set_ylabel("The number of visitors")
    axes.set_xlabel("Month")
    axes.plot(x, y[:5], c='b', linewidth=5.0, label='2019')
    axes.plot(x, y[5:], c='r', linewidth=5.0, label='2020')
    axes.legend(loc=3)
    
for country in top_countries:
    month_compare_graph(country)

데이터 분석 결론

  1. 마케팅의 전략으로는 국내 행사도 중요하지만 결국 자국의 공휴일을 이용하면서 거리가 가까운 나라들이 주요 오는 것을 확인할 수 있습니다. 그래서 저희는 마케팅의 정책을 세워서 경제적 이익을 얻으려면 해야하는 3가지의 우선 순위를 나눴습니다.
  1. 마케팅 전략 우선순위

    i) 자국의 공휴일 + 국내 이슈

    ii) 자국의 공휴일

    iii) 국내 행사 및 유학생

해커톤 회고

  1. 막막했던 시간들이 있었으나 결국 서로의 협업과 분업화를 통해서 극복을 하게 되었고 저는 숲을 그리는 과정을 하면서 동시에 상위 5개국을 추출하고 월별 비교하는 코드와 코로나 영향을 시각화하여 표현했습니다.

  2. 혼자서 했던 여러 작은 프로젝트보다 협동해서 하니까 집단지성을 통해서 돌파구를 파악하고 각자의 지식이 다양해서 배울 점이 많았습니다.

  1. 아쉬운 점은 데이터셋이었습니다.
    하면서, 날짜별로 방문객 수를 다룰 수 없고 월별로만 되었기 때문에 너무 아쉬웠습니다. 왜냐하면 저희가 세운 가설과 마케팅 전략이 실제로 영향을 미치는지 볼 수 없었기 때문입니다. 그리고 하나 더 추가하자면, 어느 지역을 어떤 목적으로 가는지를 몰라서 지역별 마케팅을 못하는 것이 아쉽습니다.
profile
성장을 도울 아카이빙 블로그

0개의 댓글