티스토리 뷰
Kaggle 이나 Dacon 같은 무료로 데이터를 얻을 수 있는 사이트에서 데이터 시각화 연습해보도록 합시다.
Kaggle 이나 Dacon 에 접속하여 본인이 선정한 프로덕트와 가장 유사한 데이터를 찾습니다. (없거나 2의 조건을 만족하지 않는 경우, 다른 데이터를 선정해도 무방합니다)
해당 데이터 파일을 다운 받아 직접 확인해봅니다. (csv 형식 추천을 추천하며, 파일 개수는 1~2개가 적합합니다) (csv 파일은 Excel 에서 열 수 있습니다)
확인한 데이터에서 어떤 추측과 가설이 가능한지 확인하고 가설을 3개 이상 설정합니다.
본인이 세운 가설을 확인할 수 있도록 데이터를 확인하고 시각화합니다.
본인이 세운 가설과 실제 결과를 비교합니다.
(선택) 본인이 세운 가설이 왜 결과와 일치 또는 불일치하는 결과가 나왔는지 검색 또는 분석해봅니다.
가설
1. 습도가 높을수록 시간에 따른 따릉이 대여 수가 낮을것이다.
2. 미세먼지 농도가 높을수록 시간에 따른 따릉이 대여 수가 낮을것이다.
3. 따릉이는 보통 출퇴근시간에 많은 대여수가 일어날것이다.
저는 Dacon에서 '서울시 마포구의 날짜별, 시간별, 기상상항과 따릉이 대여 수' 데이터를 확인했습니다. 대회가 22년6월에 이루어지고 있는것만큼 주어진 데이터가 최근의 것이라고 가정하고 Excel을 통해 데이터 시각화하였습니다.
컬럼명 | 타입 | 설명 |
hour | Integer | 시간 |
hour_bef_temperature | Integer | 기온 |
hour_bef_precipitation | Integer | 비가 오지 않았으면 0, 비가 오면 1 |
hour_bef_humidity | Integer | 습도 |
hour_bef_pm10 | Integer | 미세먼지(머리카락 굵기의 1/5에서 1/7 크기의 미세먼지) |
hour_bef_pm2.5 |
Integer | 미세먼지(머리카락 굵기의 1/20에서 1/30 크기의 미세먼지) |
count | Integer | 시간에 따른 따릉이 대여 수 |
첫번째 가설
제가 세운 첫번째 가설은 다음과 같습니다. "습도가 높을수록 시간에 따른 따릉이 대여 수가 낮을것이다." 이렇게 생각하는 이유는 습도가 높으면 온도가 높아지고 불쾌지수가 높아져 따릉이를 타는 육체적인 활동을 안할것 같다고 예상하였습니다.
먼저 데이터의 수가 약1500개라서 분포도로 시각화 하였습니다. 시각화된 데이터의 추세선을 보면 습도가 높아짐에 따라 따릉이 대여수가 줄어드는 것으로 보아, 가설과 일치하다고 할수있습니다.
다만, 습도가 높은(80-100%)에서도 높은 따릉이 대여수의 데이터가 있기에 단순히 습도때문에 따릉이 대여수가 줄어든다는것은 확실할수없지만, 비가 오는 날엔 비가 오지않은 날보다 최대 90퍼센트까지 확연하게 따릉이 대여수가 줄어든 것을 확인할수있습니다.
두번째 가설
제가 두번째로 세운 가설은 "미세농도가 높을수록 따릉이 대여 수가 낮을것이다." 가설을 이렇게 세운 이유는 미세먼지 농도가 높으면 건강에 좋지 않아 야외활동을 즐겨하지않기에 미세먼지에 취약한 따릉이를 타는 행위에 영향이 있을것이라고 예상합니다.
나는 대기질을 알아볼때 애플의 '날씨'어플을 통해 알아보는데, CAI를 계산하기위해서는 따릉이가 제공하는 정보로는 알수가 없어, 미세먼지 pm10을 기준으로 분석하겠다.
X축은 미세먼지pm10 기준이며 Y축은 따릉이 대여 수이다. 그래프를 보았을때 전반적으로 80이하에서 따릉이 대여 수가 주로 이루어지고 있다.
미세먼지pm10기준 80이상부터 나쁨이라고 예보 등급을 나누기에 미세먼지 농도가 높을수록 따릉이 대여 수가 줄어든다는 나의 가설은 좀 극단적이긴하지만 사실과 일치한다고 할 수 있다.
세번째 가설
마지막으로 제가 세운 가설은 "따릉이는 보통 출퇴근시간에 많은 대여수가 일어날것이다." 그렇게 생각하는 이유는 따릉이의 본질은 이동수단이기 때문입니다. 직장인들은 출퇴근, 학생들은 등하교를 하는 시간대가 가장 많은 트랙픽을 보일거라 예상합니다. 비가 오는 날에는 따릉이를 이용하는 수가 극단적으로 적기에 제외시키겠습니다.
그래프의 X축은 시간대이며, Y축은 따릉이 대여 수 입니다.
시각화된 데이터의 특이점은 8시와 14시~21시에 높은 트래픽을 보이며, 18시에 가장 높은 트래픽을 보이고 있습니다. 출퇴근 시간인(근무시간 30분~1시간전) 오전 8시랑 오후6시에 가장 많은 트래픽을 보이는것이 제가 설정한 가설에 적합하나, 개인적으로 아쉬운점은 평일 데이터만을 사용하고 싶었으나 데이터가 따로 제공되지 않는 점이 아쉽게 느껴집니다.
'코드스테이츠 PMB 12기' 카테고리의 다른 글
코드스테이츠 PMB 12기를 마치고... | 다들 정상에서 만납시다! (2) | 2022.08.12 |
---|
- 이재웅 대표 화이팅
- vivino
- 타다 반대법
- 동기부여
- 타다: 대한민국 스타트업의 초상
- 코드스테이츠
- lawfully
- 타다 금지법
- ux
- 아직 없음
- 로플리
- 호갱노노
- 인생독본
- Laws of UX
- 인생은 필나이트처럼
- PM 부트캠프
- 타다 화이팅
- Wine searcher
- 밸류맵
- 비비노
- 나의 가이드
- 한국 스타트업
- do not go gentle into that good night
- W2D3
- 번개페이
- 타다
- PM부트캠프
- 개선할점
- 붉은 깃발법
- OKR
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |