실전 프로젝트 첫째 날! 자유 주제를 해보자는 의견은 맞았는데, 구체적인 주제 선정은 완료하지 못했다.
팀 프로젝트
- 이번 프로젝트는 실전 프로젝트로, 약 일주일 동안 학습했던 태블로를 활용해 대시보드를 만드는 것이 목표이다.
- 주제는 마케팅 / 이커머스 / 영화 추천의 총 세 가지 카테고리가 제시되었고, 자유 주제를 선택하여 원하는 대시보드를 만들 수도 있었다.
- 우리 조는 주어진 주제보다는 자유 주제를 하자는 쪽으로 의견이 모였고, 대시보드에 어울릴 주제를 각자 탐색해보았다.
- 태블로를 이용하여 데이터를 대시보드로 구현하는 프로젝트에 전염병이나 범죄율 같은 주제를 많이 활용했다는 팀원의 의견에 따라, 전염병 중에서도 모두가 경험한 '코로나'에 관련된 대시보드를 구현해보기로 했다.
- 처음 '코로나 대시보도' 라는 키워드가 나왔을 때, 지방 소멸과 지방 의료 시설 부족으로 인해 어려움이 있었다는 내용이 기억나, 서울과 경인권, 광역시, 그리고 그 외의 지역으로 카테고리를 설정해 코로나 기간 동안 의료 인력 추이라던가, 의료 시설의 종류 및 수를 코로나 확진자 수 및 사망자 수와 함께 분석하면 괜찮은 결과가 나올 것 같았다.
- 하지만 데이터셋을 찾아 EDA를 진행해보고, 프로젝트 기획 방향에 대해 팀원들과 이야기 해보았을 때, 프로젝트 시작 전임에도 한계점이 많았다. 일단 우리가 구할 수 있는 데이터에 결측값이 너무 많았고, 여러 테이블 간 결합이 어려운 부분이 있었다. 또한 대시보드 상에 구현할 내용도 뚜렷하게 구체화되지 않았다. 의료 데이터 관련 지식이 있는 팀원이 없는 점도 한몫 했다.
- 그래서 선택한 주제를 아예 엎고 다른 주제를 선택할 지, 아니면 지금 가진 데이터셋에서 발전시킨 가설을 설정해 프로젝트를 진행할 지 결론이 나지 않은 채로 끝났다. 내일 보다 심도 있는 이야기를 나누어야 한다.
학습 내용
- 결측값 시각화하기(Python) : 참고
- seaborn의 heatmap 함수를 활용하여 데이터프레임의 어떤 위치에 결측값이 위치해 있는지 시각화할 수 있다.
Python import pandas as pd import matplotlib.pyplot as plt import seaborn as sns df = pd.DataFrame('data') sns.heatmap(df.isnull(), cbar=False) # cbar= False : 색상 막대(color bar)를 표시하지 않도록 설정하는 인자. True로 설정해도 상관 없다.
- 위의 코드로 구현해 본, 결측값 시각화 차트
- seaborn의 heatmap 함수를 활용하여 데이터프레임의 어떤 위치에 결측값이 위치해 있는지 시각화할 수 있다.
'내일배움캠프_데이터분석_2기 > TIL' 카테고리의 다른 글
[TIL] camp_day57_240705 (0) | 2024.07.06 |
---|---|
[TIL] camp_day56_240704 (0) | 2024.07.05 |
[TIL] camp_day52_240701 (0) | 2024.07.01 |
[TIL] camp_day51_240627 (0) | 2024.06.27 |
[TIL] camp_day50_240626 (0) | 2024.06.26 |