부트캠프 12주차 네 번째 날. 프로젝트 이틀차가 끝났다.
팀 프로젝트
주제를 변경하기로 결정하고 어제 저녁 이야기가 나왔던 도메인 중에서, 괜찮은 데이터셋을 찾아 주제 변경을 확정지었다.
데이터 구조 뜯어보면서 팀 단위에서 논의했던 내용이 아깝기는 했지만, 프로젝트 결과까지 생각해보면 과감히 폐기한 것이 좋은 선택이 될 것 같다.캐글에서 찾은 데이터인데, 데이터 자체가 논문에서 발췌된 것이라 원문 페이퍼에 자세한 컬럼 정의서가 기재되어 있었다.
영문이고 너무 자세한 설명에, 컬럼 수가 32개에 달하다보니 컬럼 정의서는 조금 나중에 번역하고 정리할 생각이었다.하지만 각각의 컬럼의 특징에 대한 이해 없이 먼저 EDA를 진행하니 중간중간 이해할 수 없는 카테고리나 결과가 나와서 일단 다른 팀원들은 데이터 EDA와 시각화를 먼저 하도록 독려하고, 나는 컬럼 정의서부터 정리해야겠다 싶었다.
아무리 다양한 분석 스킬을 가지고 있더라도, 데이터셋에 대한 충분한 이해가 없다면 좋은 결과를 도출하기 어렵다는 것을 체감한 하루였다.
'내일배움캠프_데이터분석_2기 > TIL' 카테고리의 다른 글
[TIL] camp_day61_240711 (0) | 2024.07.12 |
---|---|
[TIL] camp_day57_240705 (0) | 2024.07.06 |
[TIL] camp_day54_240703 (0) | 2024.07.05 |
[TIL] camp_day52_240701 (0) | 2024.07.01 |
[TIL] camp_day51_240627 (0) | 2024.06.27 |