내일배움캠프_데이터분석_2기/TIL 63

[TIL] camp_day82_240809

프로젝트 중간 발표일!!다른 팀들의 발표를 들으며 생각하지 못했던 인사이트를 얻고, 우리 팀의 결과물에 대한 많은 피드백을 들을 수 있었던 하루였다.  중간 발표회우리 팀 피드백 내용 요약 정리발표 PPT에서 스토리텔링 흐름이 어색한 부분이 있다. 문제점으로 짚으려는 부분과 관련된 "재구매율" 이라는 워딩 정의를 초반에 해버림으로써, 분석한 현상들을 찾다 보니까 "재구매율" 이란 키워드를 찾아낸 것이 아니라 "재구매율" 이라는 정답을 구해놓고 이야기 하는 꼴이 되어버렸다.사실 이 피드백을 듣고 좀 뼈가 아팠다. 이게 다 을 완독하지 못한 탓이다. 이거 분명 책 초반에 나왔던 내용이었는데! 데이터 분석을 할 떄는 정답을 정해놓고 문제점을 찾으면 안 된다고 했는데! 이번 주말에 꼭 완독하고 내용 정리도 해야..

[TIL] camp_day77_240802

벌써 최종 프로젝트 2주차 마지막 날이라고? 시간이 너무 빨리 간다.팀 프로젝트문제 정의 완료 및 가설 설정 완료어젯밤 팀원 모두 야근하면서 문제 정의에 매달렸는데, 다행스럽게도 성과가 있었다. 아침 일찍 모닝 코딩 하면서 살펴봤는데, 러프하게 살펴본 문제에 대한 확실한 원인을 규명할 수 있었다! 문제 정의하면서 튜터님께 틈틈이 가설 설정 관련한 조언을 구했고, 일단 임시지만 설정한 가설들 모두 문제를 풀이하는 데 있어 괜찮은 가설이라 하셔서 그대로 진행할 예정.이제 다음 주 초반에 가설 검증하고, 검증한 가설로부터 액션 플랜 도출해서 제공 서비스(대상은 바뀔지도 모르겠지만) 기획까지 끝내면 된다!데이터 스키마 작성사실 아직까지도 데이터 스키마에 대해 정확한 워딩 정의를 모르곘다. 데이터베이스 스키마관계..

[TIL] camp_day72_240726

프로젝트 1주차 마지막 날. 다음주에 이틀이나 빠져서 마음이 급하다....팀 프로젝트생각보다 할 게 많은데 일정을 좀 타이트하게 잡아버려서 WBS의 일정을 조정하는 시간을 가졌다.다 같이 데이터 탐색하면서 컬럼 별 특징, 결측치 확인 및 처리 방법 논의, 그리고 아직 분석 초기 단계지만 어떤 파생변수 만들지 논의하는 과정을 거쳤다.데이터를 들여다보지 않은 상태에서 하는 게 어려웠는데, 아무 기준도 세우지 않고 무작정 EDA 했다가 튜터님 말씀대로 아무거나 그룹바이 할 뻔 했다...참고용ERD 다이어그램 그리는 방법_스파르타 블로그ERD란?Entity Relationship Diagram(엔티티 관계 다이어그램)데이터베이스 설계 과정에서 사용되는 모델링 기법 중 하나데이터베이스에 저장될 데이터 엔티티들과 ..

[TIL] camp_day71_240725

최종 프로젝트 1주차 네 번째 날. 프로젝트 기획서를 최종 마무리하고, WBS를 작성했다.팀 프로젝트WBSWBS : Work Breakdown Sheet의 약자로, 프로젝트를 달성하기 위해 필요한 활동과 업무를 세분화하는 작업프로젝트 구성 요소들을 계층 구조로 분류하여 전체 프로젝트의 범위를 정의하고, 프로젝트 작업을 관리하기 쉽도록 작게 세분화전체 업무 내용을 한 눈에 확인할 수 있고, 업무 내용이 현재 어디까지 진행 되었는지를 확인할 수 있다.각각의 상위 태스크에 따른 하위 태스크, 태스크 별 일정, 그리고 태스크의 결과물인 산출물을 기재한다.프로젝트 기획이 어느 정도 마무리된 시점에 작성한다.예시 참고 사이트 : 1. WBS를 만들어 보자, 2. WBS 작성법우리 팀 프로젝트의 WBS 만들기 노션..

[TIL] camp_day70_240724

최종 프로젝트 사흘차. 프로젝트 기획 피드백을 받고, 이번 프로젝트 때 수행할 머신러닝 방법 중 클러스터링을 각자 복습했다.팀 프로젝트전체적인 그림은 대충 그려진 것 같은데, 실제 데이터셋 EDA 했을 때 원하는 방향으로 결과가 나와줄지가 관건이다.이전 프로젝트보다 프로젝트 기획에 할애할 시간이 많아져서 다 같이 문제 정의를 하는 시간을 가져보았다.우리가 정의할 문제는 해결하고자 하는, 부정적인 영향을 미치는 사건정의한 문제를 해결하기 위한 여러가지 방법들 중, 데이터를 통해 증명하고 싶은 주장이 프로젝트에서 설정하는 가설학습 내용클러스터링 라이브 세션 복습클러스터링 = 군집 분석(비지도학습)클러스터링 분석 프로세스데이터 기간 선정이상치 기준 선정 및 제외표준화차원 축소(PCA)K값(군집의 개수), 초기..

[TIL] camp_day69_240723

최종 프로젝트 이틀차! 오늘도 하루가 정신없이 지나갔다.  팀 프로젝트어제 큰 틀에서의 도메인만 커머스로 정해두고, 데이터셋도 구체적인 주제도 정하지 못한 상태로 하루를 시작했다.오전 스크럼 시간에 각자 찾아온 데이터셋에 대해 피드백을 주고 받았는데, 원하는 컬럼이 있으면 데이터의 볼륨이 너무 작고, 데이터 볼륨이 충분하면 분석하고 싶은 컬럼이 없고, 결국 모두의 마음에 드는 데이터셋이 없었다. 기획서 제출 데드라인이 다가와서 일단 제출은 해야 하니까 내가 급하게 만들어 낸 프로젝트 기획안이 있었는데 생각보다 괜찮아서 이걸 디벨롭 시켜보기로 했다.오전 스크럼 때 팀에 제안했던 데이터셋/기획안 중 하나가 커머스 플랫폼의 MD 입장으로 수행하는 분석이었다. 마침 셀러 별로 정리가 잘 되어있던 여름 의류 판매..

[TIL] camp_day68_240722

최종 프로젝트 첫째 날! 내일배움캠프 데이터분석 2기도 이제 딱 한 달 남았다. 매일 12시간의 학습이라 끝나지 않을 것만 같았는데. 최종 프로젝트 잘 마무리해서 유종의 미를 거둘 수 있으면 좋겠다.팀 프로젝트최종 프로젝트 팀원들과 첫 회의 진행! 팀업 미팅은 이미 지난 주에 진행했고, 오늘은 각자 최종 주제로 어떤 것을 하고 싶은지 의논했다.팀원 모두 게임 쪽으로로는 잘 모르기도 하고 관심이 크게 있는 것은 아니라서 커머스 관련 프로젝트를 진행하고 싶어했다.각자 괜찮을 것 같은 주제를 하나씩 꺼내봤는데 의견이 모아지지 않아 결국 튜터님께 상담.원래는 문제를 정의하고 데이터를 구하지만, 데이터셋을 구하기 힘드니 괜찮은 데이터를 먼저 구해서 문제를 정의하고 프로젝트 주제를 잡아보라고 조언해주셨다.각자 프로..

[TIL] camp_day66_240718

벌써 목요일이라니! 오늘은 라이브 세션만으로 하루가 금방 지나갔다. 최종 프로젝트 관련된 세션이 많아서 좋았다. 팀 프로젝트 - 회고 & 피드백 적용?오늘 라이브 세션을 들으면서 이번에 완료한 프로젝트를 회고하고, 피드백을 적용해서 포폴용으로 발전시켜야겠단 생각을 했다.위 이미지는 내가 팀 프로젝트 중간에 작성했던 호텔 비즈니스 모델 분석을 정리한 것이다.모든 서비스는 가치 창출 또는 매출 발생이라는 목적이 있기 떄문에, 잘 모르는 도메인이지만 비즈니스 모델 / 수익 모델 분석을 통해 접근하는 것이 타당하다고 생각하여 내 나름대로 분석해 보았다.또 검색하면서, '타임커머스'라는 개념을 다루는 흥미로운 인사이트도 얻을 수 있었다.데일리호텔타임커머스 모형의 데일리 호텔 비즈니스 모델 분석비즈니스 모델 분석을..

[TIL] camp_day64_240716

마지막 학습주차 이틀차. 라이브 세션을 통해 Open API를 사용하여 데이터를 가져오는 방법에 대해 학습했다.학습 내용데이터 수집 특강_1 : API 통신API : Application Programming Interface 의 약자로, 소프트웨어 구성 요소가 서로 통신할 수 있게 하는 방식이다.접근 가능한 사용자의 권한 관리 / 프로그램 간 원활한 통신 지원 / DB 접속 표준화 라는 특징이 있다.네이버 API, 다음 API 등 포털에서 제공하는 무료 API와, 공공데이터포털에서 제공하는 공공 데이터 API 등의 예시가 있다.Python의 requests 라이브러리를 통해 요청을 전달하고 값을 가져올 수 있다.API를 통해 수집된 데이터는 JSON 또는 XML 형태로 가져오기 때문에, 보기에 & 분석..

[TIL] camp_day63_240715

프로젝트가 끝난 여파로... 아무 것도 안 하고 놀면서 하루를 보내버렸다...밀린 TIL과 WIL을 정리해보려 했는데, 그마저도 안 해서 내일 학습을 열심히 하면서(!) 기록물도 채울 생각이다.학습 내용매번 헷갈리는 sort 와 sorted(Python)sort(list) : list 원본을 수정하지 않고, 정렬해서 print만 해준다. .sorted() : 해당 리스트의 값 자체를 정렬한다. 풀이한 문제_프로그래머스_명예의 전당(1)상위 k 번째 중, 매일 가장 낮은 점수를 리스트에 담아 출력해야 하는 문제.빈 리스트 두 개를 만들어, 하나에는 새로 추가되는 점수를 이어 붙이면서 리스트 정렬 후 상위 k 번째만큼 자른 다음 최소값을 구해 answer라는 빈 리스트에 값을 계속 붙여나가는 구조로 코드를 ..