전체 글 91

[2024 모여보랑 2기] 돈독한 가계부 프로젝트 회고_by. 돈독한 청년들

Intro.  청년 모임 지원 사업을 진행한다기에 6월에 지원했고, 제출한 기획서와 면접까지 통과해서 지난 7월부터 10월까지 프로젝트를 진행했다. 지역 청년들의 네트워킹이 주 목적인 사업이었기 때문에 간단한 주제를 잡아도 됐지만, 우리 팀은 결과물을 통해 지역 청년들에게 작게나마 임팩트를 줄 수 있길 바랐고, 그 결과 이 가계부 프로젝트를 기획하게 되었다. 공적인 목표도 목표지만, 개인적으로는 부트캠프에서 학습한 '데이터를 가공하여 의미있는 결과를 도출하는 방법'을 배운 데이터 분석가로서, 좋은 포트폴리오를 만들 수 있겠다는 생각에 진행했던 부분도 있었다. 결과물 프로덕트에 그동안 배웠던 머신러닝이나 태블로를 활용한 건 아니었지만,작업을 하다보니 쿼리 함수를 끊임없이 사용하게 되어 SQL도 많이 써먹었..

프로젝트 2024.11.04

[돈독한 가계부_01] 프로젝트를 위한 DB 설계 여정_어렵다!

이제는 때가 됐다. 백엔드 개발을 배울 때가......아아악  한 번 더..? 아니다  우리 팀에 백엔드 개발자는 없어서 자연스럽게 사용자가 입력할/입력 받아야할 DB 구조는 내가 작성하게 됐다. 데이터를 뽑아서 분석하는 건 해봤지만 설계...?? 개발자는 본업도 개발이고 취미도 개발이랬는데... 혹시 이제 취미로 백엔드 개발을 시작해야하는걸까...  짧게 고민을 했지만 다행스럽게도 가계부는 많은 레퍼런스가 존재하기 때문에, 참고해서 초기 버전을 대강 그려보았다.  아래는 레퍼런스를 참고해서 최초로 작성한 컬럼정의서.결국 가계부에 기입해야 하는 내용이 입/출금 내역인 경우가 많아 금융 어플에서 제공하는 엑셀 내보내기 기능에서 생성되는 데이터 구조를 많이 참고했다.   다른 블로그들을 참고해보았지만... ..

Python으로 PDF 파일 표로 읽고, csv 파일로 변환하기

Tabula 모듈 사용하여 PDF 파일의 표 추출하기PDF로 받은 파일, 특히 표가 들어있는 파일의 데이터를 구글 시트로 옮겨서 사용해야 할 일이 생겼다.일일이 복붙해서 표로 복원해도 되긴 하는데, 이 파일 같은 경우는 위치가 틀어졌는지 한 번에 옮겨지지 않고 수작업으로 하나씩 고쳐야 했다.그래서 찾아본, Python을 이용하여 간단하게 해결하는 방법!Docs 링크Tabula-py 모듈 설치가 필요하다. Colab 환경은 코드블럭에서, VS code는 터미널에서 pip install 이용하여 설치. VS code에 모듈 설치는 되는데 실행이 안 돼서 Colab에서 진행.추측이지만 Windows 10 환경에서는 JAVA 가 설치되어야 실행된다고 하는데, 내 컴퓨터에 JAVA를 따로 설치한 적이 없어서 로컬..

스파르타 내일배움캠프 데이터 분석 부트캠프 수료 후기

올해 4월 중순부터 시작했던 데이터 분석 부트캠프가 드디어 끝났다! 팀스파르타의 다른 개발 부트캠프와 달리 데이터 분석 과정은 비교적 최근에 생긴 코스라 후기나 정보가 많지 않았다. 지금 진행 중인 3기나, 새로 모집 중인 4기는 다르게 운영될 수도 있고, 아래 내용은 전부 내 개인적인 소감이다!전체적인 운영 방식내일배움캠프 Pros & Cons소감 1. 전체적인 운영 방식1. 전일제 온라인, 9 to 21 교육가장 큰 특징이라면 스파르타의 내일배움캠프는 모든 과정이 온라인으로 이루어진다는 것이다. 장점이자 단점일 수 있는 부분. 또 하루 12시간 학습이라는, 고3 때나 했던 학습 시간을 요구한다. 그만큼 학습량도 많다.2. 챕터 단위로 진행되는 학습 커리큘럼과 프로젝트총 여섯 번의 크고 작은 프로젝트에..

[데이터 분석 프로젝트] E-Commerce 매출 활성화를 위한 전략 방안 도출

프로젝트 명 : E-Commerce 매출 활성화를 위한 전략 방안 도출프로젝트 기간 : 2024년 07월 22일 ~ 08월 22일(5주)팀 구성 : 4인역할 : 프로젝트 기획 및 발표   1. 프로젝트 개요프로젝트 목표매출 하락세인 전자상거래 플랫폼에 대해 데이터 분석을 통한 문제 규명 및 매출 활성화를 위한 전략 제시프로젝트 핵심 내용매출 정체에 영향을 주고 있는 문제를 확인하고, 규명된 문제를 해결할 수 있는 가설을 수립하고 검증한다매출 정체 해소를 위한 방법으로 고객 별 추천 상품 메세지 발송 실험을 설계하여 제안한다  2. EDA 및 전처리사용 데이터 및 전처리https://www.kaggle.com/datasets/olistbr/brazilian-ecommerce총 8개의 테이블, 약 100,0..

[TIL] camp_day82_240809

프로젝트 중간 발표일!!다른 팀들의 발표를 들으며 생각하지 못했던 인사이트를 얻고, 우리 팀의 결과물에 대한 많은 피드백을 들을 수 있었던 하루였다.  중간 발표회우리 팀 피드백 내용 요약 정리발표 PPT에서 스토리텔링 흐름이 어색한 부분이 있다. 문제점으로 짚으려는 부분과 관련된 "재구매율" 이라는 워딩 정의를 초반에 해버림으로써, 분석한 현상들을 찾다 보니까 "재구매율" 이란 키워드를 찾아낸 것이 아니라 "재구매율" 이라는 정답을 구해놓고 이야기 하는 꼴이 되어버렸다.사실 이 피드백을 듣고 좀 뼈가 아팠다. 이게 다 을 완독하지 못한 탓이다. 이거 분명 책 초반에 나왔던 내용이었는데! 데이터 분석을 할 떄는 정답을 정해놓고 문제점을 찾으면 안 된다고 했는데! 이번 주말에 꼭 완독하고 내용 정리도 해야..

[TIL] camp_day77_240802

벌써 최종 프로젝트 2주차 마지막 날이라고? 시간이 너무 빨리 간다.팀 프로젝트문제 정의 완료 및 가설 설정 완료어젯밤 팀원 모두 야근하면서 문제 정의에 매달렸는데, 다행스럽게도 성과가 있었다. 아침 일찍 모닝 코딩 하면서 살펴봤는데, 러프하게 살펴본 문제에 대한 확실한 원인을 규명할 수 있었다! 문제 정의하면서 튜터님께 틈틈이 가설 설정 관련한 조언을 구했고, 일단 임시지만 설정한 가설들 모두 문제를 풀이하는 데 있어 괜찮은 가설이라 하셔서 그대로 진행할 예정.이제 다음 주 초반에 가설 검증하고, 검증한 가설로부터 액션 플랜 도출해서 제공 서비스(대상은 바뀔지도 모르겠지만) 기획까지 끝내면 된다!데이터 스키마 작성사실 아직까지도 데이터 스키마에 대해 정확한 워딩 정의를 모르곘다. 데이터베이스 스키마관계..

[TIL] camp_day72_240726

프로젝트 1주차 마지막 날. 다음주에 이틀이나 빠져서 마음이 급하다....팀 프로젝트생각보다 할 게 많은데 일정을 좀 타이트하게 잡아버려서 WBS의 일정을 조정하는 시간을 가졌다.다 같이 데이터 탐색하면서 컬럼 별 특징, 결측치 확인 및 처리 방법 논의, 그리고 아직 분석 초기 단계지만 어떤 파생변수 만들지 논의하는 과정을 거쳤다.데이터를 들여다보지 않은 상태에서 하는 게 어려웠는데, 아무 기준도 세우지 않고 무작정 EDA 했다가 튜터님 말씀대로 아무거나 그룹바이 할 뻔 했다...참고용ERD 다이어그램 그리는 방법_스파르타 블로그ERD란?Entity Relationship Diagram(엔티티 관계 다이어그램)데이터베이스 설계 과정에서 사용되는 모델링 기법 중 하나데이터베이스에 저장될 데이터 엔티티들과 ..

[TIL] camp_day71_240725

최종 프로젝트 1주차 네 번째 날. 프로젝트 기획서를 최종 마무리하고, WBS를 작성했다.팀 프로젝트WBSWBS : Work Breakdown Sheet의 약자로, 프로젝트를 달성하기 위해 필요한 활동과 업무를 세분화하는 작업프로젝트 구성 요소들을 계층 구조로 분류하여 전체 프로젝트의 범위를 정의하고, 프로젝트 작업을 관리하기 쉽도록 작게 세분화전체 업무 내용을 한 눈에 확인할 수 있고, 업무 내용이 현재 어디까지 진행 되었는지를 확인할 수 있다.각각의 상위 태스크에 따른 하위 태스크, 태스크 별 일정, 그리고 태스크의 결과물인 산출물을 기재한다.프로젝트 기획이 어느 정도 마무리된 시점에 작성한다.예시 참고 사이트 : 1. WBS를 만들어 보자, 2. WBS 작성법우리 팀 프로젝트의 WBS 만들기 노션..

[TIL] camp_day70_240724

최종 프로젝트 사흘차. 프로젝트 기획 피드백을 받고, 이번 프로젝트 때 수행할 머신러닝 방법 중 클러스터링을 각자 복습했다.팀 프로젝트전체적인 그림은 대충 그려진 것 같은데, 실제 데이터셋 EDA 했을 때 원하는 방향으로 결과가 나와줄지가 관건이다.이전 프로젝트보다 프로젝트 기획에 할애할 시간이 많아져서 다 같이 문제 정의를 하는 시간을 가져보았다.우리가 정의할 문제는 해결하고자 하는, 부정적인 영향을 미치는 사건정의한 문제를 해결하기 위한 여러가지 방법들 중, 데이터를 통해 증명하고 싶은 주장이 프로젝트에서 설정하는 가설학습 내용클러스터링 라이브 세션 복습클러스터링 = 군집 분석(비지도학습)클러스터링 분석 프로세스데이터 기간 선정이상치 기준 선정 및 제외표준화차원 축소(PCA)K값(군집의 개수), 초기..