ilovechoonsik
[STARTERS 4기 TIL] 프로젝트 기반 태블로 실전 트레이닝 #15 - 미니 해커톤 1-2일차 (230331) 본문
[STARTERS 4기 TIL] 프로젝트 기반 태블로 실전 트레이닝 #15 - 미니 해커톤 1-2일차 (230331)
춘시기좋아 2023. 4. 2. 14:57
📖 오늘 내가 배운 것
1. 우리 조 목표
2. 전처리
3. 대시보드 레이아웃
1. 우리 조 목표
📌 이번 해커톤은?
자유주제
📌 조건
대시보드 최소 2개
버튼+DATE 함수+LOD 활용
PPT 4장
📌 데이터
googleplaystore.csv
googleplaystore_user_reviews.csv
📌 우리는?
2차 창작물 제작 컨설팅 회사
📌 목표
IP(지적재산권) 이용해서, 모바일 시장에서 2차 창작을 하기 원하는 사람/조직에게 해당 IP와 잘 어울릴 장르를 선택하게 하고 그 장르에 속하는 앱 중 시장의 트렌드가 되는, 선도하고 있는 앱을 제공하는 것
📌 타겟
원작자, 투자사, 제작사
2. 전처리
2.1 데이터 문제
(1) 중복 문제
googleplaystore.csv를 보면 다음과 같은 App이 존재한다.
1. 모든 행의 데이터가 동일한 App
2. Reviews만 다른 App
(2) Reviews 데이터 부족
두 csv 파일에 존재하는 App의 개수 차이가 심상치 않다...
(3) Installs의 + 제거 및 정수 변환
전부 문자열로 인식되기 때문에 측정값으로 사용하려면 + 제거하고 처리해줘야 한다
(4) MySQL Import 시 데이터 누락
MySQL로 import했을 때 8717개 데이터만 나오는 현상 발견!
NaN값 모두 제거되고 Paid Column의 "$" 값을 인식하지 못해 해당 Column 자체가 제거 됨
2.2 전처리 방안
(1) 중복 문제
📌 1. 모든 컬럼이 중복되는 데이터 처리
-- 1. 중복 행 제거
CREATE TABLE googleplaystore_re2
(SELECT DISTINCT * FROM googleplaystore_re);
📌 2. Reviews만 다른 데이터 처리
SELECT *
FROM googleplaystore2 g1
INNER JOIN (SELECT App
, Category
, MAX(Reviews) AS Reviews
FROM googleplaystore2
GROUP BY 1,2) g2 ON g1.App = g2.App
AND g1.Category = g2.Category
AND g1.Reviews = g2.Reviews;
(2) Reviews 데이터 부족
이 문제는 주어진 데이터의 크기가 다른 문제라 전처리로는 해결할 수 없다.
데이터가 부족하지만 절대적으로 필요한 Column 이었기에 추후에 더 들어온다는 가정 하에 Sentiment 컬럼을 활용하기로 했다.
사용하기 위해서는? reviews 기준으로 Outer Join
우리 팀이 Reviews.csv를 사용하는 목적은 아래와 같이 카테고리 별 Sentiment 비율이기 때문에 다른 Column 들은 고려하지 않았다!
(NaN, Null 제거 반드시 필요)
(3) Installs + 제거
-- 3. Installs 데이터에서 + 제거
UPDATE googleplaystore_re2
SET Installs = replace(Installs, '+', '');
(4) MySQL Import 시 데이터 누락
간단 -> json 파일로 변환하여 import하기 OR SQLite 사용
3. 대시보드 레이아웃
3.1 메인 대시보드
플레이 스토어 전반적인 현황 파악할 수 있다.
3.2 2번 대시보드
전반적인 현황에서 조금 더 세부적으로 들어가, 클라이언트가 자신의 IP에 어울리는 2차 창작물 제작을 위해 진입할 카테고리-장르를 선택하는 것에 도움을 준다.
3.3 3번 대시보드
최종적으로 2번 대시보드에서 선택한 카테고리-장르의 전반적인 현황과
벤치마킹을 위한 우수 앱 리스트를 제공한다.
💪🏻 좋았던 점, 앞으로 개선해야 할 점 (추가로 배워야 할 점)
📌 자유 주제가 이렇게 힘든 건 줄 몰랐다..
목적 정의와 레이아웃에 상당한 시간을 소요하였다..........
내일은 더 힘내서 달려보자🏃🏻♂️
#유데미, #유데미코리아, #유데미부트캠프, #취업부트캠프, #부트캠프후기, #스타터스부트캠프, #데이터시각화 #데이터분석 #태블로