관리 메뉴

ilovechoonsik

[STARTERS 4기 TIL] 프로젝트 기반 태블로 실전 트레이닝 #15 - 미니 해커톤 1-2일차 (230331) 본문

STARTERS 4기 🚉/TIL 👶🏻

[STARTERS 4기 TIL] 프로젝트 기반 태블로 실전 트레이닝 #15 - 미니 해커톤 1-2일차 (230331)

춘시기좋아 2023. 4. 2. 14:57
 

 

📖 오늘 내가 배운 것

 

1. 우리 조 목표

2. 전처리

3. 대시보드 레이아웃

 


1. 우리 조 목표

📌 이번 해커톤은?

자유주제

 

📌 조건

대시보드 최소 2개

버튼+DATE 함수+LOD 활용

PPT 4장

 

📌 데이터

googleplaystore.csv

googleplaystore_user_reviews.csv

 

📌 우리는?

2차 창작물 제작 컨설팅 회사

 

📌 목표

IP(지적재산권) 이용해서, 모바일 시장에서 2차 창작을 하기 원하는 사람/조직에게 해당 IP와 잘 어울릴 장르를 선택하게 하고 그 장르에 속하는 앱 중 시장의 트렌드가 되는, 선도하고 있는 앱을 제공하는 것

 

📌 타겟

원작자, 투자사, 제작사

 

2. 전처리

2.1 데이터 문제

(1) 중복 문제

googleplaystore.csv를 보면 다음과 같은 App이 존재한다.

1. 모든 행의 데이터가 동일한 App

2. Reviews만 다른 App

 

(2) Reviews 데이터 부족

두 csv 파일에 존재하는 App의 개수 차이가 심상치 않다...

 

(3) Installs의 + 제거 및 정수 변환

전부 문자열로 인식되기 때문에 측정값으로 사용하려면 + 제거하고 처리해줘야 한다

 

(4) MySQL Import 시 데이터 누락

MySQL로 import했을 때 8717개 데이터만 나오는 현상 발견!

NaN값 모두 제거되고 Paid Column의 "$" 값을 인식하지 못해 해당 Column 자체가 제거 됨

 

2.2 전처리 방안

(1) 중복 문제

📌 1. 모든 컬럼이 중복되는 데이터 처리

-- 1. 중복 행 제거
CREATE TABLE googleplaystore_re2
(SELECT DISTINCT * FROM googleplaystore_re);

 

📌 2. Reviews만 다른 데이터 처리

SELECT *
FROM googleplaystore2 g1
	 INNER JOIN (SELECT App
					  , Category
					  , MAX(Reviews) AS Reviews
				 FROM googleplaystore2
				 GROUP BY 1,2) g2 ON g1.App = g2.App
								  AND g1.Category = g2.Category
                                  AND g1.Reviews = g2.Reviews;

 

(2) Reviews 데이터 부족

이 문제는 주어진 데이터의 크기가 다른 문제라 전처리로는 해결할 수 없다.

데이터가 부족하지만 절대적으로 필요한 Column 이었기에 추후에 더 들어온다는 가정 하에 Sentiment 컬럼을 활용하기로 했다.

 

사용하기 위해서는? reviews 기준으로 Outer Join

 

우리 팀이 Reviews.csv를 사용하는 목적은 아래와 같이 카테고리 별 Sentiment 비율이기 때문에 다른 Column 들은 고려하지 않았다!

(NaN, Null 제거 반드시 필요)

 

(3) Installs + 제거

-- 3. Installs 데이터에서 + 제거
UPDATE googleplaystore_re2
SET Installs = replace(Installs, '+', '');

 

(4) MySQL Import 시 데이터 누락

간단 -> json 파일로 변환하여 import하기 OR SQLite 사용

 

 

3. 대시보드 레이아웃

3.1 메인 대시보드

플레이 스토어 전반적인 현황 파악할 수 있다.

 

3.2 2번 대시보드

전반적인 현황에서 조금 더 세부적으로 들어가, 클라이언트가 자신의 IP에 어울리는 2차 창작물 제작을 위해 진입할 카테고리-장르를 선택하는 것에 도움을 준다.

 

3.3 3번 대시보드

최종적으로 2번 대시보드에서 선택한 카테고리-장르의 전반적인 현황과

벤치마킹을 위한 우수 앱 리스트를 제공한다.

 


💪🏻 좋았던 점, 앞으로 개선해야 할 점 (추가로 배워야 할 점)

 

📌 자유 주제가 이렇게 힘든 건 줄 몰랐다..

목적 정의와 레이아웃에 상당한 시간을 소요하였다..........

내일은 더 힘내서 달려보자🏃🏻‍♂️

 

 

#유데미, #유데미코리아, #유데미부트캠프, #취업부트캠프, #부트캠프후기, #스타터스부트캠프, #데이터시각화 #데이터분석 #태블로

Comments