관리 메뉴

ilovechoonsik

유데미 스타터스 취업 부트캠프 4기 - 데이터분석/시각화(태블로) 9주차 학습 일지 본문

STARTERS 4기 🚉/학습일지 😛

유데미 스타터스 취업 부트캠프 4기 - 데이터분석/시각화(태블로) 9주차 학습 일지

춘시기좋아 2023. 4. 9. 23:44
[출처 : Udemy - STARTERS 블로그 학습일지 안내]

 

1. 이번 주에 어떤 것을 배웠나요? 겪은 시행착오/어려운 점은?

1.1 프로젝트 발표

📌 1번 대시보드

GooglePlayStore의 전반적인 현황 파악!

1. 카테고리 별 Install 수

: 설치 횟수가 많은 카테고리를 파악할 수 있다. Install 수로 해당 카테고리의 시장 규모를 파악할 수 있다.

 

2. 전체 앱들의 Rating 분포

: 플레이 스토어에 존재하는 모든 앱들의 Rating 분포를 확인할 수 있다.

: 기존 플레이 스토어에 존재하는 앱들에 대한 사용자들의 전반적인 평가를 확인하는 것으로 평가 목표치를 설정할 수 있다.

 

3. 전체 앱 Paid vs Free 비율

: 플레이 스토어에 존재하는 모든 앱들의 Paid, Free 비율을 확인할 수 있다. - 시장 진입 시 유료화 여부 고려에 도움을 준다.

 

4. Content Rating 별 평균 다운로드 수 & 앱 개수

: 이용 연령 등급 별 다운로드 수와 앱 개수를 확인할 수 있다. 어느 연령대의 고객들이 많으며, 평균 다운로드 수(수요)에 대해 앱 개수(공급)가 얼마나 되는지 알 수 있다.

 

5. 카테고리 별 Sentiment 비율

: 카테고리 별로 유저의 반응 수, 긍/부정 반응 비율을 확인할 수 있다. → 리뷰 수가 많으며 긍정적인 리뷰가 많은 긍정적인 카테고리 시장으로 진입을 고려할 수 있다.

 

📌 2번 대시보드

1. 앱 개수 및 설치 횟수

: 카테고리별 앱의 개수와, 앱의 설치 횟수를 시각적으로 표현하였다. 이를 통하여 수요와 공급의 현황을 파악할 수 있다.

 

2. 어플 당 평균 설치횟수

: 카테고리별 앱의 전체 설치 횟수에서 앱의 개수를 나눈 값이다. 앱 하나당 평균적으로 어느 정도의 고객을 수용하는지 볼 수 있으며, 시장의 포화도를 직관적으로 볼 수 있다.

 

3. 최근 업데이트 후 경과일

: 카테고리별 최근 업데이트부터 지금까지의 경과일 중앙값을 볼 수 있다. 관심 분류가 지속적으로 서비스 업데이트를 진행해야 하는 환경인지, 아닌지를 판별해 배포자의 개발역량에 맞춰 2차 창작 매개체를 선정할 수 있다.

 

수식

더보기

현시점 - 최근 업데이트 날짜 (기간)


1) 기준 날짜 설정

  • 대시보드를 만든 시점의 날짜 설정 : 2018-10-01
  • → 2018년 8월이 데이터의 마지막 날이므로 해당 날짜 이후의 날짜로 설정함
  • 기준 날짜 필드 만들기
    • 그 전에 Last Updated 필드의 타입을 ‘날짜’로 변경하기
    // 기준 Date
    DATE('2018-10-01')
    

2) 기간 구하기 (days)

  • 현 시점 (기준 날짜, 2018-10-01)을 기준으로 최근 업데이트한 날짜까지의 기간을 확인
  • 필드 만들기
// Day_diff
DATEDIFF('day',[Last Updated], [기준 Date])

 

4. 워드클라우드

: 현재 보고 있는 카테고리가 어떤 특성을 지니고 있는지 키워드를 통해 확인할 수 있다. 자신이 다룰 1차 창작물의 특성을 어떤 장르와 카테고리가 잘 담을 수 있을지 판단하는 과정에서 활용된다.

 

📌 3번 대시보드

 

1. 앱 개수

: 중반 리스트에서, 점수가 70점 이상인 애플리케이션이 몇 개인지 나타내는 지표이다. 벤치마킹할 어플의 개수이자, 동시에 경쟁사의 개수로 생각할 수 있다.

 

2. Median Rating

: 선택한 카테고리 혹은 장르의 평점 중앙값을 노출한다.

 

3. Type별 비율

: 카테고리 혹은 장르의 앱 중 유료앱이 어느 정도 되는지 알 수 있다.

 

4. Content Rating별 비율

: 해당 카테고리 혹은 장르가 어떤 연령대를 기준으로 보통 서비스되는지 알 수 있다.

 

5. 리스트

: 카테고리, 장르 별 앱을 자체적으로 산정한 점수 기준에 따라 나타냈다. 점수 기준 70점 이상인 애플리케이션이 벤치마킹으로 추천하는 어플로 순위가 매겨진 채 노출된다.

(점수 산정 기준: 리뷰 점수에 비례, 최근 업데이트 후 경과일에 반비례. 리뷰 개수 최소치로 고려.)

 

수식

더보기

최종 Score


  • Score 필드 만들기
    • 고려사항 : Rating(평점), Day_diff(기간), Reviews (리뷰수)
    • 평점과 리뷰 갯수가 높고 많을 수록, 업데이트 경과일이 짧을수록 Score ↑
// Scores
IIF(NOT ISNULL(MAX([Rating])), 
(MAX([Rating]) / MAX([Day_diff]) + (MAX([Reviews]) / 50000000000)) * 1000
, 0)

 

6. 참고할 앱의 Sentiment

: 리스트에 있는 앱들의 Sentiment를 탐색할 수 있도록 하였다. 리스트 내부 앱들의 판단기준을 보조할 수 있다.

: 또한 좌측의 파이 차트에서 Sentiment의 비율을 나타냄으로써 현재 서비스되고 있는 앱들에 대한 전반적인 평가를 알 수 있다.

 

📌 PPT

 

 

1.2 피드백 (종합)

(1) 아이디어 및 스토리 + 발표

📌 무료 → 유료 전환 프로젝트 좋았다~

📌 목표는 좋고 신박, 근데 모르고 봤으면 이해가 안 갔을 듯! 정확히 뭐를 하는지 의뢰인지, 넘겨주는 건지 현황목표에서 조금 더 명확히 언급할 필요가 있음! ex) 저희는 -다 그래서 이렇게 상황을 설정했다를 강조

📌 대시보드 개요에서 ~게 보여줬다! 고 딱딱 짚고 넘어가는 게 좋다~ 막대그래프로 뭐 이렇게 저렇게 했다 길게 늘어뜨리는 건 좋지 않음

📌 실무에서는 동일한 대시보드 사용하는 경우가 있지만 해커톤에서는 다양하게 보여주는 게 메리트 있을 거 같다!

📌 앱 리스트 설명할 때 사진 넣은 거 괜찮았다!, 근데 설치 기준 설명이 미흡

📌 PPT는 정갈하게 만들고 대시보드는 칙칙하지 않게 만들기

 

(2) 수식

📌 스코어를 짤 거면 Score Model 넣으면 좋다! 때에 따라 다르긴 한데 복잡한 경우 무조건 넣는 게 좋다

📌 LOD 식을 넣었을 때는, 간결하게 사용하고 설명할 때, 어디 차원을 고정했고 이런 식으로 디테일하게 들어가기

📌 경과일 좋았음, 토큰화 stopwords 중요스코어 수식 이해 어려움, 수식 괄호가 많을 경우 수식 하나하나 짚어가며 설명 시연 좋음

📌 수식 설명할 때 사진은 별로~ 직접 작성해서 쓰기!

📌 나누기 되어 있으면 보기 힘들 수 있다~ 이거 함수 만드는 프로그램? 사용해서 깔끔하게 만들기

 

(3) 그래프 및 대시보드 디테일

📌 Ratio 사용 시 → 레이블 꼭 넣기

📌 영어 이해 못 할 수도 정확히 설명 그냥 한국어로 !, 대시보드 2 상단 그래프 지저분함 게임 필드명 가려짐

📌 이중 축 사용 추천하지 않음! 범위가 너무 다름 특히 열 VLOD 가 카테고리일 경우 더 그렇다! 아래가 카테고리인데 라인? 요건 좀…

📌 엑셀로 EXPORT 되는 거 버튼 너무 좋다

📌 리스트 대시보드 같은 경우에는 전체를 넣는 게 좋을 거 같다!

📌 영어 뻔한 거 말고는 많이 쓰지 말기!

📌 대시보드에서 타입이 뭐고 색이 뭔지 설명하는 부분이 있었는데, 이건 실무를 진행해야 하는 실무진 분들께 설명할 때 사용!

📌 그래프에 필드 값 크기 적당하게 조절하기!

📌Scatter plot은 마크 크기 고려하기!

 

1.3 Tableau Desktop Specialist

(1) 태블로 자격증 종류

1. 태블로 데스크탑 스페셜리스트 : 비교적 난이도 쉬움, 기간 x

2. 태블로 데이터 애널리스트 : 난이도 어려움, 2년 기간에 250불

 

(2) 시험 형식

전부 이론, 45개 문제, 객관식, 60분

보안 프로그램이 버벅거릴 수 있는데, 채점자에게 더 달라고 요구할 수 있다.

 

(3) 문제 유형

1. 데이터 준비 25% - JOIN-Realation Ship 차이 설명해라~

2. 데이터 탐색 및 분석 35% - 어떤 차트 만들 때 차원 몇 개 필요하냐~

3. 인사이트 공유 25%

4. 태블로 개념 및 이론 이해 15%

 

실무에 유용한 게 2

많이 틀리는 게 1,4 → 암기 위주! tds 파일 왜 쓰는지 등

 

1.4 Tableau Desktop Specialist 기출 간단 정리

Domain 1 : Connecting to and Preparing Data

1. 태블로 파일은 어디서 찾을 수 있고 저장되는지!

Documents - My Tableau Repository - Shape

 

2. 추출을 해서 좋은 점?

support laged data sets

help improve performance

support additional functionality??? - 추출을 하지 않으면? count distinct가 안 된다~ 거의 출제 안 되기는 함

provide offline access to your data set - 오프라인에서도 사용 가능!

 

3. 추출은 두 가지

tds, tdsx 들이 왜 사용되는지? 장점?

atds, tdsx는 groups, sets, calculated fields, bins, number formats and sort order 등이 저장되지만? 만들어 놓은 시각화는 전부 사라짐!

그럼 언제 사용할까? : 식들만 공유하고 싶을 때

조건 : 데이터 셋을 첨부시키지 않는 통합된 패키지 파일이 아님.

내가 x에게 넘긴다? 그럼 x가 데이터 셋이 있거나 cloud에 접속할 수 있어야 하고

DB에서 데이터 끌어올 수 있는 권한 즉, ACCESS가 있어야 함!

 

4. twb, twbx?

내 시각화 공유하고 싶을 때 twb, twbx 보내면 댐

베스트는? 당연 twbx

tds가 좋은 건 시각화 공유 안 하고 식들만 공유할 수 있는 거

 

5. JOIN VS Relationship (블렌딩은?)

주황색으로 연결되는 게 JOIN이 아님

JOIN : merge 되는 새로운 데이터 셋이 생성

→ 집계 전 테이블 창조

→ JOIN은 MAX 32개까지 가능

 

Relationship : 계약 관계!

→ LOD를 지키고 필요할 때만 끌어오는 것

→ LOD는 JOIN 시 행이 여러 개 더 생김으로 결과가 달라질 수 있음

→ 내가 이 친구를 연결하고 싶을 때만 필드 명 동일한 거 찾아서 끌어오는 것

Relationships : dynamic, flexible, noodels라고 불림

 

6. Add Joins and unions

JOIN : Column이 증가

UNOIN : Row가 증가

→ UNION 조건 : Column 이름이 같아야 한다

 

7. Creating Blends

: LEFT JOIN과 동일하기 때문에 → Primary, Secondary가 중요하다!

Primary-Secondary가 중요한 JOIN은 OUTER

화살표 표시 - 프라이머리, 세컨더리 - 주황

링크 주황색 - 링크가 되어 있다는 뜻

필요 없으면 끌 수 있음

 

8. Rename a data field

시험 때는 태블로 킬 수 없기 때문에 순서, 작동되는 간단한 것들 써 놓는 거 좋음

특히 필드 이름 바꾸는 부분은 출제 빈도 수가 높다

(1) 데이터 원본에서 더블클릭해서 필드 이름 변경 double click the filed

(2) 아래 클릭하고 이름 바꾸기

(3) 시트에서 이름 바꾸기 → 엑셀 시트에서 실제로 바뀌지는 않음

 

9. Assign an alias to a data value

별칭은 무조건 차원에서만 만들 수 있다! measure에서 절대 만들 수 없음

 

만드는 두 가지 방법

(1) 왼쪽 탭에서 우클릭 - 별칭 편집

(2) 드래그 - 드롭되어 있는 차원 우 클릭 후 별칭 편집

 

10. Dimension and measure

(1) numeric → measure

(2) qualitabtive data → dimension

(3) measure에서 dimension 바꿀 수 있나? 가능!

  • LOD에 영향을 줄 수 있는 건? 오직 Dimension
  • discrete filed는 파랑! → 드래그 드롭 하면? header

 

Domain 2: Exploring and Analyzing Data

1. Create a line chart

- date - discrete에는 week number가 없다!

- date default chart = line chart

 

2. Create a scatterplot

- 원하는 차원을 세부사항에 넣어서 세분화할 수 있다! 쪼개기 가능

- 트렌드 라인 추가 가능

 

3. Create a dual axis chart / Create a combined axis chart

- dual axis chart / combined axis chart 차이?

dual aixs는 그냥 이중축, combined axis는 막대사탕 차트 같이 모양 바꿔서 결합하는 거!

근데 같냐고 물어보면? 같다~

 

- 자주 하는 실수 : 1. 축 동기화를 하지 않아 숫자 실수, 2. 이해를 어렵게 만듦

 

4. Create a map using geographic data

- filed 맵, symbol 맵 차이? 차이는 크기가 있냐 없냐 차이!

- symbol 맵은 size, color 같이 있을 수 있고

- 그냥 맵은 color로만 조정할 수 있다!

- geocoding?

실무에서 쓰는 데이터는 더러운 경우가 있다 → 어디선 서울, 서울특별시

그래서 때에 따라 위경도 수동 타이핑, 클릭해서 맞추는 법 있다.

한국 데이터를 갖고 있는데 언어가 영어면 미국으로 지역이 설정되는 경우가 있다. → Edit Location으로 맞춰줄 수 있다.

 

5. Organize dimensions into a hierarchy : 계층화의 장점

- 정렬해서 보기 편하다

- 쉽게 추가 제거할 수 있다.

- 계층이 맵에 줄 수 있는 장점! → city, state 등이 겹쳐서 ambiguous라고 나오는 경우가 있다! → 계층을 설정해 주면 자동으로 인식을 해서 이 문제를 해결해 줄 수 있다

 

6. Add a filter to the view

- 필터는 디폴트로 해당 시트에만 영향을 줌

- date filter는 원하는 연도만 선택 가능

- 모든 필터는 원래 independent 하다! 그렇지만 컨택스트 필터가 추가되면 나머지는 dependent!!!

 

7. Sorting and manual sort : 정렬하는 방법을 고르라는 문제가 나올 수 있음

- 위 메뉴 바에 asc, desc 버튼

- 그래프의 경우 header 옆에 버튼

- dimeansion 우 클릭 후 sort에서 조절

- manual sort는 다른 sort에 의해 변하지 않는다.

 

8. histogram

- 분포를 확인하기 위해 사용

- only need 1 measure to create a histogram

 

9. Trend lines offer 5 options!! 외우기

a. linear

b. logarithmic

c. expotential

d. polynomial

e. Power

 

10. reference lines 3 options 외우기

a. table

b. pane

c. cell

 

Domain 3 : Sharing Insights

1. Viz animation (2020.1에 생김)

a. format - animation

b. workbook default - 모두 적용 가능

c. separte sheet 따로 적용 가능

d. simultaneous animation - default! 실플하고 빠르다

e. sequential animation - 콤플렉스 차트를 스텝바이 스텝으로 보여주고 싶을 때, 오래 걸림

f. Unsupported browser and features - 무조건 외우기

  1. 인터넷 익스플로어 뺀 나머지 모든 웹브라우저에서 작동함!!!!!!!!
  2. map, polygon, and density marks in web browser!!! - 얘네는 웹 브라우저에서만 작동 안 함
  3. 1,2번이 가장 중요

 

2. 대시보드 레이아웃

- Tiled, Floating 
a. 필터나 카테고리를 위에 줄이 두 개가 있는 곳을 잡고 웁직임

b. 대시보드 레이아웃을 디바이스를 이용해서 바꾸기
   1 디폴트 레이아웃이 좋음 왜냐하면 디바이스를 정하는 순간 어느 디바이스에서도 설정한 레이아웃으로 보임 
   2 Size phone에서는 fit width 사용을 추천함

c. Fixed size, range, automatic 배치


2. 대시보드 액션
a. Hover, menu, select 
b. Go to URL! (Hyperlink 삽입)


3. Creating Story 
a. a story is a sequence of visualizations that work together to convey information 
b. 하나의 스토리에는 하나의 시트 or 대시보드만 가능
c. Each individual sheet in a story is called a story point 

 

Domain 4: Tableau Server

1. Tableau Online

a. 돈 내고 만들 수 있는 서버! 회사가 돈 내고 사는 private한 공간

장점 : 데이터 소스 관리자를 1명 두고 편하게 관리할 수 있다. → 데이터 뽑아서 올리면 연결된 모든 대시보드 데이터 바뀜

a. 데이터 소스 관리 및 작업자 관리 유용
b. DB 데이터 관리 유용 데이터 변경 유용

 

2. 파일 형식 *

twb - 통합문서 : 통합문서가 공유할 수 있게 다운로드가 되는 것 → 시각화 있고 데이터가 없다

→ 데이터가 밑에 다 blank 처리되어 있다 (껍데기만 존재)

twbx - 패키지 통합문서 → 데이터와 시각화 전부 추출해 오는 것

1-둘 다 똑같은 csv 파일이 있고, 권한이 있다면? 데이터 파일만 연결하면 되기 때문에 twb 나쁘지 않다

2-모든 컬럼이 같다는 전재하에 twb 낫밷

3-태블로 공식 뭐시기 에서는 무조건 twbx를 선호

 

 

tde, hyper - 추출 : hyper가 더 큰 추출 만들고, 빠른 추출 가능

→ 두 개 기능 똑같다! tde 특정 버전에서 업그레이드된 게 hyper

우측 사진에서 보이는 추출!

추출했을 때, 내 컴퓨터에 로컬하게 저장되는 게 tde, hyper

연결-추출로 바꾸고 시트 누르면 저장하라고 나오는 형식

 

추가로

더보기

추출 사용에 체크되어 있다면? 이미 tde or hyper가 있는 거

 

tds - 실제 데이터가 아니라 우리가 만든 계산된 필드, 그룹, 속성 변경 등이 그대로 저장이 된다!

→ 데이터 원본 파일이 붙어있지 않음, 때문에 동일한 파일이 있어야 함.

→ 시각화는 제외됨으로 이미 정제가 된 식, 속성, 그룹을 갖고 팀이 전부 다른 시각화 하고 싶을 때 사용!

 

tdsx - (tds + hyper, tde)

→ tds를 포함할까요? 문제 나올 수 있는데, 맞다! tds의 모든 걸 포함

→ 데이터는 포함되어 있지만 시각화는 사라져 있다.

→ 둘의 차이는 원본 데이터 파일이 있고 없고 (hyper, tde 포함 여부)

 

tde, hyper 동일한 데이터로 여러 개 만들 수 있는지?

→ 이름만 바꾸면 만들 수 있다.

data > 연결된 데이터 > Add to Saved Data Sources

 


 

배운 점 요약 및 시행착오/어려운 점

 

📌 프로젝트

 

 지난주에 작성한 레이아웃을 토대로 대시보드 + PPT까지 제작을 완료했다 데이터 부족 + 도전적인 주제로 걱정이 컸는데, 능력 있는 팀원분들 덕분에 괜찮은 아웃풋이 나온 거 같고 대단히 감사했다!!🥰 그리고 많은 대시보드를 접하고 피드백받으며 목적에 따라 사용하면 좋을 대시보드 레이아웃과 디자인을 배울 수 있어서 유익했다!

 아쉬웠던 점은 대시보드 1번에서 연령 등급 별 Installs 상위 카테고리 TOP 5를 꽉 찬 바 차트/구성 비율로 구현하는데 실패했다는 점, 또 모든 기능이 차원 필터를 기반으로 제작되었기 때문에 뒤늦게 수식을 추가하며 기능을 추가하기 어려웠던 점이다..

 이런 아쉬웠던 점을 기반으로 내게 부족한 점을 파악할 수 있었는데, 빠르게 수식을 만드는 능력이 부족하고 강화해야 한다는 점 + 시간적인 압박이 존재하는 프로젝트에서는 초장에 기반을 잘 다져야 하며 모든 부분을 꼼꼼하게 기록하며 수행해야 한다는 점이다!!!🐿️

 

📌 태블로 자격증

 

 처음 자격증을 공부하며, 태블로에서 당연하게 여기고 사용했던 모든 기능들을 텍스트로 마주하니 느낌이 색달랐다. 같은 기능인데 다양한 위치에서 사용할 수 있는 녀석들, 어려운 개념 등등 헷갈리는 것들을 머릿속에 딱딱한 텍스트로 이해하고 집어넣는데 어려움이 있었고 시간이 생각보다 오래 걸렸다ㅠㅠ 그래도 이론적인 기반을 다지고 가면 좋겠다고 생각했었는데 이번에 자격증을 공부하며 이 부분을 해소할 수 있어서 좋았다ㅎㅎ 딱 한 가지 큰 문제가 있었다면 금주에 시험에 응시하지 못했다는 사실이다! 주말에 시험 신청하면서 내 여권을 펼쳐봤는데 만료일이 쓱 지나 있었다.. 사전에 철저히 알아보고 준비했어야 했는데 그러지 못한 스스로가 너무 한심해져서 벙쪄있다 여권 재발급을 신청했다. 여권아 다음 주까지 꼭 나와줘야 해😭

 차주는 SQL을 배우는 시간이지만 준비했던 태블로 관련 내용들을 잊어버리지 않게 틈틈이 복습해야겠다!

 

2. 앞으로 적용해야겠다고 느낀 점이 있다면 무엇이고, 어떻게 해보면 좋을까요?

2.1 프로젝트 수행 시 고려할 사항들

1. 데이터 확인, 컬럼 이해 100% 해야 하고 어떤 게 조인할 수 있는 컬럼들 인지 확인, 메인 테이블도 확인

2. 테이블 조인 맵 만들기 (조인 컬럼 다 쓰기, 무슨 조인 쓰는지)  ->  실수 절대 금지, 미리 where 절 등등

3. Join 후 행 개수 확인 필수

4. 태블로에 import

 - 옵션 1: SQL 조인 테이블 엑셀 x CSV 변환 후 가져오기 

 - 옵션 2: 관계 설정

5. 추출 단계 (추출 후 시트로 넘어가기)

 - 간단한 건 데이터 원본 필터 걸기 -> 엑셀에 기입

 - .hyper 파일 이름, 날짜 제목에 적고 (조원 이름 적어도 됨)

 - location 설정 필수

 - 위 3개를 꼭 엑셀에 모두 기입

6. 데이터 검증 단계 -> 행, 컬럼, 별칭, 계층 모두 확인

7. 데이터 시각화

 

3. 현재까지의 학습 평가 및 다음 학습을 위한 다짐/목표를 공유해 주세요.

3.1 학습 평가

📌 태블로 수식 작성 능력 및 목적에 맞는 적절한 차트 구현 능력 부족📊

📌 발표 능력 부족 🗣️

 

3.2 다짐 및 목표

🔥 캐글 데이터로 SQL+태블로 사이드 프로젝트 진행🐹

🔥 진행한 프로젝트 발표 연습🐿️

🔥 자격증 취득🎖️


* 유데미 큐레이션 바로가기 : https://bit.ly/3HRWeVL 
* STARTERS 취업 부트캠프 공식 블로그 : https://blog.naver.com/udemy-wjtb 
본 후기는 유데미-웅진씽크빅 취업 부트캠프 4기 데이터분석/시각화 학습 일지 리뷰로 작성되었습니다.
 

#유데미, #유데미코리아, #유데미부트캠프, #취업부트캠프, #부트캠프후기, #스타터스부트캠프, #데이터시각화 #데이터분석 #태블로

Comments