목록STARTERS 4기 🚉/TIL 👶🏻 (52)
ilovechoonsik

📖 오늘 내가 배운 것 1. 연산자 2. 산술함수 3. 조건문 4. 반복문 5, 사용자 정의 함수 6. 데이터 내보내기 7. 데이터 가져오기 8. 데이터 확인 및 조작 9. 데이터 그리기 10. 분석 실습 11. dplyr 패키지 설치와 파이프 연산자 12. dplyr 주요 함수 13. 데이터 조작 및 실습 14. 마무리 퀴즈 및 정리 1. 연산자 1.1 산술 연산자? - 프로그램이 산술적인 연산을 하도록 하는 연산자 종류 1.2 비교 연산자 - 두 데이터 사이의 크기 비교를 수행하는 연산자 > 결과는 논리형으로 리턴 1.3 비교 연산자 - 값 또는 자료구조 객체에 적용되는 논리기능 수행하는 연산자 > 결과는 논리형으로 리턴 벡터화? : 양쪽에 벡터가 들어왔을 때, 벡터의 원소 하나하나를 각각 비교해서 ..

📖 오늘 내가 배운 것 1. R이란? 전산 통계학을 위한 프로그래밍 언어 1.1 R 활용 가능 분야 (데이터 마이닝 - 데이터 채굴해서 정보를 얻는 학습) - 텍스트 마이닝 - 소셜 네트워크 분석 - 지도 시각화 - 주식 분석 - 이미지 분석 - 사운드 분석 SST (Speech to Text), 잡음 제거 - 웹 애플리케이션 개발 -> R 언어만을 사용하여 웹에서 데이터 분석 시각화 가능 1.2 데이터 처리과정 (1) 문제 정의 단계 문제 상황 : 대형마트 특가 상품과 함께 판매할 아이템 선정 데이터 마이닝? 특가 상품과 함께 결재 되는 아이템 로그를 수집/분석 -> 유의미한 정보 분석방향 기획 - 데이터 관리팀에 데이터 요청 -> 데이터 전처리 SI 요청 or 자체 인력 사용 -> 분석 -> 보고서 ..

📖 오늘 내가 배운 것 1. 집계, VIEW 1.1 집계함수 -> GROUPING 하는 구문들과 연계하여 많이 사용 COUNT 같은 경우 * 넣으면 전체 행 COUNT COLUMN 넣으면 해당 COLUMN COUNT (NULL 있으면 제외하고 COUNT) SUM도 NULL 제외하고 계산! 1.2 수치형 집계함수 1.3 기간 집계함수 1.4 VIEW와 집계함수 - VIEW? 2. 통계 기법 2.1 기본 통계 - 기술통계 : 데이터를 대표값을 중심으로 해서 해당 데이터의 주기적, 반복적 내용들 또 데이터에 이상, 결측치 판단하는데 사용 - 대표값 : 데이터 계수 count : 최대최소중간 max min median : 합평균 sum average : 순위 rank - 대표값은 중심경향성을 통해 판단! - 산..

📖 오늘 내가 배운 것 1. 조건 지정과 논리, 비교연산자, 패턴매칭 이해 1.1 WHERE? 조건 구문 - WHERE? : 테이블 질의 시 조건을 지정 -> 질의 결과에 필터를 검 - WHERE 구문에 사용 가능한 술어 구문 1.2 WHERE 조건과 패턴매칭 - LIKE 절 - LIKE 절 일치 조건 지정 1.3 NULL / LIMIT - NULL? : 아직 지정되지 않은 값 (0과는 다름) 1.4 ORDER BY - ORDER BY? : 쿼리 결과를 주어진 컬럼의 오름차순, 내림차순으로 정렬해 출력 ASC : 오름차순 DESC : 내림차순 1.5 DISTINCT - DISTINCT 연산자 : 조회된 결과에서 중복된 데이터를 제외하고 출력 1.6. 조건제어 - CASE WHEN 조회된 결과에서 중복된 ..

📖 오늘 내가 배운 것 1. RDBMS 소개/설치와 개발환경 소개 1.1 데이터베이스란? 다양한 목적에 맞게 데이터를 수집하고, 해당 데이터를 저장, 관리하기 위함 다음의 경우 일반화된 용어로 데이터 베이스로 사용 데이터를 수집/저장/관리하는 시스템 자체 데이터가 저장되는 장소 1.2 데이터베이스 정의 및 특징 1.3 DBMS/사용자/응용 프로그램 구성 1.4 데이터베이스 기능적 특징 1.5 데이터베이스 종류 - NoSQL? 시시각각 변하는 데이터의 모습, 형태를 기존 데이터 베이스에 넣고 관리하기 불편함이 있었음. 그래서 데이터를 정리하지 않고, 형태 구현하지 않고 즉시 조회/추출 하는 등의 목적을 가지고 써보자! 하는 게 NoSQL 1.6 관계형 DBMS란? 2. workbench 환경 세팅! sch..

📖 오늘 내가 배운 것 공공 데이터 분석 서울시 연간 기온변화 전국 지점별 기온 서울시 폭염, 열대야 현황 지역별 인구구조 연령별 인구구조 아파트 실거래가 상가(상권) 정보 -> 분석 및 시각화 1. 분석 프로세스 1.1 데이터 추출/준비 및 확인 목적 방안 1. 수집 개방포털 접속 및 다운로드 2. 데이터 프레임 생성 및 연결 concat() - axis - ignore_index 3. 데이터 확인 dtypes shape() info() unique(), nuique() 4. 전처리 isnull() drop() dropna() astype(), to_datetime() replace() loc[], iloc[] apply() 5. 목적에 맞는 서브셋 생성 다양한 기법 사용해서 가공 후 copy() 1...

📖 오늘 내가 배운 것 데이터 시각화 1. 데이터 시각화란? 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정 텍스트 기반의 데이터는 사람의 눈으로 파악하는 데 한계 있다. 장점 - 데이터 한눈에 파악 - 데이터 변화, 데이터 사이의 관계 쉽게 확인 가능 - 수치로만 파악하기 힘든 패턴이나 새로운 정보를 발견할 수 있다. 2. 스타일 설정 및 강조하기 2.1 그래프 수직/수평 선 그리기 (1) 수평선 그리기 plt.axhline(y좌표, x축시작위치, x축끝위치) 수평선의 길이가 1이라고 했을 때 x축시작위치, x축끝위치를 지정한다. 따로 지정하지 않으면 x축 전범위에 걸쳐 그려진디ㅏ. plt.hlines(y, x축시작좌표, x축끝좌표) plt.plot([1,2,3,4], 'k..

📖 오늘 내가 배운 것 데이터 시각화 1. 데이터 시각화란? 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정 텍스트 기반의 데이터는 사람의 눈으로 파악하는 데 한계 있다. 장점 - 데이터 한눈에 파악 - 데이터 변화, 데이터 사이의 관계 쉽게 확인 가능 - 수치로만 파악하기 힘든 패턴이나 새로운 정보를 발견할 수 있다. 2. 데이터 시각화의 목적 데이터 시각화의 목적은 graph를 통해 정보를 명확하고 효과적으로 전달하는 것. 목적에 따라 사용되는 그래프 시각화 목적 그래프 종류 시간에 따른 변화 plot 크기 비교/순위 bar(h) 데이터 비율 pie 데이터 분포 표현 histogram, boxplot, violinplot, heatmap 데이터 관계 scatter 지역 h..

📖 오늘 내가 배운 것 공공 데이터 분석 서울시 코로나 19현황 서울시 공공자전거 서울시 물가정보 지하철 승하차 현황 1. 분석 프로세스 1.1 분석 목적/가설 설정 : 이번 학습에서는 현황 파악에 초점 ex) 우리 지역에서 삼겹살 제일 싼 곳이 어디야! 거기로 가자~~ 1.2 전처리 방안 사용 도구 데이터 크기 확인 shape 결측치, 이상치 확인 및 제거 isnull, info, dropna 컬럼별 데이터 확인 unique, nunique 데이터 타입 확인 및 변경 astype, to_datetime (가능하면 카테고리형으로! = 메모리 절약) 필요 없는 컬럼 삭제 drop 새로운 컬럼 생성/분리, 테이블 생성 loc, iloc, concat, melt, apply -> 전 과정을 필히 수행할 필요는..

📖 오늘 내가 배운 것 1. loc, iloc 사용한 데이터 추출 데이터 프레임에서 원하는 데이터 추출을 도와주는 고마운 녀석들 두 녀석의 가장 큰 차이점은 loc은 이름을 통한 추출, iloc은 번호(순서)를 통한 추출 헷갈릴 수 있으니 같이 정리 1.1 행 데이터 추출 loc iloc df.loc[인덱스] 시리즈 형태로 추출 df.iloc[행번호] 시리즈 형태로 추출 df.loc[인덱스리스트] 데이터프레임 형태로 추출 df.iloc[행번호리스트] 데이터프레임 형태로 추출 df.loc[인덱스명슬라이스] 행 전체 추출, 슬라이스 시에도 인덱스 이름 사용해야 함 df.iloc[행번호슬라이스] 슬라이스로 범위 지정 추출 # 인덱스가 i1,i3,i5인 행 추출 df.loc[['i1','i3','i5']] # ..