본문 바로가기
도전기/빅분기

혼공_DAY_02_빅데이터 탐색

by Qookoo 2024. 9. 3.
반응형

 

확률분포의 정의 기하
포아송
정규
이항확률
표본 평균값, 표본 분산 /N, /N-1
최대 최소 정규화 데이터 - 최소 / (최대 - 최소)
노이즈 제거 방법 정규화
스무딩
이산화 / 
이동평균
회귀계수 독변 12개, 절편, 독립변수 1개 범주 3가지
(3-1)*12 + 1
원-핫 인코딩 범주형 변수를 수치형 변수로 변환
범주 간의 거리 계산 무의미
변수간의 영향도 확인 가능
비정형데이터 특성 양이 많음, 다양한 형식과 구조 가짐(키컬도그),
데이터 레이크 사용
NoSQL 도 사용
클래스 불균형 언더샘플링 혹은 오버샘플링으로 해결
클래스 개수와 무관
언더샘플링, 오버샘플링 조함 사용 가능
파생변수 기존 변수에 근거하여 새로운 변수 생성
모델의 설명력을 향상, 예측능력을 개선
BMI 계산
머신러닝과 딥러닝 딥러닝 < 머신러닝 < AI

 

 

주성분 분석(PCA) 공분산 사용
데이터 행렬을 비음수 행렬로 가정할 수 있음
고윳값이 큰 순서로 선택하여 변동성 설명력 좋은 성분 찾음
차원 축소, 데이터 시각화, 변수 선택, 잡음 제거 분야 활용

상자수염(Box Plot)  
연속형 변수 / 범주형 수치형 / 혈액형
이상값 발생 원인 측정, 처리, 표본
기초 통계량 사분위수 25, 50, 75 , 100 / IQR 3분위에서 1분위수 차
왜도는 분포의 기울어진 정도
첨도 값이 3에 가까우면 정규분포와 비슷
변동계수는 측정단위가 서로 다른 자료를 비교
이산확률분포 다항 분포
포아송 분포
기하 분포
연속확률분포 지수 분포
결측치 처리 방법 대체법) 단순 다중 회귀
(X 삭제법)
이상치 처리 및 평가 이상치를 평균를 대치하면 분포와 특성이 왜곡 될 수 있음
Z 스코어, 사분위수범위(IQR), 표준편차 이상치 평가
도메인 전문가의 지식과 경혐을 활용 데이터 이상치 식별
상자그림, 히스토그램, 산점도 등 이상치 확인
시계열 분포도 단순하게 판단
데이터 정제 데이터 축소 실시 하지 않음

 

반응형