반응형
확률분포의 정의 | 기하 포아송 정규 이항확률 |
표본 평균값, 표본 분산 | /N, /N-1 |
최대 최소 정규화 | 데이터 - 최소 / (최대 - 최소) |
노이즈 제거 방법 | 정규화 스무딩 이산화 / 이동평균 |
회귀계수 | 독변 12개, 절편, 독립변수 1개 범주 3가지 (3-1)*12 + 1 |
원-핫 인코딩 | 범주형 변수를 수치형 변수로 변환 범주 간의 거리 계산 무의미 변수간의 영향도 확인 가능 |
비정형데이터 특성 | 양이 많음, 다양한 형식과 구조 가짐(키컬도그), 데이터 레이크 사용 NoSQL 도 사용 |
클래스 불균형 | 언더샘플링 혹은 오버샘플링으로 해결 클래스 개수와 무관 언더샘플링, 오버샘플링 조함 사용 가능 |
파생변수 | 기존 변수에 근거하여 새로운 변수 생성 모델의 설명력을 향상, 예측능력을 개선 BMI 계산 |
머신러닝과 딥러닝 | 딥러닝 < 머신러닝 < AI |
주성분 분석(PCA) | 공분산 사용 데이터 행렬을 비음수 행렬로 가정할 수 있음 고윳값이 큰 순서로 선택하여 변동성 설명력 좋은 성분 찾음 차원 축소, 데이터 시각화, 변수 선택, 잡음 제거 분야 활용 |
상자수염(Box Plot) | |
연속형 변수 / 범주형 | 수치형 / 혈액형 |
이상값 발생 원인 | 측정, 처리, 표본 |
기초 통계량 | 사분위수 25, 50, 75 , 100 / IQR 3분위에서 1분위수 차 왜도는 분포의 기울어진 정도 첨도 값이 3에 가까우면 정규분포와 비슷 변동계수는 측정단위가 서로 다른 자료를 비교 |
이산확률분포 | 다항 분포 포아송 분포 기하 분포 |
연속확률분포 | 지수 분포 |
결측치 처리 방법 | 대체법) 단순 다중 회귀 (X 삭제법) |
이상치 처리 및 평가 | 이상치를 평균를 대치하면 분포와 특성이 왜곡 될 수 있음 Z 스코어, 사분위수범위(IQR), 표준편차 이상치 평가 도메인 전문가의 지식과 경혐을 활용 데이터 이상치 식별 상자그림, 히스토그램, 산점도 등 이상치 확인 |
시계열 분포도 | 단순하게 판단 |
데이터 정제 | 데이터 축소 실시 하지 않음 |
반응형
'도전기 > 빅분기' 카테고리의 다른 글
002_빅데이터분석기사 실기_단기간_합격_준비 (1) | 2024.10.02 |
---|---|
000_빅데이터 분석기사_필기_합격수기_ADP비교 (0) | 2024.09.22 |
혼공_DAY_04_빅데이터 결과 해석 (0) | 2024.09.04 |
혼공_DAY_03_빅데이터 모델링 (0) | 2024.09.03 |
혼공_DAY_01_빅데이터 분석 기획 (0) | 2024.09.03 |