반응형
SVM의 하이퍼 파라미터 최적화 | leave one out 두명의 분석가의 분석결과를 동일하게 하기 위한 방법 5 fold 교차 검증 T- V- T 부트 스트래핑 |
초매개변수 튜닝 | 그리드 서치 : 가능한 모든 조합 시도 랜덤 서치 : 정해진 범위내 랜덤하게 변수 추출 시도 베이지안 최적화 : 이전에 학습한 결과를 참고하여 초매개변수 설정 |
혼동행렬 | 정확도 TP+TN / all 정밀도 TP / TP+FP F1 정밀도 재현율의 조화평균 재현율 TP / TP+FN |
군집의 수 지정 지정하지 않아도 되는것 |
가우시안 믹쳐 모델(Gaussian Mixture Model) K 개 군집수 지정 DBSCAN 밀도 기반 알고리즘 |
인포그래픽 유형 | 타임라인 : 역사적 사건이나 PJ 진행 상황 등을 시간 순으로 나열하여 전달 콘셉트 맵 : 주제, 내용의 연관성을 중요시 여기는 유형 |
비교시각화 도구 | 두 독립된 변수의 분포를 비교 설명에 사용 히트맵은 값의 분포를 색(온도)으로 표현하여 시각적인 효과 제공 체르노프 페이스 데이터 표현에 따라 달라지는 차이를 얼굴의 모양으로 나타냄 |
시간 시각화 | 막대 그래프 : 가로축 시간축으로 하여 시간 시각화 도구로 사용할 수 있음 점 그래프 : 시간 시각화 도구로 사용할 수 있음, 점과 점사이를 연결함 선그래프로 변환 선 그래프 : 연속적인 데이터를 표현 |
ROC 곡선 | Y값 : 민감도(재현율) TPR X값 : 1-FPR, , 특이도 FPR 특이도가 증가할수록 민감도는 감소함 곡선아래 면적이 0.5에 가까울수록 성능이 나쁨, 1에 가까울 수 로지스틱 회귀분석 모형의 성능을 측정하는 데 사용할 수 있음 특이도는 음성인 케이스를 음성으로 잘못 예측한 비율 |
Kolmogorov-Smirnov 검정 설명 | 2개의 집단이 동일한 분포를 이루고 있는지 검증 비모수 검정방식 데이터가 정규분포를 따르는 지를 검증 누적분포함수를 사용하여 두 분포의 차이를 측정 |
분석모형 만드는 경우 적합한것 | 무의미한 것) 임의의 1000개 변수를 선택하고 학습하는 과정을 100번 반복 1,000개 변수 선택, 학습 데이터, 검증 데이터 분할해서 평가 변수들 사이의 상관 관계를 분석하여 종속변수와 관련 있는 독립변수 선택 분석 대상 도메인에 대한 전문지식 활용하여 변수를 선택 |
K-fold 교차 검증 학습 과정 | 데이터셋을 k개로 나눔, 하나를 검증 데이터, 나머지 k-1개를 학습 데이터 셋으로 선택 학습과 검증을 k번 반복, 평균 값으로 모델 성능 평가 반복으로 얻은 성능 지표들을 평균하여 최종 성능 지표 산출 k값이 클수록 더 정확한 성능 지표 추정 |
다중 회귀 분석 | |
데이터분할 방법 | 홀드 아웃 : 데이터를 훈련 데이터셋과 테스트 데이터셋으로 분할 훈련 데이터셋으로 학습 스트라티파이드 방법 데이터를 8:2로 나누어 검증 테스트 데이터셋으로 성능 확인 |
산점도 | x, y 값이 만나는 지점을 표시한 그림으로 두변수 사이의 관계 알 수 있음 |
학습률 | 하이퍼 파라미터 학습률은 0과 1사이 값으로 설정됨 작을 수록 학습시간이 오래 걸림 학습률이 크면 반복 횟수는 적어짐 |
배깅 | 부트스트랩 샘플링을 이용한 앙상블 기법 불안정한 모형일수록 좋은 성능 발휘 별도의 검증 데이터 없이 out of bag데이터를 초매개변수를 최적화, 성능 검증을 할 수 있음 모델의 평향과 분산을 줄일 수 없음 |
데이터 시각화 | 대규모 데이터의 특징을 설명하기 위해 사용 박스 플롯은 데이터의 이상치 식별 히스토그램은 연속적인 변수의 분포를 막대형태로 표현 |
매개변수와 초매개변수 설명 |
둘다 학습 시작하기전에 정할 필요없다 매개변수는 모델의 학습의 결과로 정해짐 |
기계학습과 통계분석 | 기계학습은 주어진 데이터로부터 패턴을 학습하고 예측하는 모델 개발이 목적임 통계분석은 데이터를 통해 추론, 결론을 도출하는 것을 목적 가설성정, 검정 및 신뢰구간 추정을 통해 모델을 선택하고 결과를 해석 결과물에 대한 공식 도출 가 |
반응형
'도전기 > 빅분기' 카테고리의 다른 글
002_빅데이터분석기사 실기_단기간_합격_준비 (1) | 2024.10.02 |
---|---|
000_빅데이터 분석기사_필기_합격수기_ADP비교 (0) | 2024.09.22 |
혼공_DAY_03_빅데이터 모델링 (0) | 2024.09.03 |
혼공_DAY_02_빅데이터 탐색 (0) | 2024.09.03 |
혼공_DAY_01_빅데이터 분석 기획 (0) | 2024.09.03 |