본문 바로가기
도전기/빅분기

혼공_DAY_03_빅데이터 모델링

by Qookoo 2024. 9. 3.
반응형

 

 

RNN의
장기 의존성 문제 보완
LSTM

GRU : 리셋 게이트, 업데이트 게이트
혼동행렬 F1 score 조화평균 (2ab / a+b)
오즈비 흡연 여부에 대한 폐암 오즈비 = 흡연자의 폐암 발병률 odds / 비흡연자 폐암 발병률 odds
odds = p / (1 - p) 
다중 로지스틱 종속변수가 범주형, 독립변수가 연속형이거나 둘이상
시계열 데이터에서의 공분산 기법 자기상관
다중공선성 평가 지표 회귀분석의 회귀계수 중 독립변수들간의 관계성 

VIF 분산 팽창지수 기준 10 이상일 경우 다중공선성 강함

Mallow의 CP 통계량 / 최소 장승법 : 회귀분석 평가기법?
스튜던트 잔 : 수정예측값?
의사결정나무 알고리즘 엔트로피 C45,
C5.0
CART
CHAID
다중선형회기 평가지표 MSE, MAE

변수 선택 기법(BIC, AIC)
랜덤 포레스트 부트스트랩된 샘플과 배깅 수
배깅 약 분류기를 결합하여 강 분류기 생성
트리로 만든 예측은 다른 트리들과 상관 관계가 작아야 함


알파컷?

의사결정나무  값 결정 

 

 

결정계수 결정계수는 표본수가 증가하면 커지는 경향
독립변수 개수가 증가하면 커짐
적합하지 않은 독변 투입되면 결정계수 증가
시계열 데이터 분석 추세변동은 장기적인 추세경향이 나타나는 것
이동평균법은 관측값 전부에 동일한 가중치를 부여하고 평균을 계산하여 예측
Causal Analysis Causal InFerence 어떤한 사건의 원인을 알지만 원인이 되는지 아닌지를 의심이 되는 입력을 따로 정의할 수 있다.
Causal Discovery 어떤 현상 자체, 즉 Y를 스스로 정의할 수 있는 방법론
인접 행렬을 상호 연결성을 나타내는 지표로 사용
다중선형회귀모델의 가정 오차항은 각 독립변수와 독립적
각 독변수는 종속변수와 선형관계
오차항은 평균이 0 분산이 일정한 정규분포 

선형성, 독립성, 등분산성, 비상관성, 정상성

다중공선성 검사 방법
VIF 10보다 크면 심각한 문제
상태지수 : 10이상이면 문제있음, 30보다 크면 심각, 선형관계가 강한 변수 제거
통계적 추론 설명 목적 : 추정과 가설검정
점추정: 모집단의 특성을 하나의 수치로 추정
구간 추정: 모분산을 알고있다면 표본의 크기와 관계없이 정규분포
회귀분석 모형의 구축 절차 독변, 종변 설정 - 회귀계수 추정 - 독변 회귀계수 유의성 검정 - 모형 유의성 검정
과적합방지 입력노드수 줄임
에폭시 수를 줄임
히든 레이어 수 줄임
부스팅  가중치로 약분류기를 강분류기로 만듬
보팅에 비해 에러 적음
병렬적 학습 불가
속도가 상대적으로 느리며 오버피팅 될 가능성이 있음
로지스틱 회귀 분석의 모형의 회귀계수 설명 종변 1단위 증가 오즈는 지수배 증
   
반응형