본문 바로가기
반응형

빅데이터분석기사3

003_제3유형_구름 기반 실습 import pandas as pd from scipy.stats import chi2_contingency # Load the Titanic dataset df = pd.read_csv("data/Titanic.csv") # Create a contingency table for 'Gender' and 'Survived' table = pd.crosstab(df['Gender'], df['Survived']) # Perform the chi-squared test statistics, p, degrees_of_freedom, expected = chi2_contingency(table) # Print the chi-squared statistic rounded to 3 decimal placesprin.. 2024. 11. 12.
002_제2유형_구름 기반 실습 체험 제2유형import pandas as pd train = pd.read_csv("data/customer_train.csv") test = pd.read_csv("data/customer_test.csv")   #1. 데이터 유형 파악  print(train.info())print(test.info())> RangeIndex: 3500 entries, 0 to 3499Data columns (total 11 columns): #   Column   Non-Null Count  Dtype  ---  ------   --------------  -----   0   회원ID     3500 non-null   int64   1   총구매액     3500 non-null   int64   2   최대구.. 2024. 11. 11.
혼공_DAY_01_빅데이터 분석 기획 맵리듀스 패턴조인패턴파일전송 FTP네트워크 공유  여러 호스트 컴퓨터의 데이터에 접근 방식 외부데이터 이용시 장점다양한 데이터의 선택권(내부 데이터 : 비용 저렴, 보안 우수, 소유권 취득)데이터 정제 유형이상치 처리노이즈 처리결측치 처리(분석 방법 유형: 데이터 전처리, 변환, 마이닝)빅데이터 시대의 위기 요인사생활 침해     > 동의에서 책임으로책임원칙 훼손 > 결과 기반 책임 원칙 고수데이터 오용     > 알고리즘 접근 허용데이터 분석 수준진단 결과정착형 / 준비도 낮음준비형 / 준비 필요도입형 / 분석업무, 기법 등 부족, 조직의 준비도 높음확산형 / 6가지 분석 구성 요소 갖춤, 확산이 필요한 경우분석 준비도의 진단영역데이터, 인력, 조직 , 분석업무, 분석 기법빅데이터의 특성다양성( 반정형.. 2024. 9. 3.
반응형