반응형 도전기92 008_유형3 import pandas as pd # pandas: 데이터프레임 생성, 조작, 분석을 위한 라이브러리import scipy.stats as stats # scipy.stats: 다양한 통계 분석 함수 제공from math import sqrt # math.sqrt: 제곱근 계산 함수 (이 코드에서는 사용되지 않음)import numpy as np # numpy: 수치 연산, 배열 처리 라이브러리# 데이터 로딩 (iris 데이터셋을 DataFrame으로 읽어옴)df = pd.read_csv('yemoonsaBigdata/datasets/supplement/iris.csv')a = df.copy() .. 2025. 6. 19. 007_유형2 단계별 요약 및 코드 예시 상세 설명단계설명주요 코드 예시라이브러리 임포트pandas, numpy 등 데이터 처리 및 수치 연산 라이브러리 불러오기import pandas as pdimport numpy as np데이터 로딩CSV 파일에서 테스트/학습/타겟 데이터 읽기X_tt = pd.read_csv('.../penguin_X_test.csv')X_tr = ...y_tr = ...데이터 복사/확인데이터프레임 복사, info/shape로 구조 확인X_test = X_tt.copy()print(X_train.info())데이터 전처리결측치 확인 및 제거, 컬럼 분류(수치형/범주형/타겟)train = pd.concat([X_train, y_train], axis=1)train.dropna(inplace=Tru.. 2025. 6. 19. 006_유형2 1. 단계별 요약 표 (함수별 패키지 설명 포함)단계설명사용 함수/모듈 예시패키지 설명 및 목적1. 데이터 불러오기csv 파일을 DataFrame으로 읽어옴pd.read_csv()pandas: 데이터 분석 및 조작을 위한 라이브러리. CSV, Excel 등 다양한 데이터 포맷을 DataFrame으로 읽고 처리 가능.2. 데이터 복사원본 데이터 보존을 위해 복사본 생성.copy()pandas: DataFrame/Series의 복사본을 생성하여 원본 데이터 보존.3. 결측치 처리수치형 데이터의 결측값을 평균 등으로 대체SimpleImputer()scikit-learn(sklearn): 데이터 전처리(결측치 처리, 스케일링 등) 기능 제공.4. 불필요 열 제거분석에 필요 없는 열 삭제.drop()pandas:.. 2025. 6. 18. 005_유형2 단계주요 내용설명 및 코드 예시1라이브러리 및 데이터 불러오기pandas, sklearn 등 import, 데이터 로드2데이터 복사 및 정보 출력데이터 복사, info/columns/결측치 출력3결측값 처리'환불금액' 결측값 0으로 대체4범주형 변수 인코딩LabelEncoder로 '주구매상품', '주구매지점' 인코딩5학습/예측 데이터 분리타겟/피처 분리, 회원ID 등 불필요 컬럼 제거6데이터 스케일링MinMaxScaler로 수치형 변수 0~1 정규화7모델 학습선형회귀, 랜덤포레스트 회귀 모델 학습8예측각 모델로 테스트 데이터 예측9결과 저장 및 출력예측 결과 DataFrame 저장, 기술통계 출력, csv 저장10RMSE 평가학습 데이터 기준 RMSE 계산 및 출력 · 결측값 처리df['age'.. 2025. 6. 18. 004_유형2 아래의 코드 상세 설명 import pandas as pd train = pd.read_csv("data/customer_train.csv") test = pd.read_csv("data/customer_test.csv") from sklearn.ensemble import RandomForestRegressor from sklearn.preprocessing import LabelEncoder#결측치 처리 print(train.info()) train['환불금액']= train['환불금액'].fillna(0) test['환불금액']= test['환불금액'].fillna(0) print(train.info()) #사용자 코딩 #범주형 변수 인코딩 cat_cols = ['주구매상품', '주구매지점'] f.. 2025. 6. 16. 003_pandas DataFrame 주요 메서드/함수 및 속성 표 아래는 pandas DataFrame 관련 주요 메서드/함수 및 속성을 표로 정리한 것입니다.질문하신 “아래의 코드”가 구체적으로 어떤 코드인지 명확히 없으나,주로 사용되는 메서드와 속성, 그리고 도움말로 확인할 수 있는 주요 내용을 중심으로 정리합니다 메서드/속성설명 및 용도예시 코드비고help(pd.DataFrame)DataFrame 클래스의 도움말(메서드, 속성 등) 확인help(pd.DataFrame)대문자 주의df.dropna()결측치(NA, NaN)가 있는 행/열 제거df.dropna(subset=['근속연수'])axis, how, subset, inplacedf.fillna(value)결측치를 지정값으로 채움df['고객만족도'].fillna(평균값)value에 채울 값 지정df.describ.. 2025. 6. 15. 002_전처리_결측치 정리 dropna() 함수는 DataFrame 객체의 메서드이기 때문에,help(DataFrame.dropna) 또는 실제 DataFrame에 적용해서 도움말을 보는 방식이 맞습니다. #1 help로 dropna 메서드 사용법 확인 help(pd.DataFrame.dropna)#2 print(help(df.dropna)) 1. dropna() 함수 요약 표옵션/파라미터설명예시axis행(기본값) 또는 열을 기준으로 결측치 제거0 또는 'index': 행1 또는 'columns': 열df.dropna(axis='columns')how결측치가 하나라도 있으면 제거('any', 기본값)모두 결측치인 경우만 제거('all')df.dropna(how='all')thresh최소 non-NA 값 개수 지정이 개수보다 적으면.. 2025. 6. 15. 001_Reboot 전체 요약• math 모듈 임포트 및 수학 함수 사용• 변수, 리스트, 연산, 출력 포맷 연습• 소수점 출력 포맷 지정• 여러 줄 문자열 작성 방법• 함수 정보 확인 및 도움말 보기1. 모듈 임포트 및 간단한 출력 1. 모듈 임포트 및 간단한 출력import mathprint("output #1: I'm excited to learn Python")· import math: math 모듈을 불러옵니다.print(...): 문자열을 출력합니다 2. 변수와 연산 x=4 y=5 z=x+y print("output #2: Four plus five equals {0:d}".format(z)) • x, y, z: 변수에 값을 할당하고 더합니다. • .. 2025. 6. 15. 이전 1 2 3 4 ··· 12 다음 반응형