Tabulear Data1. 전처리 (Preprocessing)1.1 결측치 처리 (Handling Missing Values)삭제 (Deletion): 결측치가 적을 때 사용하는 방법입니다.# 행 삭제df.dropna(axis=0, inplace=True)# 열 삭제df.dropna(axis=1, inplace=True)대체 (Imputation): 결측치를 평균, 중앙값, 최빈값 등으로 대체합니다.# 평균으로 대체df.fillna(df.mean(), inplace=True)# 중앙값으로 대체df.fillna(df.median(), inplace=True)# 최빈값으로 대체df.fillna(df.mode().iloc[0], inplace=True)예측 모델을 사용한 대체 (Model-Based Impu..
1. Data Acquirement1.1.1 데이터 불러오기keyword: read_csv, crosstab#read_csv 함수 사용하여 데이터 불러오기flight = pd.read_csv('./Clean_Dataset.csv', encoding = "cp949")# read_csv 함수의 파라미터를 활용하여 원하는 칼럼만 가지고 데이터 프레임 만들기 flight2 = pd.read_csv('./Clean_Dataset.csv', index_col='stops', usecols=['stops', 'departure_time','arrival_time','destination_city'])# crosstab확인하기 pd.crosstab(index=flight.source_city, columns=fli..
1. 항공권 가격 예측 모델링 [회귀]1. 데이터 파악 및 전처리(결측치 처리, 중복 data point 처리, feature selection 등)# 데이터 불러오기# 판다스 라이브러리 불러오기import pandas as pdcdf = pd.read_csv("../data/Clean_Dataset.csv")# 학습시간 단축을 위해 5000건만 추출하기cdf = cdf[:5000]# 데이터 확인하기cdf.head(1) -----------------------------------------------------------------------------------------------# 데이터 전처리하기 # Unnamed: 0 데이터 분포 확인하기cdf["Unnamed: 0"].value_counts..