Pandas의 기초3 - 데이터 가공(데이터프레임 복사 / 데이터 삭제, 결측치 다루기)

January 16, 2024 1 분 소요

1. 데이터 깊은 복사 : df.copy()

# 결측치 존재하는 데이터
df = pd.read_csv("https://raw.githubusercontent.com/NeatyNut/csv/main/sample2_csv.csv")
data = df.copy()

보다시피 동일한 데이터를 복사하여 새로운 data라는 사본 데이터프레임을 만든다.

data = data.drop(5, axis=0) # axis는 생략가능
data

5번 인덱스 행이 삭제된 걸 확인할 수 있다.

✨ 인덱스를 리스트로 담아도 사용 가능

data = data.drop([1,2], axis=0) # axis는 생략가능
data

삭제할 인덱스를 리스트로 담아서도 삭제가능하다.

data = data.drop("거리", axis=1)
data

컬럼 “거리”를 삭제한 모습

data = data.drop(["거리","별점"], axis=1)
data

거리, 별점을 삭제한 모습

data.isnull() # 컬럼별 T/F 변환 ~ Null이면 T
data.isnull().sum() # 컬럼별 널값 숫자 확인 T=1/F=0인걸 이용하여 합산.

두가지 방법을 통해 Null의 위치 또는 개수를 알 수 있다.

Index별 결측치 개수

data["별점"] = data["별점"].fillna(3) # 별점의 결측치를 3으로 채움
data

Nan이었던 별점이 3으로 채워진 모습

data = data.dropna(axis=0) # 행 기준(axis 생략가능)
data = data.dropna(axis=1) # 열 기준