관리 메뉴

DeseoDeSeo

[Python] TrainData 실습 본문

Python

[Python] TrainData 실습

deseodeseo 2023. 8. 23. 14:13
승객 데이터 읽어오기
import pandas as pd
train = pd.read_csv('train.csv', index_col='PassengerId')
train

 

상위 5개 데이터 추출
train.head()
- 891개의 행, 11 컬럼.(?!) # 891명의 정보가 들어있음.
- 여기서 행의 개수와 아래서 count의 개수를 보면 age, cabin, embarked의 개수가 891개로 일정하지 않기에
결측치가 존재함을 알 수 있음.
train.shape

각 컬럼별 데이터의 개수 확인
train.count()

승객 중 성별 인원수, 선실별 인원수, 사망/생존별 인원수, 나이별 인원수 구하기
train['Sex'].value_counts()

등급 별 인원 수
train['Pclass'].value_counts()

train['Survived'].value_counts()

train['Age'].value_counts()

나이 정보 카테고리 만들기
ages = train['Age']
bins = [0,15,25,35,60,99] # 구간
# 구간은 초과 ~ 이하 
labels= ['미성년자','청년','중년','장년','노년'] # 구간의 이름
# 1 ~ 15 : 미성년자
# 16 ~ 25 : 청년
# 26 ~ 35 : 중년
# 36 ~ 60 : 장년
# 61 ~ 99 : 노년 ( 구간에 해당하지 않는 100 의 경우에는 NAn 결측값으로 출력됨.)
cats = pd.cut(ages,bins, labels=labels)
# 컬럼 추가
train['Cats'] = cats
train.head()

타이타닉호 승객을 사망자와 생존자로 나누고 각 그룹에 대한 나이대별 비율 구하기
- dropna는 결측치 제외하기
survived1 = train[train['Survived']==1]
survived1['Cats'].value_counts(dropna=False)/survived1['Cats'].count()

# 사망자
survived0 = train[train['Survived']==0]
survived0['Cats'].value_counts(dropna=False)/survived0['Cats'].count()

'Python' 카테고리의 다른 글

[Python] CrimeData 실습  (0) 2023.08.23
[Python] DataFrame 병합  (0) 2023.08.23
[Python] population실습  (0) 2023.08.22
[Python] Pandas 모듈 Series Class  (1) 2023.08.22
[Python] BMI 실습 , 영화 평점 데이터 연산  (0) 2023.08.21