DeseoDeSeo
[Python] TrainData 실습 본문
승객 데이터 읽어오기
import pandas as pd
train = pd.read_csv('train.csv', index_col='PassengerId')
train
상위 5개 데이터 추출
train.head()
- 891개의 행, 11 컬럼.(?!) # 891명의 정보가 들어있음.
- 여기서 행의 개수와 아래서 count의 개수를 보면 age, cabin, embarked의 개수가 891개로 일정하지 않기에
결측치가 존재함을 알 수 있음.
train.shape
각 컬럼별 데이터의 개수 확인
train.count()
승객 중 성별 인원수, 선실별 인원수, 사망/생존별 인원수, 나이별 인원수 구하기
train['Sex'].value_counts()
등급 별 인원 수
train['Pclass'].value_counts()
train['Survived'].value_counts()
train['Age'].value_counts()
나이 정보 카테고리 만들기
ages = train['Age']
bins = [0,15,25,35,60,99] # 구간
# 구간은 초과 ~ 이하
labels= ['미성년자','청년','중년','장년','노년'] # 구간의 이름
# 1 ~ 15 : 미성년자
# 16 ~ 25 : 청년
# 26 ~ 35 : 중년
# 36 ~ 60 : 장년
# 61 ~ 99 : 노년 ( 구간에 해당하지 않는 100 의 경우에는 NAn 결측값으로 출력됨.)
cats = pd.cut(ages,bins, labels=labels)
# 컬럼 추가
train['Cats'] = cats
train.head()
타이타닉호 승객을 사망자와 생존자로 나누고 각 그룹에 대한 나이대별 비율 구하기
- dropna는 결측치 제외하기
survived1 = train[train['Survived']==1]
survived1['Cats'].value_counts(dropna=False)/survived1['Cats'].count()
# 사망자
survived0 = train[train['Survived']==0]
survived0['Cats'].value_counts(dropna=False)/survived0['Cats'].count()
'Python' 카테고리의 다른 글
[Python] CrimeData 실습 (0) | 2023.08.23 |
---|---|
[Python] DataFrame 병합 (0) | 2023.08.23 |
[Python] population실습 (0) | 2023.08.22 |
[Python] Pandas 모듈 Series Class (1) | 2023.08.22 |
[Python] BMI 실습 , 영화 평점 데이터 연산 (0) | 2023.08.21 |