Python

[Python] population실습

deseodeseo 2023. 8. 22. 20:10
score.mean()

population_number = pd.read_csv('population_number.csv', encoding='euc-kr', index_col='도시')
population_number

2015년 values의 개수
# value_counts하면 해당 숫자가 몇번씩 등장하는지 알 수 있음. (= 횟수)
# 결측치(Nan)는 제외하고 숫자를 세어준다.
population_number['2015'].value_counts()​

2010년 values의 개수 ?
population_number['2010'].value_counts()

정렬(sort)
- sort_index : 인덱스 값을 기준으로 정렬
- sort_values: 데이터 값을 기준으로 정렬
가나다 순으로 정렬됨(오름차순)
population_number.sort_index()

 

내림차순으로 정렬(ascending = false)
population_number.sort_index(ascending=False)

population_number['2010'].sort_values()

population_number['2010'].sort_values(ascending=False)

< score 실습 >

'합계' 컬럼 생성
1. 과목별 총합 값 구하기
2. 컬럼 생성
score['합계']=score.loc[:,'1반':'4반'].sum(axis=1)
score

score.loc[:,'1반':'4반']


score['평균']=score.loc[:,'1반':'4반'].mean(axis=1)
score
# 강사님 방식
score['평균']=score[['1반','2반','3반','4반']].mean(axis=1)
score

반 평균 행 데이터 생성
1. 반 평균 값 구하기
score.mean()

apply 함수 적용
- 행 ,열 단위로 더 복잡한 처리를 할 때 사용
함수 정의
- 과목별 max와 min점수 차이 구하

- 카테고리 생성하기
- 데이터를 구간별로 구분하기!
# 변수 생성
ages = [0,2,10,21,23,36,38,39,42,45,47,53,54,61,64,26,27,99,100,85,87,93]
# 카테고리 화( 구간 필요 )
bins = [0,15,25,35,60,99] # 구간
# 구간은 초과 ~ 이하 
labels= ['미성년자','청년','중년','장년','노년'] # 구간의 이름
# 1 ~ 15 : 미성년자
# 16 ~ 25 : 청년
# 26 ~ 35 : 중년
# 36 ~ 60 : 장년
# 61 ~ 99 : 노년 ( 구간에 해당하지 않는 100 의 경우에는 NAn 결측값으로 출력됨.)
cats = pd.cut( ages, bins, labels = labels )
cats