안녕하세요 이번 포스팅은 Python의 Pandas 패키지를 이용한 DataFrame 함수를 활용하는 방법에 대해서 작성하도록 하겠습니다. Column별 출력과 Row 별 어떻게 Data Table을 원하는 방향으로 편집하는 방향까지 설명 드리도록 하겠습니다.
DataFrame을 통해서 데이터를 테이블화 하기
: 일단 DataFrame을 통해서 데이터를 테이블화 하도록 하겠습니다. 이전 포스팅에서 DataFrame에 대한 내용을 먼저 설명을 드렸습니다. 관련 내용을 안 보셨다면 아래 링크를 통해서 참조하시는 걸 추천 드립니다.
Python Pandas DataFrame 활용하기
안녕하세요, 이번 포스팅에서는 Python의 Pandas 패키지 함수 중에 DataFrame이라는 함수를 어떻게 활용하는지에 대한 내용으로 작성해보도록 하겠습니다. 쉬운 이해를 돕기 위해서 예시를 통해 설명
davey.tistory.com
▼ 그리고 추가적으로 Pandas 정규 문서를 구글에서 조회해서 공부하시는 것도 좋습니다.
일단 아래와 같이 코드를 작성하였습니다. 코드 내용을 보시면 Dictionary 를 이용하여 DataFrame 함수를 이용하여 Data를 테이블화 하는 걸 보실 수 있습니다. Column은 3개이고 행은 5개로 구성하였습니다.
# 필요한 패키는 선언함 - pandas와 numpy를 선언
import pandas as pd
import numpy as np
#임의의 데이터를 선언하여 DataFrame을 하기 위한 작업을 합니다.
#기본은 Dictionary 형태로 구성을 합니다.
data = {"names": ["Kim", "Park", "Jang", "Kim", "MC-Yoo"],
"NumberofYear" : [2014, 2015, 2017, 2018, 2019],
"Value": [90, 86, 77, 99, 75]}
새로운 Column을 추가하고 Index를 수정
: 위에서 선언한 Data 테이블에 Column을 추가하고 Index를 수정해보도록 하겠습니다. 새로 추가할 Column은 "remarks" 라는 Column 입니다. 그리고 index는 영어로 서수로 (first_row, second_row ~ fifth_row) 설정하도록 하겠습니다.
#df 라는 DataFrame 변수를 선언함
#Column와 Index를 사용자 정의를 통해서 설정함
df = pd.DataFrame(data, columns=["names", "NumberofYear", "Value", "remarks"],
index=["first_row", "second_row", "third_row", "forth_row", "fifth_row"])
# 전체 DataFrame을 전체적으로 출력합니다.
print(df)
위 코드를 실행해보면 아래와 같은 결과값을 보실 수 있습니다. 새로 추가된 "remarks" Column에는 따로 속성값을 지정하지 않았으므로 NaN 처리 되었습니다.
names NumberofYear Value remarks
first_row Kim 2014 90 NaN
second_row Park 2015 86 NaN
third_row Jang 2017 77 NaN
forth_row Kim 2018 99 NaN
fifth_row MC-Yoo 2019 75 NaN
▼ 실제적으로 값을 넣는 예제에 대해서 검색해서 한 번 예습을 해보시는 걸 추천 드립니다.
사용자가 원하는 Data 만 출력하는 방법
: 이제 DataFrame도 구현하였고, Column과 Index 수정하는 방법도 설명 드렸습니다. 그럼 이제 이 DataFrame 값 중에 원하는 값을 출력하는 방법에 대해서 추가 설명 드리도록 하겠습니다.
1) 한 개의 Column 의 값을 출력
: 한 예로, "NumberofYear" 의 Column Data를 출력하는 코드를 구성해보도록 하겠습니다. 그리고 출력하면 해당 Data만 출력이 되는 걸 확인 하실 수 있습니다. 이미 Column 명을 지정하였고 개수가 1개 이므로 따로 Column에 Data는 Column 위치가 아닌 Name 쪽에 출력이 됩니다.
# "NumberofYear" Column Data를 출력하면 아래와 같습니다.
print(df['NumberofYear'])
first_row 2014
second_row 2015
third_row 2017
forth_row 2018
fifth_row 2019
Name: NumberofYear, dtype: int64
그리고 위의 코드말고 아래 코드로 구현을 해도 똑같은 결과값이 출력이 됩니다. 참조 하세요
# 다른 형태로 년도 출력하면 아래와 같습니다
print(df.NumberofYear)
▼ 위에서는 년도를 기재하였지만, 각 년도의 띠를 나타내는 Column Data를 만들어 보는 것도 좋을 거 같습니다.
2) 복수 Column의 값을 출력
: 위에서는 한 개의 Column을 출력하였다면, 이번에는 복수의 Column 값을 출력해보도록 하겠습니다. 원하는 Column 두 개로 아래와 같이 코드를 구현하시면 됩니다. 결과 값을 보시면 기존의 Data 테이블 형식 대로 출력이 되는 걸 확인 하실 수 있습니다. 하나의 Column과 복수의 Column을 출력했을 때 결과 값이 어떻게 다르게 출력이 되는 것을 확인 하실 수 있습니다.
print('====== 복수의 Column의 값을 출력 =======')
# 복수의 Column의 내용을 출력 하려면 아래와 같이 코드를 구성하시면 됩니다.
print(df[['NumberofYear','Value']])
====== 복수의 Column의 값을 출력 =======
NumberofYear Value
first_row 2014 90
second_row 2015 86
third_row 2017 77
forth_row 2018 99
fifth_row 2019 75
▼ Value 값을 해당 년도의 납부한 보험금이나 모은 저축금으로 설정하면 실제 Data를 다루는 느낌이 들더라구요.
이상입니다. 지금까지 Python의 Pandas 패키지를 이용한 DataFrame 함수를 활용하는 법에 대해서 좀 더 심도있게 코드를 구현하면서 설명을 드렸습니다. 코드를 이해하셨다면 직접적으로 코드를 만들어서 구현해보시는 걸 추천 드립니다. 프로그래밍은 백문이 불여일타입니다. 그럼 여기에서 마무리 하도록 하겠습니다. 감사합니다.
[저작권이나, 권리를 침해한 사항이 있으면 언제든지 Comment 부탁 드립니다. 검토 후 수정 및 삭제 조치 하도록 하겠습니다. 그리고, 기재되는 내용은 개인적으로 습득한 내용이므로, 혹 오류가 발생할 수 있을 가능성이 있으므로, 기재된 내용은 참조용으로만 봐주시길 바랍니다. 게시물에, 오류가 있을때도, Comment 달아 주시면, 검증 결과를 통해, 수정하도록 하겠습니다.]
관련 다른 글
'파이썬 (Python) > Pandas' 카테고리의 다른 글
Python Panda Column 삭제 및 원하는 행 Data 출력 (0) | 2021.04.17 |
---|---|
Python Panda Seriese 로 Data 테이블화 하기 + Column 추가 및 Data 사칙 계산 (0) | 2021.04.17 |
Python Pandas DataFrame Column과 Index 설정하는 방법 (0) | 2021.03.21 |
Python Pandas DataFrame 활용하기 (0) | 2021.03.20 |
Python 파이썬 데이터 조작과 분석을 위한 절대 병기 Pandas 라이브러리 파헤치기 Part 1 (1) | 2021.01.28 |
댓글