파이썬에서 가장 중요하면서 기본적인 라이브러리 중 하나인 판다스 라이브러리를 알아보겠습니다.
판다스(Pandas)는 엑셀처럼 표를 만드는 도구라고 이해하시면 됩니다.
그리고 이렇게 표를 만들고, 표의 필요없는 칸을 지우거나, 이름을 바꾸거나, 수식을 사용해서 평균이나 합계 등을 내거나, 필요한 것만 골라서 보거나, 표를 합치거나, 그룹으로 묶거나, 비어있는 곳을 임의의 숫자로 채우거나, 차트로 보여주는 것까지 할 수 있습니다.
결국 데이터를 처리하는데 여러가지 편집을 할 수 있으며 대용량 데이터에 활용이 가능해서 엑셀과 차이가 있다고 볼 수 있습니다.
1. DataFrame과 Series 판다스의 핵심 두가지 용어를 알아보자.
1) Series
숫자나 글자들을 한 줄로 모아놓은 것(열 하나짜리 표)
index가 있어서 누구의 숫자인지 알 수 있음
2) DataFrame
시리즈가 여러가 모이면 데이터프레임(엑셀 표와 같음)
시리즈(Series) | 데이터프레임(DataFrame) |
숫자/글자 한 줄 | 표 |
열 하나 | 열 여러 개 |
계산이 쉬움 | 전체 데이터 분석 가능 |
2. 판다스에서 csv파일 불러오기
엑셀과 비슷한 .csv파일을 판다스로 불러오면 바로 DataFrame으로 만들어줘요.
여기서 pd.read_csv('파일이름.csv') 으로만 업로드가 가능한데, 코랩에서 할 때는 파일을 먼저 코랩에 로드 해 주어야 해요.
그래서 이렇게 업로드 코드를 적었답니다.
from google.colab import files
uploaded = files.upload()
3. 간단한 편집을 해볼께요.
df.drop(columns=['Lyrics']) 가사라는 열은 삭제 합니다.
df.rename(columns={'Title':'노래제목'}] Title열은 노래제목이라고 이름 바꿀께요.
df['탑5'] = df['Rank'] <= 5 랭킹이 5보다 적은 1~5위까지는 탑5에 true로 표기
사용된 메서드는 drop()으로 필요 없는 열 삭제에 사용되고, rename()은 열 이름을 변경할 때 사용하고 있어요.
python 열 제거 같이 원하는 기능을 검색할 때 사용하셔도 되고, python drop()을 사용하셔서 검색하면 기능에 대해서도 좀 더 자세히 알 수 있습니다.
4. 편집한 데이터 프레임을 저장해 봅시다.
df.to_csv('저장할 이름.csv')를 하니까 이렇게 저장된 데이터 프레임이 생겼어요.
'파이썬 기초' 카테고리의 다른 글
[판다스 기초] 특정 행 선택, 값 찾기, 중복 제거까지 한 번에 끝내기 (0) | 2025.03.28 |
---|---|
[Pandas] 판다스로 데이터프레임 만들기 (1) | 2025.03.27 |
[파이썬 기초] 파이썬 bool 타입과 그 활용 (0) | 2025.02.28 |
[파이썬 기초] range()를 써야 하는 이유? slicing과 비교하며 쉽게 배워보기 (0) | 2025.02.25 |
[파이썬 기초] 특정 요소의 일부를 가져오는 slicing (1) | 2025.02.14 |