'판다스' 태그의 글 목록

판다스 9

pandas 라이브러리를 활용하여 데이터를 처리할 때, 연속형 데이터를 범주형 데이터로 변환해야 하는 경우가 있다. 이런 경우, 어떤 방법으로 연속형 데이터를 범주형 데이터로 변환할 수 있는지 알아보자. cut 함수 연속형 데이터를 잘라 범주형 데이터로 변환할 수 있다. pd.cut(column 이름, bins=[자르려고 하는 값의 경계], labels=[각 범위에서 갖는 값] boundary = list(range(0, int(df["age"].max()) + 10, 10)) print(boundary) # 출력: [0, 10, 20, 30, 40, 50, 60, 70, 80] pd.cut(df.age, bins = boundary) # 나이대를 값으로 갖는 범주형 데이터가 생성된다.

AI/Pandas 2023.03.09

[Pandas] DataFrame을 합치는 방법

DataFrame을 합치는 방법에 대해 알아보자. merge 함수 SQL의 join과 같은 역할을 한다. pd.merge(데이터프레임1, 데이터프레임2, how = merge 방식, on=기준 column) how : merge 방식(inner, outer, left, right) 중 하나를 지정한다. 기본값은 inner on : merge를 수행할 기준 column을 지정한다. fruit = pd.DataFrame({'Code':[123, 456, 789, 1011, 1112], 'Fruit':['Apple', 'Banana', 'Cherry', 'Lemon', 'Peach']}) grade = pd.DataFrame({'Code':[123, 789, 1314], 'Grade':['A', 'B', 'C..

AI/Pandas 2023.03.09

[Pandas] groupby

DataFrame에서 특정 column의 값을 기준으로 그룹을 짓는 방법에 대해 알아보자. groupby SQL의 GROUP BY와 같은 역할을 한다. 그룹을 짓는 기준이 되는 column을 지정해서 데이터를 그룹별로 나눈다. 데이터프레임.groupby(기준 column).연산() df = pd.DataFrame({ 'city': ['부산', '부산', '부산', '부산', '서울', '서울', '서울'], 'fruits': ['apple', 'orange', 'banana', 'banana', 'apple', 'apple', 'banana'], 'price': [100, 200, 250, 300, 150, 200, 400], 'quantity': [1, 2, 3, 4, 5, 6, 7] }) print(..

AI/Pandas 2023.03.09

[Pandas] column 별로 데이터의 비율 알아내는 방법

DataFrame의 column 별로 데이터가 어떤 비율로 존재하는지 확인하는 방법에 대해 알아보자. column 별 값의 비율 알아내는 방법 데이터프레임[column 이름].value_counts() / len(데이터프레임[column 이름]) print(df["gender"].value_counts() / len(df["gender"])) # 출력: # male 0.644003 # female 0.355997 # Name: gender, dtype: float64 len 함수는 전체 데이터의 개수를 반환한다. 따라서 위 코드는 "gender" column에서 결측값을 포함한 데이터 비율을 살펴볼 수 있는 코드이다. 결측값을 제외한 데이터의 비율을 살펴보기 위해서는 len 함수 대신, count 함수를..

AI/Pandas 2023.03.09

[Pandas] apply 함수와 applymap 함수

DataFrame의 값에 함수를 적용할 때 사용하는 apply 함수와 applymap 함수에 대해 알아보자. apply 함수 DataFrame에 걸쳐 Series 단위에 (또는 row 단위에) 함수를 적용하고 싶을 때 사용한다. 데이터프레임.apply(함수, axis = 기준 축) raw_data = {"A":[-1,4,13], "B":[2,5,6], "C":[0,6,11]} df = pd.DataFrame(raw_data, index = ['first', 'second', 'third']) print(df) # 출력: # A B C # first -1 2 0 # second 4 5 6 # third 13 6 11 f = lambda x : x.max() - x.min() print(df.apply(f)..

AI/Pandas 2023.03.09

[Pandas] map 함수 VS replace 함수

종종 모델 학습을 위해 문자열 데이터를 정수형 데이터로 변환해야 하는 경우가 있다. 이런 경우, 어떤 방법으로 변환할 수 있는지 알아보자. map 함수 raw_data = { "product_code" : ["A", "A", "C", "B", "E", "C"], "size" : [5.3, 4.2, 7.4, 4.1, 3.7, 1.5]} df = pd.DataFrame(raw_data) print(df) # 출력: # product_code size # 0 A 5.3 # 1 A 4.2 # 2 C 7.4 # 3 B 4.1 # 4 E 3.7 # 5 C 1.5 print(df.product_code.map({"A" : 1, "B": 2, "C": 3, "D": 4, "E": 5})) # 출력: # product_..

AI/Pandas 2023.03.09

[Pandas] DataFrame과 Series 간의 연산

numpy array는 matrix와 vector간의 broadcasting 연산을 지원한다. numpy 배열 간 연산 - broadcasting 그렇다면, numpy를 기반으로 하는 pandas에서는 DataFrame과 Series 간의 연산을 어떻게 수행할 수 있을까? df = pd.DataFrame(np.arange(16).reshape(4,4), columns = list("abcd")) print(df) # 출력: # a b c d # 0 0 1 2 3 # 1 4 5 6 7 # 2 8 9 10 11 # 3 12 13 14 15 s = pd.Series(np.arange(10, 14)) print(s) # 출력: # 0 10 # 1 11 # 2 12 # 3 13 # dtype: int64 prin..

AI/Pandas 2023.03.09

[Pandas] DataFrame

파이썬의 데이터 처리 라이브러리인 pandas에서 사용하는 자료구조 중 하나인 DataFrame에 대해 알아보자. DataFrame Table 구조의 데이터를 저장하는 객체이다. Series가 모여 DataFrame을 구성한다. DataFrame을 구성하는 값(element)들은 numpy의 ndarray로 이루어져 있다. raw_data = {"A":[1,4,7], "B":[2,5,8], "C":[3,6,9]} # dict의 key 값이 dataframe의 column으로 변환된다. df = pd.DataFrame(raw_data, index = ['first', 'second', 'third']) print(df) # 출력: # A B C # first 1 2 3 # second 4 5 6 # thi..

AI/Pandas 2023.03.09

[Pandas] Series

Pandas는 numpy를 기반으로 하는 파이썬의 데이터 처리 라이브러리이다. 주로 구조화된 데이터를 처리하거나 통계 분석에 사용한다. pandas에서는 Series와 DataFrame이라고 하는 두가지 자료구조를 사용한다. 그 중, Series에 대해 알아보자. Series column vector를 표현하는 데이터 객체이다. numpy의 ndarray의 서브 클래스(자식 클래스)이다. 인덱스와 값으로 이루어져 있다. import pandas as pd list_data = [1,2,3,4,5] series_ex = pd.Series(data = list_data) print(series_ex) # 출력: # 0 1 좌측에 인덱스, 우측에 값이 출력된다. # 1 2 # 2 3 # 3 4 # 4 5 # ..

AI/Pandas 2023.03.09

선한 영향력을 나누는 지속 가능한 개발자가 되기 위해 공부중입니다.

github, 넘파이, Andrew Ng, github actions, numpy, prompt engineering, pytest, 판다스, 부스트캠프 AI Tech 5기, pandas, mojo, 논문 리뷰, 파이썬, 네이버 부스트캠프, pytorch, 부스트캠프 AI TECH, 파이썬 테스트, LSTM, 부스트캠프, airflow,

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지식을 나누면 두배로

판다스 9

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

2025. 04
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30