본문 바로가기

pandas5

Pandas : DataFrame vs Series 차이점 우선! Series 는 DataFrame의 요소 중 하나라고 생각하면 된다. 즉 여러 개의 Series가 모여서 하나의 DataFrame이 만들어진다고 생각하면 된다. 위의 그림은 DataFrame과 Series의 차이점을 보여주려고 한다. 우선 DataFrame에서 DataFrame으로 뽑아내려면 [[]] 이중괄호를 해서 type을 DataFrame으로 해주어야한다. Series를 추출하려면 [] 하나만 적용해서 type을 Series로 하면 된다. target = boston[['Target']] -> pandas.core.frame.DataFrame target = boston['Target'] -> pandas.core.series.Series 예시 밑의 그림은 DataFrame과 Seri.. 2020. 2. 4.
Pandas : DataFrame.difference difference라는 method는 data의 columns에서 분리해내는 method에 포함된다. 여기서 list로 변환하는 이유는, difference의 return 값이 tuple이기 때문에 list로 변환해서 사용한다. 주로 머신러닝에서 변수와 y값으로 분리해내는 작업을 진행할 때 주로 사용한다. 2020. 2. 4.
Pandas : DataFrame axis axis 정의 > axis는 수직축을 말하며, 위와 같은 그림처럼 axis를 0,1,2 로 3차원 공간을 구분한다. axis=0 axis=0을 보면, "x축으로 합친다" 라고 생각하면 편하다. result = ex_array.sum(axis=0) axis=1 axis=2 결론 axis=None 이면, 모든 요소의 합을 스칼라의 값으로 반환한다. axis=0 이면, 여러 row들을 한 개로 합치는 역할이며 (x,y,z) -> (y,z) 로 shape가 변환된다. axis=1 이면, row별로 존재하는 여러 columns들을 한 개로 합치는 역할이며 (x,y,z) -> (x,z)로 shape가 변환된다. axis=2 이면, column의 depth를 가진 값으로 축소하며 (x,y,z) -> (x,y)로 sh.. 2020. 2. 4.
Pandas : DataFrame에서 [[]], .(param) 다른점 DataFrame에서 [[]] [[]]으로 하면 pandas.DataFrame 형태로 존재하며, columns의 이름이 살아있는 것을 볼 수 있다. 위의 그림처럼 .Price 로 column의 이름을 적어주면, pandas.DataFrame 형태가 아니라 pandas.Series 형태로 존재한다. DataFrame 형태가 아니고, Series 형태이기 때문에 column의 이름이 없다. 위의 차이점을 잘 알고 있자. 2020. 2. 3.
Pandas : Pandas.DataFrame 속성 Pandas.DataFrame DataFrame. index, colums DataFrame에서 처음 생성할 때 넣는 index, columns와, 나중에 DataFrame에 추가하는 index colums는 엄연히 다르다. 솔직히 이 부분은 안해보면 잘 모르는 부분이다. 생성자에서 정의하는 index는 표 안에서 있는 index를 말하며, 그림에서는 "Name" 부분이다. 생성자에서 정의하는 colums 는 표 위에 있는 columns를 말하며, 그림에서는 "hj, md"이다. DataFrame을 정의하고 부르는 index.name은 정말 index의 name을 정의해주는 것이기에 표위에 "test"처럼 index들의 특성을 나타내기 쉽다. DataFrame을 정의하고 부르는 columns.name은 .. 2020. 2. 3.