본문 바로가기

mambo's coding note346

Pandas : DataFrame.difference difference라는 method는 data의 columns에서 분리해내는 method에 포함된다. 여기서 list로 변환하는 이유는, difference의 return 값이 tuple이기 때문에 list로 변환해서 사용한다. 주로 머신러닝에서 변수와 y값으로 분리해내는 작업을 진행할 때 주로 사용한다. 2020. 2. 4.
Pandas : DataFrame axis axis 정의 > axis는 수직축을 말하며, 위와 같은 그림처럼 axis를 0,1,2 로 3차원 공간을 구분한다. axis=0 axis=0을 보면, "x축으로 합친다" 라고 생각하면 편하다. result = ex_array.sum(axis=0) axis=1 axis=2 결론 axis=None 이면, 모든 요소의 합을 스칼라의 값으로 반환한다. axis=0 이면, 여러 row들을 한 개로 합치는 역할이며 (x,y,z) -> (y,z) 로 shape가 변환된다. axis=1 이면, row별로 존재하는 여러 columns들을 한 개로 합치는 역할이며 (x,y,z) -> (x,z)로 shape가 변환된다. axis=2 이면, column의 depth를 가진 값으로 축소하며 (x,y,z) -> (x,y)로 sh.. 2020. 2. 4.
Pandas : DataFrame에서 [[]], .(param) 다른점 DataFrame에서 [[]] [[]]으로 하면 pandas.DataFrame 형태로 존재하며, columns의 이름이 살아있는 것을 볼 수 있다. 위의 그림처럼 .Price 로 column의 이름을 적어주면, pandas.DataFrame 형태가 아니라 pandas.Series 형태로 존재한다. DataFrame 형태가 아니고, Series 형태이기 때문에 column의 이름이 없다. 위의 차이점을 잘 알고 있자. 2020. 2. 3.
Pandas : Pandas.DataFrame 속성 Pandas.DataFrame DataFrame. index, colums DataFrame에서 처음 생성할 때 넣는 index, columns와, 나중에 DataFrame에 추가하는 index colums는 엄연히 다르다. 솔직히 이 부분은 안해보면 잘 모르는 부분이다. 생성자에서 정의하는 index는 표 안에서 있는 index를 말하며, 그림에서는 "Name" 부분이다. 생성자에서 정의하는 colums 는 표 위에 있는 columns를 말하며, 그림에서는 "hj, md"이다. DataFrame을 정의하고 부르는 index.name은 정말 index의 name을 정의해주는 것이기에 표위에 "test"처럼 index들의 특성을 나타내기 쉽다. DataFrame을 정의하고 부르는 columns.name은 .. 2020. 2. 3.
ML : 오차 vs 잔차 오차 (Error) 정의 > "모집단"에서 실제값이 회귀선과 비교해 볼 때 나타나는 차이(정확치와 관측치의 차이) 종류 1) 정오차(constant error) - 일정한 조건하에서 같은 방향 또는 같은 크기로 일어나는 오차 (1) 물리적 원인에 따른 오차 (2) 기계적 원인에 따른 오차 (3) 개인적 특성에 따른 오차 2) 우연오차(accident error) - 관측 조건에 따라서 그때그때 나타나는 오차 3) 착오(mistake) - 관측자의 부주의로 인한 오차 잔차(Residual) 정의 > "표본집단" 에서 관측값이 회귀선과 비교해볼 때 나타나는 차이 검증 1) 독립성 가정 - 선형회귀분석에서 종속변수가 시간 또는 위치에 영향을 받는 시계열데이터인 경우 이웃하는 관찰값들 사이에 상관관계가 있을 수.. 2020. 2. 1.
ML&DL : train, validation, test 데이터로 나누기 code - 1 import sklearn def data_split(examples, labels, train_frac, random_state=None): ''' https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html param data: Data to be split param train_frac: Ratio of train set to whole dataset Randomly split dataset, based on these ratios: 'train': train_frac 'valid': (1-train_frac) / 2 'test': (1-train_frac) / 2 Eg: .. 2020. 2. 1.
ML&DL : 정규성, 독립성, 등분산성 검증 정규성 검증 정의 > 정규성이란, 그래프가 정규분포를 향하는지, 정규성을 검증하는 것을 말한다. > 선형회귀에서는 잔차가 정규분포를 향해야 한다. Why?? 잔차가 정규분포를 향해야하는 이유는 오른쪽 그림처럼 잔차가 정규분포를 향하지 않는다면, 선형회귀식이 균등하게 설명하지 못하기 때문이다. 등분산성, 독립성 검증 정의 > fiited_value를 변수로 할 때, 이 들의 잔차들이 얼마나 고르게 퍼져있는가를 test 하는 것을 등분산성 검증. > 잔차들간의 상관관계가 있는지를 test 하는 것을 독립성 검증이라고 한다. 2020. 2. 1.
Numpy&Pandas : matplotlib anaconda 가상환경에 설치 Anaconda 가상환경에 설치 conda install matplotlib 처음에는 conda 명령어로 설치하였는데, 무슨 자꾸 권한이 없다고 떠서 pip install matplotlib 위의 명령어로 진행해보았다. 근데 다음과 같은 에러가 뜨면서 permission error가 뜬것을 볼 수 있다. 아.... 권한이 없었던 거 였다. conda 패키지에서 설치할 때는 std.error 뜨면서 글자가 깨졌는데, pip 패키지에서 설치하니 지금은 잘 보인다. pip install matplotlib --user 위의 명령어로 --user를 추가해서 실행하니 잘 깔렸다. 너무나도 잘 된다~~~~ 2020. 1. 31.
Python : 반복기, 생성기, itertools https://python.bakyeono.net/chapter-7-4.html 7.4 반복자와 생성기 | 파이썬 프로그래밍 입문서 (가제) 박연오가 도서출판 인사이트와 함께 준비하고 있는 파이썬 프로그래밍 입문서입니다. 질문과 의견은 페이지 하단의 댓글란에 남겨주세요. python.bakyeono.net https://suwoni-codelab.com/python%20%EA%B8%B0%EB%B3%B8/2018/03/07/Python-Basic-itertools/ Python(파이썬) 기본 - 40. itertools 모듈과 iterable에 유용한 내장함수 Python에서 itertools 모듈에 관해 알아봅니다. suwoni-codelab.com 반복기 : iter() iter 안에 list를 넣은 .. 2020. 1. 28.
Statistics : 14-1, 2 : 분산분석 분산분석 (Analysis of Variance, ANOVA) Why use it ?? 두 모집단 뿐만 아니라, 셋 이상의 여러 모집단 간의 평균을 비교하는 방법으로써 널리 사용된다. 관측한 자료 값들이 다양하게 나타나는 것을 체계적으로 설명하려는 하나의 통계기법이다. 즉, 관측값들이 달라지는 것을 여러 요인으로 나누어 각 요인들이 얼마나 변화의 정도에 기여하였는 가를 분석하는 것. 예시 소비자 단체에서는 여러 종류의 건전지 중에서 어느 건전지의 수명이 오래가는지 어느 농업 연구가는 여러 품종의 볍씨 중 어느 종의 수확량이 가장 높은지 정의 관측자료 평균 제곱합 처리 1 y11, y12 ----- y1n y1 bar ∑(y1i - yi bar)**2 처리 2 y21, y22 ----- y2n y2 bar.. 2020. 1. 22.
Statistics : 5-5 : 베이즈정리 심화 이건 내가 정리하는 것 보다, 다른 블로그 글 보면서 이해하는 편이 좋다고 생각한다. 개념 http://solarisailab.com/archives/2614 베이즈 정리(Bayes’ Theorem)-베이즈 룰(Bayes Rule)-의 정의와 의미 | 솔라리스의 인공지능 연구실 이번 시간에는 베이즈 정리(Bayes’ Theorem)-베이즈룰(Bayes Rule)-에 대해 알아보자. 베이즈 정리(Bayes’ Theorem) 대부분의 기계학습과 패턴인식 교재는 첫장에서 베이즈 정리와 베이즈 분류기를 다룬다. 그 이유로는 첫째, 베이즈 분류기는 다른 기계학습 방법론들에 비해 상대적으로 알고리즘이 간단함에도 불구하고 현실세계의 많은 문제를 효과적으로 풀 수 있다는 장점이 있다. 둘째, 베이즈 정리를 공부하면서 .. 2020. 1. 18.
Statistics : 5-5 : 표본공간의 분할과 베이즈정리 표본공간의 분할 (Partition) 정의 > 사건 A1, A2 ---- An 이 서로 "배반사건"이고, Ω = A1 ∪ A2 ----- ∪ An 일 때, 사건 A1 --- An 을 교집합이 존재하지 않기 때문에, Ω의 분할이라고 한다. 사건이 서로 배반사건이고, 사건들의 총합이 전체라면, 이는 분할이고, 실제로 많이 쓰이는 개념 총확률의 법칙 (Law of Total Probability) 정의 > 사건 A1, A2 --- An이 표본공간의 "분할"일 때, 임의의 사건 B의 확률 P(B) 는 다음과 같이 계산할 수 있다. P(B) = ∑ [ P(B)*P(Ai|B) ] = ∑ [ P(Ai ∩ B) ] -> 교집합으로 생각하면 굉장히 이해가 빠르다 예시 - 1 Q . 컴퓨터 회사의 주기판 중 30%는 A1.. 2020. 1. 18.