데이터마이닝 2주차 보고서 python으로 구현 (공분산과 상관계수 관계)

카테고리 없음

데이터마이닝 2주차 보고서 python으로 구현 (공분산과 상관계수 관계)

관형이 2024. 3. 21. 20:57

서론: 학기 중에 따로 딥러닝 이론과 심층 구현 공부할 시간을 내기가 정말 힘듭니다.

따로 공부할 시간을 내기 힘들거 같아서, 현재는 공모전과 프로젝트(보아즈 ADV)만 진행 중이고 , 완료되면 티스토리에 작성할게요..

일단 데이터와 관련된 내용이니 보고서라도 하나 작성해봅니다. (python으로 구현해서 품.)

2주차 보고서 주제

공분산, 상관계수?

공분산과 상관계수가 무엇인지 먼저 알아야한다.

[1일 1 캐글] Default of Credit Card Clients Dataset, PCA 이용

1일 1 캐글 프로젝트 첫 날이다. 첫날은 간단한 것부터 시작하려고 한다. 위의 데이터에서 상관 분석을 통해 상관 관계를 시각화 하고, 그것을 바탕으로 상관도가 높은 부분은 PCA분석으로 차원을

hyeong1197.tistory.com

내가 예전에 작성한 글 참고 (이 부분 정리해 놓음.)

+ 추가적으로 데이터 마이닝 시간에 학습한 것

분산과 공분산?

분산은 한 변수 내 (x), 공분산은 두 변수 이상 퍼짐 정도나 연관성 나타냄 (x, y)

-> 통계학개론 공부할 때, 분산은 한 데이터 내부에서 퍼짐 정도 공분산은 2개의 엑셀 데이터 비교할때 사용했음.2개 이상의 데이터 (엑셀 표) 주어지면, 그것의 퍼짐 정도를 확인하기 힘드니, 공분산 이용하는 듯

표준 편차 (모분산)

n-1로 나누는 이유가 모분산의 표준 편차를 구하려는 의도인지 처음 알았다.

파이썬에는 모분산 표준편차를 나타내는 함수가 없어서, 처음에 값이 다르게 나왔지만 현재는 수정함.

파이썬 (주제 하나씩 구현)

각 load와 데이터 값을 array로 채워주고 dataframe을 만들었음.

데이터

scatter plot 그리시오

A,B에 대한 공분산과 상관계수를 계산하시오. (편차 n-1로 나눴을때 값인지는 모르겠음) → 해결

이게 소수점이 너무 길어지니, 값이 작아지면 0 이나 inf가 떠서 진짜 짜증났음.

평균 값이 정수로 나오는 듯 해서 굳이, float형 자료구조를 사용할 필요가 없다고 느낌.

int로 바꿔주니 문제 해결 됨.

표준편차

처음엔, 단순 표준편차 구하는 함수 사용하려고 하는데, 직접 구하는 표준편차와 약간의 차이 발생

-> 내 생각: 기존 표준편차 구하는 공식은, 모분산 표준편차가 아님. 그래서 값이 다른 듯

두 변수 A와 B에 대한 공분산과 상관계수를 계산하시오

2. Z-Score 방법을 이용하여 표준화한 후 수행

데이터 scatter plot을 그리시오

두 변수 A와 B에 대한 공분산과 상관계수를 계산하시오

-> 양의 상관관계, 공분산과 상관계수가 동일하다.

3. 표준화 전후 Scatter plot 상 차이점을 기술하시오.

→표준화 이후 평균이 0, 표준편차가 1인 분포를 갖게됨. (범위가 달라짐)

4.표준화 전후 공분산과 상관계수 관계의 차이점과 그 이유를 기술하시오.

공분산 / 각표준편차의 곱: 상관계수 (공분산 표준화)

공분산은 크기만 나타냄, 정도를 따질수 없다.

z-square로 변환과 동시에 표준편차는 1이되니

변환 후 공분산 = 상관계수가 됨.

저작자표시

현재글데이터마이닝 2주차 보고서 python으로 구현 (공분산과 상관계수 관계)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

과녕이의 데이터 학습 노트

데이터마이닝 2주차 보고서 python으로 구현 (공분산과 상관계수 관계)

2주차 보고서 주제

'카테고리 없음'의 다른글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역