본문 바로가기
파이썬 (Python)/딥러닝 (Deep Learning)

Python 파이썬 머신 러닝(Machine Learning) 기초 - 기술 통계량 및 추정량에 대한 이해

by ★√★ 2021. 3. 1.

 안녕하세요 Davey 입니다. 오늘 포스팅할 내용은 머신 러닝시 사용하는 기술 통계량 및 추정량에 대해서 설명 드리겠습니다. 머신 러닝 작업을 위한 기초 지식인 통계학과 머신 러닝시 이용해야 하는 자료의 Type에 이어 설명 드리겠습니다.

 

 

파이썬-기술통계량-추정량-썸네일
파이썬-기술통계량-추정량

 

 저도 머신 러닝시 사용하는 기술 통계량 및 추정량에 대해서 공부하는 입장이기 때문에, 혹 잘못된 정보를 전달하는 게 있으면 댓글로 남겨주시면 감사 드리겠습니다. 그럼 하나 하나 설명 드리도록 하겠습니다.

 


1. 모집단의 수치화 Part 1 (중심 경향값)

 

: 여러 모집단의 정보를 나름대로, 분석을 해서 수치화를 시켜야 그 분석 값을 가지고, 머신러닝을 하실 수 있습니다. 분석 값 중에 한 Type인, 중심 경향 값은, 어떤 평균값을 찾아서, 그 값을 기준으로 잡고 머신러닝을 하는 것입니다. 이렇게 중심 경향 값으로 분류 되는 값은 아래와 같이 3개로 정리 할 수 있습니다. 

 

 1) 평균값 (Mean)

 : 전체 수치를 더한 값에 전체 수치 개수를 나눈 값입니다.

 

파이썬-기술통계량-추정량-관련-사진1
파이썬-기술통계량-추정량-관련-사진1

 2) 중앙값 (Median)

 : 수치의 크기의 값을 정렬 시켜보면 위치적으로 중앙에 있는 값을 알 수 있는 데, 그 값을 중앙 값이라고 함

 3) 최빈값 (Mode)

 : 여러 수치 중에 가장 많이 존재하는 값

 

파이썬-기술통계량-추정량-관련-사진2
파이썬-기술통계량-추정량-관련-사진2

 

- 위 3가지의 수치들을 분석하실 때 아래 사항도 참조 하시면 도움 되실 겁니다. 

 1) 모집단의 데이터를 수치화 하여 그래프로 표현했을 때, 그래프가 대칭일 경우에는 평균값 과 중앙값이 같습니다. 

 2) 중앙값은 위치적으로 중앙에 있는 값이지만, 평균 값은 모든 수치를 더해서, 그 수치의 개수로 나눈 값이기 때문에, 큰 값이 있는 방향으로 더 기울어지는 현상을 보임

 


 

2. 모집단의 수치화 Part 2 (산포도 - 퍼진정도)

 

: 1번의 중심 경향값과는 달리, 얼마나 수치가 퍼져 있는 정도를 나타내주는 수치라고 생각하시면 됩니다.

  

 

 1) 분산 (Variance)

: 분산의 정도를 수치적으로 표현한 것입니다. 아래 수식 참조 부탁 드립니다.

파이썬-기술통계량-추정량-관련-사진3
파이썬-기술통계량-추정량-관련-사진3

  

 2) 사분위수 범위 (Inter quartile range)

  : 전체 관측값을 크기 순으로 정렬 했을 때 중앙에 위치한 50%의 관측치가 가지는 범위입니다. 즉, 중앙에 위치한 값을 위주로 분석할 때 사용하는 범위입니다.

 

파이썬-기술통계량-추정량-관련-사진4
파이썬-기술통계량-추정량-관련-사진4-자료-출처- https://bioinformaticsandme.tistory.com/246


 

3. 모집단의 수치화 Part 3 (분포도)

 

 1) 정규 분포

 : 가장 대표적으로 많이 사용하는 분포도로써, 위치는 평균에 의해 결정이 되고, 솟은 모양과 배치 모양은 분산에 의해 결정이 됩니다.

 

 2) 왜도 (Skewness)

 : 모집단의 수치값이 분포되는 데 이 분포의 비대칭 정도를 나타내주는 게 왜도입니다. 여기에서 뾰족하게 솟은 부분을 기준으로 더 길게 늘어 지는 부분의 방향에 따라, Left Skewness or Right Skewness 로 나뉘게 됩니다.

 

파이썬-기술통계량-추정량-관련-사진5
파이썬-기술통계량-추정량-관련-사진5-자료-출처-http://webbuild1.knu.ac.kr/~bskim/normality.htm

 

 3) 첨도 (Kuurtosis)

 : 모집단의 수치값의 분포는 정규 분포와 동일하게 대칭이 되는 그래프에서, 양쪽 끝 부분의 비중의 측도를 나타내주는 것이 첨도(Kuurtosis) 입니다.

 

파이썬-기술통계량-추정량-관련-사진6
파이썬-기술통계량-추정량-관련-사진6-자료-출처- http://webbuild1.knu.ac.kr/~bskim/normality.htm

 


 

표본값(Sample)의 통계량과 추정량

 

: 모집단의 데이터를 수치화 시킨 값과 비교 분석하기 위해서 표본값도 통계량과 추정량으로 분석해서 산출하게 되는데, 아래와 같이 정리 할 수 있습니다.

 

 1) 표본 평균

 : 평균값과 동일한 식으로 산출합니다. 

 

파이썬-기술통계량-추정량-관련-사진7
파이썬-기술통계량-추정량-관련-사진7

 

 

 2) 표본 분산 (Sample Variance)

 : 표본값을 산포도식으로 구하게 되면, 모집단이 커지거나 작아 질수록 표본 분산 값에 영향을 주기 때문에, 아래와 같이 N 대신 N-1로 구하게 됩니다. 이 부분은 저도 좀 더 공부해보고, 다른 포스팅을 준비할 때 설명 드리도록 하겠습니다.

 

파이썬-기술통계량-추정량-관련-사진8
파이썬-기술통계량-추정량-관련-사진8

 

 이상입니다. 역시, 그냥 코드만 보고, 유튜브나 강의에서 하라는 식으로만 할 때하고는 느낌 자체가 틀리네요. 하나 하나 더 깊게 들어간다라는 느낌이 든다고 해야하나.. 그래도 이해하려면 좀 더 많은 시간이 걸릴 듯합니다. 일단 어느 정도는 개념을 잡았으니, 계속적으로 공부해 나갈려고 합니다. 이 포스팅이 조금이나마 도움이 되셨으면 합니다. 어렵다고 포기하지 마시고, 4차 혁명을 맞이해서 같이 공부해서 같이 성장해 나가시죠! 감사합니다.

 

 제 Posting이 조금이나마 정보 전달에 도움이 되셨길 빌며, 되셨다면, 구독, 댓글, 공감 3종 세트 부탁 드립니다. 감사합니다. 
 

[참조 자료 : fastcampus 머신러닝과 데이터 분석 A-Z 올인원 패키지 강의 자료 참조]

 
[저작권이나, 권리를 침해한 사항이 있으면 언제든지 Comment 부탁 드립니다. 검토 후 수정 및 삭제 조치 하도록 하겠습니다. 그리고, 기재되는 내용은 개인적으로 습득한 내용이므로, 혹 오류가 발생할 수 있을 가능성이 있으므로, 기재된 내용은 참조용으로만 봐주시길 바랍니다. 게시물에, 오류가 있을때도, Comment 달아 주시면, 검증 결과를 통해, 수정하도록 하겠습니다.]

 

 

728x90

댓글