본문 바로가기
파이썬 (Python)/딥러닝 (Deep Learning)

Python 파이썬 머신 러닝(Machine Learning) 기초 - 통계학, 머신 러닝 자료 Type

by ★√★ 2021. 3. 1.

 안녕하세요 Davey 입니다. 오늘 포스팅할 내용은 머신 러닝 작업을 위한 기초 지식인 통계학과 머신 러닝 시 이용해야 하는 자료의 Type에 대해서 설명 드리겠습니다. 

 

 

머신러닝-통계학-자료-Type-썸네일
머신러닝-통계학-자료-Type

 

저도 머신 러닝 작업을 위한 기초 지식인 통계학과 머신 러닝 시 이용해야 하는 자료의 Type에 대해서 공부하는 입장이기 때문에, 혹 잘못된 정보를 전달하는 게 있으면 댓글로 남겨주시면 감사 드리겠습니다. 그럼 하나 하나 설명 드리도록 하겠습니다. 


 

1. 모집단 (Population) & 표본 (Sample)

 

: 머신러닝을 수행하기 위한 모든 계체들의 합을 모집단(Population) 이라고 합니다. 즉, 어떤 연구를 진행하기 위해서 필요한 Raw Data라고 이해하시면 더 이해가 쉬우 실 겁니다. 

 

- 그 모집단에서 일 부분의 값을 뽑아 내는데 이것을 표본(sample) 이라고 합니다. 모집단에서 일부분의 데이터를 뽑아내서, 그것을 분석해서 모집단의 전체의 평균값을 추정하고 추론하기 위한 값이라고 생각하시면 됩니다. 

 

머신러닝-통계학-자료-Type-관련-사진1
머신러닝-통계학-자료-Type-관련-사진1

 


 

2. 모수(Parameter) 와 통계량 (Statistic)

 

: 위에 모집단과 표본에 대해서 설명을 드렸습니다. 그럼 이 모집단과 표본을 어떻게 이용하는지가 궁금하실텐데요. 모집단에서 표본만 추출해서 머신러닝 하지는 않습니다. 일단 모집단의 데이터도 이용을 해야 합니다. 그 때 사용하는 Value가 모수 (Parameter) 입니다. 즉 수치로 표현되는 모집단의 특성이라고 생각해주시면 됩니다. 

 

- 그리고 표본을 이용하여 산출하는 값을 통계량(Statistic)이라고 하는데, 이 Value를 이용하여, 전체 모듈의 Accuracy를 검토 하게 되는 거죠. 

 

머신러닝-통계학-자료-Type-관련-사진2
머신러닝-통계학-자료-Type-관련-사진2

 


 

3. 머신 러닝을 위한 통계학 자료의 종류

 

 1) 수치형 (양적 자료)

  : 딥러닝에서 이용할 수 있는 양적자료가 있습니다. 예를 들어, A라는 지점에서, B라는 지점까지의 거리, A 지역의 성인 남녀 30세 기준 몸무게 등 중간에 소수점이나 다른 방법으로 Value를 넣을 수 있는 수치형 자료를 양적 자료라고 합니다. 

 

  2) 범주형 (질적자료)

   : 수치형 자료와는 비슷하지만, 어느정도 경계가 있어서, Flexibility가 떨어지는 질적 자료를 범주형 자료라고 합니다. 예를 들어서, 남녀의 성별, 색깔, 그리고 대학교에서 부여되는 학점 (S, A, B ..) 이 그 예로 들 수가 있습니다. 

 

- 자료를 이용하여, 아래와 같이 입력 값, 출력 값에 대한 변수에 적용하여, 원하는 모듈을 만들어 내는 것입니다.

 

머신러닝-통계학-자료-Type-관련-사진3
머신러닝-통계학-자료-Type-관련-사진3

 

머신러닝을 이용한 자료를 표현하기

 

 1) 범주형 자료

   : 아래와 같이 평균적으로 나타내는 자료 or 백분율을 통해서 시각적으로 보여주는 자료

 

머신러닝-통계학-자료-Type-관련-사진4
범주형 자료 표현 1

 

머신러닝-통계학-자료-Type-관련-사진5
범주형 자료 표현 2-1

 

머신러닝-통계학-자료-Type-관련-사진6
범주형 자료 표현 2-2

 

2) 연속형 자료

  : 범주형 자료보다는 좀 더 세세한 내용을 표현 해줄 수 있는 방식을 표현을 합니다. 예를 들어, 주식의 음봉, 양봉에서 보여주는 것 처럼, 박스와 실선을 통해서 연속적인 주식 값을 보여주는 것도 연속형 자료에 해당되는 거죠. 음봉, 양봉에 대해서 잘 인지하지 못하신 분들은 아래 포스팅 참조 하시면 도움이 되실 겁니다. 

 

 

[셀프 주식공부] 별형, 스타캔들, 도지란? + 주식 차트에서 거래량 + 추세전환

안녕하세요, Davey 입니다. 오늘 포스팅 할 내용은 지난번에 설명드린 일반적인 캔들 양봉, 음봉에 대해서 설명 드린 거에 이어, 캔들 차트에서 나타나는 별형, 스타 캔들, 도지에 대해서 설명 드

davey.tistory.com

 

 이상입니다. 지금까지 머신 러닝 작업을 위한 기초 지식인 통계학과 머신 러닝 시 이용해야 하는 자료의 Type에 대해서 포스팅을 작성하였습니다. 사실 위의 내용은 많은 분들이 간과하는 내용이라고 생각합니다.

 

 왜냐하면, 사람들은 빨리 머신러닝을 하고 싶어 하고, 그거에 대한 코드에만 더 집착을 하는 사람들이 많습니다. 물론 그 코드를 먼저 분석하고, 회독한다는 느낌으로 위의 내용을 공부하시는 분들도 있죠. 만약에 위의 내용을 공부한다는 전제하에서는 어떤 순서로 공부를 하든 그건 그렇게 크게 중요한게 아니라고 생각합니다. 이해하고 넘어가야 진짜 자기 지식이라고 생각하는 1인으로서는, 위의 내용은 꼭 이해하고 넘어가시는 게 좋을 거라고 생각합니다. 그럼 오늘도 공부하느라고 수고 하셨구요. 같이 공부 하고 같이 성장하시죠! 감사합니다.

 

 제 Posting이 조금이나마 정보 전달에 도움이 되셨길 빌며, 되셨다면, 구독, 댓글, 공감 3종 세트 부탁 드립니다. 감사합니다. 
  

[참조 자료 : fastcampus 머신러닝과 데이터 분석 A-Z 올인원 패키지 강의 자료 참조]


[저작권이나, 권리를 침해한 사항이 있으면 언제든지 Comment 부탁 드립니다. 검토 후 수정 및 삭제 조치 하도록 하겠습니다. 그리고, 기재되는 내용은 개인적으로 습득한 내용이므로, 혹 오류가 발생할 수 있을 가능성이 있으므로, 기재된 내용은 참조용으로만 봐주시길 바랍니다. 게시물에, 오류가 있을때도, Comment 달아 주시면, 검증 결과를 통해, 수정하도록 하겠습니다.]

728x90

댓글


// 내부링크를 현재창으로 열기 // Open internal links in same tab