Data/ADsP

3과목 : 데이터 분석 (통계 분석 1)

동동 2022. 2. 13. 22:49
728x90

1. 용어

 - 모집단 : 조사하고자 하는 대상 집단 전체
 - 원소 : 모집단을 구성하는 개체
 - 표본 : 조사하기 위해 추출한 모집단의 일부 원소
 - 모수 : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보

모집단을 추출(sampling)하여 표본을 만듭니다.
표본에서 나오는 통계량(모집단에 대한 정보)를 가지고 모수를 추론 하게 됩니다.


2. 표본 추출 방법

 - 단순랜덤 추출법(simple random sampling)
   ㅇ 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법 (선택될 확률이 동일함)
 - 계통추출법(systematic sampling)
   ㅇ 단순추출법의 변형된 방법! k개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후 k개씩 띄움
       (ex. 1번, 11번, 21번, 31번, 41번 ...)
 - 집락추출법(cluster random sampling)
   ㅇ 모집단을 차이가 없는 여러개의 집단으로 나눔.
   ㅇ 군집을 구분하고 군집별로 단순랜덤 추출법 수행
       (ex. 경상대학교 안에 경영, 경제, 무역학과)
 - 층화추출법(stratified random sampling)
   ㅇ 모집단을 서로 겹치지 않게 몇 개의 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기의 표본을
       단순 무작위 추출법으로 추출


3. 측정방법

(1) 질적척도
ㅇ 명목척도 : 단순한 분류 (ex, 성별, 출생지 구분)
ㅇ 순서척도 : 순위만 제공, 양적인 비교 불가 ( ex, 좋음 - 보통 - 나쁨 )

(2) 양적척도 (연속형척도 ex. 0~100)
ㅇ 구간척도 : 속성의 양을 측정한 것, 절대영점 존재하지 않음. 즉 0은 '없음'이 아님 ( ex. 온도, 지수 )
ㅇ 비율척도 : 비율이 의미를 가지는 자료. 절대영점 존재. 비율 계산 가능( ex. 무게, 시간, 나이, 거리 )


4. 통계량에 의한 자료 정리

(1) 중심 위치의 측도
 ㅇ 평균(mean) 
 ㅇ 중앙값(median) : 크기 순으로 나열할때 중앙에 위치하는 값
 ㅇ 최빈값(mode) : 가장 많이나오는 값

※ 아래 표는 시험에 자주 나오는 문제로, 그릴 줄 알면 한 문제는 맞고 간다.

Megatove skew - Normal - Positive skew 

 (2) 산포의 척도 : 자료가 흩어져 있는 정도를 나타낸다
     산포도가 크면 변량(변수 또는 값)들이 평균으로부터 멀리 흩어져 있고, 변동성이 크다고 한다.

 ㅇ 편차 : 어떤 자료에서 평균을 뺀 값을 편차라고 한다.
             편차의 총 합은 항상 0이다.
             
 ㅇ 분산
    · 편차의 제곱의 합을 n-1로 나타내는 것
    · 평균은 같아도 분산은 다를 수 있음 
 ㅇ 표준편차
    · 분산의 양의 제곱근
    · 평균으로 부터 각 데이터의 관찰값까지의 평균 거리
 ㅇ 변동계수(coefficient of variation, CV)
    · 단위가 다른 두 그룹, 같은 단위의 평균차이가 클때 사용한다.
    · 예컨대 a학생이 평균 3시간 공부하고 표준편차가 0.4이고
               b학생은 평균 6시간 공부하고 표준편차가 0.9이다. 어느 학생이 꾸준히 공부 했을까 를 나타낼때 사용한다.   

a 학생이 더 변동계수가 작으므로, A학생이 더 열공했다.

 

728x90

'Data > ADsP' 카테고리의 다른 글

간만의 인사 및 AD(s)P이란?  (0) 2022.02.13