3과목 : 데이터 분석 (통계 분석 1)

Data/ADsP

3과목 : 데이터 분석 (통계 분석 1)

동동 2022. 2. 13. 22:49

728x90

1. 용어

- 모집단 : 조사하고자 하는 대상 집단 전체
- 원소 : 모집단을 구성하는 개체
- 표본 : 조사하기 위해 추출한 모집단의 일부 원소
- 모수 : 표본 관측에 의해 구하고자 하는 모집단에 대한 정보

모집단을 추출(sampling)하여 표본을 만듭니다.
표본에서 나오는 통계량(모집단에 대한 정보)를 가지고 모수를 추론 하게 됩니다.

2. 표본 추출 방법

- 단순랜덤 추출법(simple random sampling)
ㅇ 샘플에 번호를 부여하여 임의의 n개를 추출하는 방법 (선택될 확률이 동일함)
- 계통추출법(systematic sampling)
ㅇ 단순추출법의 변형된 방법! k개씩 n개의 구간으로 나누고 첫 구간에서 하나를 임의로 선택한 후 k개씩 띄움
(ex. 1번, 11번, 21번, 31번, 41번 ...)
- 집락추출법(cluster random sampling)
ㅇ 모집단을 차이가 없는 여러개의 집단으로 나눔.
ㅇ 군집을 구분하고 군집별로 단순랜덤 추출법 수행
(ex. 경상대학교 안에 경영, 경제, 무역학과)
- 층화추출법(stratified random sampling)
ㅇ 모집단을 서로 겹치지 않게 몇 개의 집단 또는 층으로 나누고, 각 집단 내에서 원하는 크기의 표본을
단순 무작위 추출법으로 추출

3. 측정방법

(1) 질적척도
ㅇ 명목척도 : 단순한 분류 (ex, 성별, 출생지 구분)
ㅇ 순서척도 : 순위만 제공, 양적인 비교 불가 ( ex, 좋음 - 보통 - 나쁨 )

(2) 양적척도 (연속형척도 ex. 0~100)
ㅇ 구간척도 : 속성의 양을 측정한 것, 절대영점 존재하지 않음. 즉 0은 '없음'이 아님 ( ex. 온도, 지수 )
ㅇ 비율척도 : 비율이 의미를 가지는 자료. 절대영점 존재. 비율 계산 가능( ex. 무게, 시간, 나이, 거리 )

4. 통계량에 의한 자료 정리

(1) 중심 위치의 측도
ㅇ 평균(mean)
ㅇ 중앙값(median) : 크기 순으로 나열할때 중앙에 위치하는 값
ㅇ 최빈값(mode) : 가장 많이나오는 값

※ 아래 표는 시험에 자주 나오는 문제로, 그릴 줄 알면 한 문제는 맞고 간다.

(2) 산포의 척도 : 자료가 흩어져 있는 정도를 나타낸다
산포도가 크면 변량(변수 또는 값)들이 평균으로부터 멀리 흩어져 있고, 변동성이 크다고 한다.

ㅇ 편차 : 어떤 자료에서 평균을 뺀 값을 편차라고 한다.
편차의 총 합은 항상 0이다.

ㅇ 분산
· 편차의 제곱의 합을 n-1로 나타내는 것
· 평균은 같아도 분산은 다를 수 있음
ㅇ 표준편차
· 분산의 양의 제곱근
· 평균으로 부터 각 데이터의 관찰값까지의 평균 거리
ㅇ 변동계수(coefficient of variation, CV)
· 단위가 다른 두 그룹, 같은 단위의 평균차이가 클때 사용한다.
· 예컨대 a학생이 평균 3시간 공부하고 표준편차가 0.4이고
b학생은 평균 6시간 공부하고 표준편차가 0.9이다. 어느 학생이 꾸준히 공부 했을까 를 나타낼때 사용한다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'Data > ADsP' 카테고리의 다른 글

간만의 인사 및 AD(s)P이란? (0)	2022.02.13

현재글3과목 : 데이터 분석 (통계 분석 1)

250x250

임장, 서울부동산, 기계학습, 데이터분석, SVB은행, Python, pandas, SVB뱅크, 뱅크런, 데이터분석준전문가, pyhon, MLOps, 리먼, 양적완화, adsp, 미국주식, 비트코인, 머신러닝, 메디톡스, iloc,

Today :
Yesterday :

데이터분석가, 동동