ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [부트캠프] 데이터 분석을 위한 기초 통계
    대외활동 및 교육/패스트캠퍼스 데이터 분석 부트캠프 2023. 3. 3. 12:23

    지난 주 금요일부터 기초 통계에 대해 학습했어요.

    어떤 것들을 배웠는지 알려드릴게요!


    통계학의 개념

    여러분 고등학교 때 통계 공부 했던 거 기억 하시나요?

    기본적인 평균이나 분산, 변량과 도수 이런 개념들은 분명 기억 하실 거라 생각합니다.

    데이터 분석에 필요한 통계 개념도 엄청 어려운 이론들이 아닙니다.

    그러니 고등학교 때 배운 것들 잘 떠올리면서 읽어주세요! 💪

     

    통계학이란 내가 궁금한 집단(모집단, 전체)의 특성을 파악하기 위해

    표본의 특성을 파악하고 이를 이용해서 모집단의 특성에 대해 추론하는 원리와 방법을 배우는 학문입니다.

    통계학의 목표는 객관적인 자료에 근거하여 합리적인 의사결정을 하는 것입니다.

    간단한 순서를 설명 드리자면

    객관적인 자료와 수치가 있을 때 이를 통계적 기법을 활용해 해석하고,

    문제 해결에 필요한 인사이트를 도출하는 방식입니다.

     

    통계학의 구분

    통계학은 크게 기술 통계학과 추론 통계학으로 구분됩니다.

     

    먼저 기술 통계학은 요약 통계량, 그래프, 표 등을 이용해 데이터를 정리, 요약해서

    데이터의 전반적인 특징을 파악하는 방법입니다.

    데이터를 시각적으로 표현하고 통계량 등을 수치로 요약하는 방법이죠.

     

    추론 통계학은 데이터가 모집단으로부터 나왔다는 가정하에

    모집단으로부터 추출된 표본을 사용해 모집단의 특성을 파악하는 방법입니다.

    점 추정, 구간 추청이나 가설을 검정할 때 사용합니다.

     

    모집단과 표본

    이 부분은 정말 고등학교 때 배웠던 내용이죠?

    다시 기억을 되살려봅시다!

     

    먼저 모집단은 내가 궁금한 집단 전체를 말합니다.

    아직 가지고 있지 않은 내가 모르는 데이터를 포함한 모든 데이터를 의미하죠.

    하지만 모집단이 너무 크면 모든 값을 보고 비교하기가 쉽지 않습니다.

    그렇기 때문에 모집단을 대표하는 표본이라는 개념이 등장하게 되는 것이죠.

     

    표본은 모집단의 전체 데이터를 분석하기 위한 일부 데이터입니다.

    표본 공간은 일어날 수 있는 모든 경우의 수를 말합니다.

    예를 들어, 주사위를 던졌을 때 어떤 눈이 나올지 궁금하다면 이때 표본 공간은 주사위의 모든 눈이 될 것입니다.

     

    실험과 사건이라는 개념도 있습니다.

    실험은 결과를 예측할 수 없는 행동을 취하는 것입니다.

    사건은 실험에 의해 벌어진 일이나 그 값을 말합니다.

    예를 들어, 주사위를 굴리는 행위를 하는 것은 실험이고

    주사위를 굴려 눈이 6이 나왔다는 것은 사건이라고 생각하시면 됩니다.

     

    호수에 있는 전체 물고기 중에 3cm의 길이를 가진 물고기 1마리를 낚았다고 할 때

    여기서 모집단은 전체 물고기가 되고, 표본은 낚은 물고기 1마리가 되고,

    낚아 올린 행위가 샘플링을 한 것을 의미합니다.

    그렇다면 우리가 내일 낚시할 때 몇 cm의 물고기를 잡을 수 있을까요?

    그것은 알 수 없죠?

    이걸 확률 변수라고 합니다.

    확률 변수는 확률적 법칙에 따라 변화하는 값을 의미합니다.

    그리고 확률 변수와 그 값이 나올 수 있는 확률을 대응시킨 것을 확률 분포,

    표로 시각화 한 것을 확률 분포표라고 합니다.

     

    표본을 추출하는 행위인 샘플링의 종류도 두 가지로 나눌 수 있는데요.

    먼저 복원 샘플링은 한번 뽑은 표본을 다시 모집단에 포함시켜서 다음 표본을 샘플링하는 방법입니다.

    다시 포함시켰기 때문에 첫 번째 뽑기와 두 번째 뽑기의 확률은 동일하게 되죠.

    비복원 샘플링은 한번 뽑은 표본은 모집단에서 제외시키고 다음 표본을 샘플링하는 방법입니다.

    이 경우에는 첫 번째 뽑기와 두 번째 뽑기의 확률이 달라지는 것입니다.

     

    변수와 도수

    변수는 자료에 따라 수치형 변수와 범주형 변수로 나눌 수 있습니다.

    측정값이 숫자로 표현되고, 숫자의 크기가 의미가 있는 자료라면 수치형 변수이고,

    숫자로 표현할 수 없는 자료를 집단화한 자료라면 범주형 변수입니다.

     

    각각의 변수에 대해 좀 더 세부적으로 나눠볼까요?

    수치형 변수는 이산형 자료와 연속형 자료로 나눌 수 있습니다.

    이산형 자료는 양의 정수로 셀 수 있는 자료로, 마트 방문 횟수나 상품의 개수 등을 의미합니다.

    연속형 자료는 말 그대로 연속되는 수치이기 때문에 셀 수 없는 자료로,

    키나 몸무게와 같은 것들을 의미합니다.

    범주형 변수는 명목형 자료와 순서형 자료로 나눌 수 있는데요.

    명목형 자료는 분류만 해서 값을 부여한 자료로, 혈액형이나 성별 등을 말하고,

    순서형 자료는 순서나 순위의 개념이 있는 자료로, 학점이나 등수 등을 의미하죠.

     

    기초 통계량

    앞서 기초 통계 용어를 살펴봤다면 이번엔 기초 통계량을 공부했습니다.

    평균은 다들 아실 거라고 생각합니다.

    그렇다면 기댓값은 무엇일까요?

    기댓값은 아직 얻지 못한 모르는 데이터에도 적용이 가능한 평균값을 말합니다.

    위에서 언급한 확률 분포표를 통해 알 수 있죠.

    중앙값은 평균과 함께 대표값으로도 불리는데,

    주어진 값들을 크기 순서대로 정렬했을 때 가장 중앙에 위치하는 값입니다.

    평균은 모든 데이터를 포함해 나온 개념이지만 특잇값(이상치)에 취약하고,

    중앙값은 모든 데이터를 포함하진 않지만 특잇값(이상치)에는 강건하다는 특징이 있습니다.

    이러한 특징을 특잇값에 로버스트하다고 말합니다.

     

    분산은 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타내주는 지표라고 할 수 있습니다.

    각각의 데이터에서 평균을 빼서 제곱한 값들을 모두 더한 걸 전체 데이터의 개수로 나누면 분산을 구할 수 있습니다.

    분산이 클수록 데이터들이 평균에서 많이 떨어져 있다는 것을 의미합니다.

    표준편차는 쉽게 말하면 분산의 제곱근인데요.

    분산은 제곱값이기 때문에 미분이 불가능하고 계산에도 불편해서 표준편차로 변환해 사용한다고 합니다.

     

    정규 분포

    잠깐! 통계에서는 평균을 μ로, 표준편차를 σ로 많이 나타내니 이 점 꼭 기억해주세요!

     

    정규분포는 평균 μ와 표준편차 σ에 대해 아래의 확률밀도함수를 가지는 분포를 말합니다.

    갑자기 수식이 나오니 머리가 새하얘지죠? 🤣

    쉽게 그림으로 보여드릴게요.

    출처) 기초통계 개념정리 Bookdown

    어때요, 마음이 조금 편해지셨나요?

    이렇게 종 모양의 형태를 띄는 분포를 정규분포라고 합니다.

    정규분포에는 몇 가지 특징이 있습니다.

    먼저 -∞ ~ ∞의 실수 값을 취한다는 특징이 있고,

    중앙 부분이 평균이고, 평균을 기준으로 대칭 모양을 띕니다.

    평균값 부근의 확률 밀도가 크기 때문에 그래프가 종 모양을 가지게 됩니다.

    또한 정규분포는 평균과 표준편차에 의해 변화되는데, 표준편차에 따라 그래프의 높낮이가 변합니다.

     

    이상치 탐색

    이상치란 무엇일까요?

    이상치는 정상적인 범위의 상한과 하한의 범위를 벗어나 있거나 패턴에서 벗어난 수치를 말합니다.

    일반적으로 이상치를 판단하는 기준은 세 가지 정도가 있는데,

    먼저 -3σ 미만, +3σ 초과인 값을 이상치로 판정합니다.

    비슷하게 Z-Score이 있습니다.

    Z-Score은 자료가 평균으로부터 표준편차의 몇 배만큼 떨어져 있는지 나타내는 지표입니다.

    Z-Score이 양수라는 건 자료 값이 평균보다 크다는 뜻이고,

    음수라는 건 자료 값이 평균보다 낮다는 뜻입니다.

    0에 가깝다면 자료 값과 평균이 비슷하다는 것을 의미합니다.

    이때 Z-Score가 3 이상이거나 -3 이하면 일반적으로 이상치로 판단합니다.

    마지막으로 IQR이 있습니다.

    IQR은 1사분위수와 3사분위수 간의 거리를 나타내는 지표입니다.

    보통 1사분위수부터 -1.5(IQR)보다 작거나 3사분위수부터 +1.5(IQR)보다 큰 값을 이상치라고 판단합니다.

     

    이상치는 분석 결과의 질을 떨어뜨리거나 왜곡할 수 있는 위험이 있어서

    제거하거나 다른 값으로 대체하는 경우도 많지만,

    상황에 따라서는 제거하지 않고 분석해야 하는 경우도 있으니 무조건 없애야 하는 건 아니라는 거! 😉

     

    유의확률(P-value)

    이전에 어떤 면접관님께서 저에게 통계에서 가장 중요한 개념은 무엇이냐고 물어보신 적이 있습니다.

    그 당시 저는 대답을 못 했었는데, 면접관님은 P-value라고 알려주셨습니다.

    이처럼 유의확률(P-value)는 굉장히 중요한 개념이라고 할 수 있는데,

    그만큼 쉽게 이해하기에 어려운 부분이기도 합니다.

    이동훈 강사님께서 P-value에 대해 최대한 쉽게 설명해주셨기 때문에

    저도 쉽게 개념을 정리해보겠습니다! 🙌

     

    먼저 P-value가 무엇인지 정의를 먼저 보자면,

    귀무가설이 맞다는 전제 하에, 표본에서 실제로 관측된 통계치와 같거나 더 극단적인 통계치가 관측될 확률입니다.

    이게 무슨 소리야

    정말 정의만 보면 어려운 말 투성이 아닌가요?

    추론 통계를 할 때 가설은 두 가지로 나뉩니다.

    귀무가설(H0)은 일반적으로 널리 인정되고 있는 사실을 말합니다.

    예를 들어, 먼 과거에 우리는 지구가 평평하다고 생각했습니다.

    이것이 그때의 귀무가설이라고 할 수 있습니다.

    하지만 여러 연구들과 여러 증명들을 통해 지구가 평평하지 않고 둥글다는 것을 주장했죠.

    이렇게 연구자가 주장하고자 하는 가설을 대립가설(H1)이라고 합니다.

     

    어떤 가설이든 그 가설이 맞을 확률이 100%일 수는 없습니다.

    하지만 통상적으로 가설이 틀릴 확률이 5% 미만이면 해당 가설이 맞다고 인정해줍니다.

    이것을 '유의확률이 0.05(5%) 미만이면 대립 가설을 채택한다'

    또는 '유의확률이 0.05 미만이면 귀무 가설을 기각한다' 라고 합니다.

     

    하지만 5%는 통상적인 경우이고, 상황에 따라 유의확률이 0.04라고 해도 대립 가설을 채택하지 않을 수 있고,

    유의확률이 0.08이라고 해도 대립 가설을 채택할 수도 있습니다.

    예를 들어, 유튜브 알고리즘이 91%의 확률로 관심사를 잘 맞췄다고 해봅시다.

    이 경우 유의확률은 0.09이지만 9%의 확률로 원하는 영상이 안 나왔다고 해서

    유튜브 시청을 그만두진 않을 것입니다.

    이런 경우가 유의확률이 0.05 이상이어도 대립 가설을 채택할 수 있는 경우입니다.

    하지만 어떤 신약을 개발하는데 4.5%의 확률로 치명적인 부작용이 발생한다고 해봅시다.

    이 경우 유의확률은 0.045이지만 부작용 발생 확률이 너무 높다고 생각되지 않나요?

    이런 경우가 바로 유의확률이 0.05 미만이어도 대립 가설을 채택하지 않을 수 있는 경우입니다.

     

    T-Test

    P-value와 항상 함께 나오는 개념이 바로 T-Test입니다.

    T-Test는 두 개의 집단의 평균에 통계적으로 유의미한 차이가 있는지 검정하는 방법입니다.

    T-Test는 다음과 같은 방식으로 시행됩니다.

    먼저 검증할 변수를 선택하고, F-검정을 진행합니다.

    F-검정은 두 집단의 분산이 같은지 등분산성을 검정하는 방법입니다.

    F-검정을 진행해서 P-value가 0.05보다 크면 두 집단의 분산이 같다고 판단해 등분산 가정 T-Test를 시행하고,

    0.05보다 작으면 두 집단의 분산이 다르다고 판단해 이분산 가정 T-Test를 시행합니다.

    F-검정을 통해 어떤 T-Test를 시행할 수 있을지 알았으면 T-Test를 진행합니다.

    마지막으로 T-Test를 진행했을 때 P-value가 0.05보다 작으면

    두 집단의 평균 차이에 유의미한 영향을 미친다고 해석할 수 있다고 합니다.

     

    회귀 분석

    마지막으로 회귀 분석에 대해 공부했습니다!

    회귀 분석은 둘 이상의 변수 사이의 관계를 나타내는 분석 방법입니다.

    회귀 분석은 두 변수 간 관계를 파악하고 미래 값을 예측하는 것이 목적이라고 할 수 있습니다.

     

    회귀 분석의 종류에는 선형 회귀 분석과 비선형 회귀 분석이 있습니다.

    이 중에서 저희는 선형 회귀 분석에 집중해서 배웠습니다.

    단순 선형 회귀 분석은 x가 변할 때 y가 어떻게 변하는지 가장 잘 설명해주는 직선을 찾아 분석하는 방식입니다.

    간단히 y와 x 사이의 1차 방정식을 구하는 방식이라고 할 수 있죠.

    단순 선형 회귀 분석의 결과를 평가 및 해석할 때는 결정 계수, F값, y절편 및 x1의 계수를 사용합니다.

    단순 선형 회귀 분석 실제 실습 화면

    위 이미지는 제가 수업 시간에 실제로 엑셀로 실습한 화면인데요,

    결정 계수와 F값, y절편 및 x1의 계수를 통해 해석할 수 있습니다.

    이때, 1차 방정식인 y = ax + b 함수에서 y절편은 b를, x1은 a(기울기)를 나타내기 때문에

    이 결과로 1차 방정식까지 구할 수 있겠죠?

     

    다중 선형 회귀 분석은 여러 개의 독립 변수가 종속 변수에 미치는 영향을 파악할 때 사용합니다.

    다중 선형 회귀 분석의 결과를 평가 및 해석할 때는 조정된 결정 계수, F값, y절편 및 x1의 계수를 사용합니다.

    다중 선형 회귀 분석 실제 실습 화면

    이번에도 제가 실습한 화면을 가져 왔습니다!

    다중 선형 회귀 분석에서는 왜 조정된 결정 계수를 사용할까요?

    어떤 x가 y에 영향을 크게 주는 변수가 아니더라도 x의 개수가 많아지면 결정 계수는 어느 정도 높아진다고 합니다.

    이건 오류를 나타내는데요.

    그래서 이러한 오류를 조정 반영한 조정된 결정 계수로 결과를 평가 및 해석하게 된다고 합니다!

     


    이번 주 월요일엔 온라인 강의로 지난 주 금요일에 학습한 기초 통계에 대해

    복습할 수 있는 시간을 가졌어요.

    겹치지 않는 내용 위주로 정리해봤습니다 😊


    데이터 분석 단계 및 탐색적 데이터 분석

    먼저 데이터 분석의 단계에 대해 배웠습니다.

    데이터 분석의 단계는 크게 5단계로 나뉜다고 합니다!

    각각의 단계에 대해 자세히 살펴볼까요?

     

    가장 먼저 기획 단계에서는 비즈니스적으로 어떤 것을 이루고 싶은지 비즈니스에 대한 이해와 목표 설정을 하고

    어떤 데이터를 바탕으로 어떤 것을 예측하고 개선점을 찾을지 기획하는 단계입니다.

    데이터 수집 및 정제 단계에서는 기획 단계에서 기획한 것을 바탕으로

    분석에 필요한 데이터를 수집하고 전처리 하는 과정을 거칩니다.

    전처리를 할 때는 수집된 데이터가 정확한지 등 정합성과 무결성을 검증해야 한다고 합니다.

    모델링 단계에서는 모델링을 진행하기 전 기초 통계 개념을 바탕으로 데이터의 특성을 파악하는 EDA 과정과

    수학적, 통계적 모델링을 진행합니다.

    평가 및 결론 도출 단계에서는 앞서 진행한 모델링의 결과를 활용해 결론을 도출하고

    성능을 평가하는 과정을 거치죠.

    마지막으로 활용 단계는 도메인에 따라 조금 다를 수 있는데,

    시스템으로 구현하거나, 비즈니스 인사이트를 가지고 의사 결정을 하거나, 서비스에 활용하기도 합니다.

     

    데이터 탐색과 통계의 필요성

    데이터 분석을 하면서 통계 기법을 왜 알아야 할까요?

     

    그 전에 통계의 종류부터 알아볼게요!

    첫 번째로 기술 통계입니다.

    기술 통계는 요약된 정보를 담고 있는 통계량과 시각화를 바탕으로 데이터를 탐색하는 기법으로,

    관측된 데이터의 특성을 파악하기 좋은 수단입니다.

    두 번째로 추론 통계가 있습니다.

    거의 대부분의 통계가 추론 통계라고 생각하면 되는데,

    전체 데이터(모집단)가 너무 클 때 표본을 추출해서 통계량을 관찰하고 분석 기법을 활용해

    모집단을 추론하는 기법입니다.

     

    데이터 탐색 과정의 목적은 어떤 변수가 결론에 얼마나 많은 영향을 미치는지 파악하기 위함입니다.

    변수의 분포에 따라 사용할 수 있는 통계적 방법론이 다르기 때문에

    데이터 탐색 과정을 통해 어떤 통계 기법을 사용할 수 있을지 탐색하는 작업이 필요합니다.

     

    이처럼 통계 기법은 수치로부터 정보를 추출해내기 위한 수단이기 때문에

    데이터 분석과 통계 기법은 떼어넬 수 없는 관계라는 뜻이죠!

     

    왕초보 기초 통계

    먼저 기본적인 통계 용어들을 살펴보겠습니다.

    변량은 데이터의 값, 자료의 수치를 나타내는 용어입니다.

    그렇다고 숫자형만 가능한 게 아니라 혈액형의 A, B, O, AB와 같은 것들도 변량에 해당되죠.

    계급은 변량을 일정한 간격으로 나눈 구간을 말합니다.

    계급을 나눌 땐 변량의 최소값과 최대값을 고려해야 하고, 적당한 개수로 나눠야 합니다.

    예를 들어, 학생들의 키가 150cm에서 190cm까지 있을 때 5cm 단위로 나누면 적당하다고 볼 수 있습니다.

    도수 상대도수는 각 계급에 속하는 변량의 개수와 비율을 나타냅니다.

    위에 나온 개념들로 만들 수 있는 게 바로 도수분포표인데요.

    출처) 패스트캠퍼스 '데이터 분석을 위한 기초 통계 완전 정복' 강의자료

    위 그림과 같이 순서가 있을 경우엔 순서대로 계급과 각 계급에 속하는 도수를 나타낼 수 있습니다.

    도수분포표의 장점은 구간별로 분포를 한눈에 보기 좋다는 것이고,

    단점은 각 변량의 정확한 값을 모른다는 것입니다.

    도수분포표를 그래프로 시각화한 것을 히스토그램이라고 볼 수 있는데요, 아래 그림과 같은 형태입니다.

    출처) 패스트캠퍼스 '데이터 분석을 위한 기초 통계 완전 정복' 강의자료

    정규분포, 표준정규분포, 표준화

    앞서 정규분포에 대해 언급을 했었는데

    정규분포 중에서도 평균이 0이고 표준편차가 1인 정규분포를 표준정규분포라고 합니다.

     

    정규분포의 형태는 평균과 표준편차에 따라 정말 다양한데,

    이렇게 다양한 형태의 정규분포는 표준화 과정을 통해 표준정규분포로 변환될 수 있습니다.

    이 개념도 고등학교 때 많이 배웠던 개념인데요.

    표준화를 하는 궁극적인 목표는 다 다르게 생긴 정규분포를 표준정규분포로 만들어서

    이미 계산된 표준정규분포에 대한 값을 바탕으로 확률을 구하자! 입니다.

    표준화를 통해 데이터들 간 스케일이 달라도 통일시켜 균일한 기준을 가지고 비교가 가능하기 때문에

    매우 중요한 개념입니다.

    꼭 기억해주세요! ⭐️

     

    모집단, 표본, 모평균, 표본평균, 모분산, 표본분산

    지금부터 나올 개념들은 추론 통계에 사용되는 개념들입니다.

     

    조사 대상이 되는 전체 데이터를 모집단이라고 하고,

    모집단에 대한 평균이나 비율 등 요약된 수치를 모수라고 합니다.

    모수가 결국 저희가 알고 싶은 값이라고 할 수 있죠.

     

    모집단에서 표본을 추출할 때는 모집단의 특징을 비슷하게 가지는 것이 중요합니다.

    표본의 특징과 모집단의 특징이 아주 다르면 표본의 통계값이 모집단을 대표한다고 보기 어렵기 때문입니다.

    예를 들어, 장님이 코끼리의 다리를 만졌을 때와 코를 만졌을 때

    둘 다 코끼리라고 예측하지 못하는 것과 비슷하다고 할 수 있습니다.

     

    모평균은 모집단의 평균, 표본평균은 표본의 평균이고

    모분산은 모집단의 분산, 표본분산은 표본의 분산이라는 것은

    이제 다들 유추하실 수 있겠죠?

     

    다만 주의할 점은 모분산과 표본분산은 수식이 서로 다르다는 것입니다.

    모분산은 값에서 전체 평균을 뺀 것의 제곱을 더해서 전체 개수(N)로 나누는데,

    표본분산은 값에서 표본의 평균을 뺀 것을 전체 개수에서 1을 뺀 N-1로 나눕니다.


    이렇게 온라인 강의를 통한 복습이 끝나고

    2/28 화요일에는 마지막 통계 수업이 있는 날이었습니다!

    지난 주에 배우다 만 통계적 데이터 분석부터 이어서 배웠습니다.


    시계열 데이터 분석

    가장 먼저 시계열 데이터 분석에 대해 공부했습니다.

    시계열 데이터란 시간의 흐름에 따라 발생한 데이터로,

    일정 기간에 대해 시간의 함수로 표현되는 데이터를 말합니다.

    시계열 데이터 분석의 목표는 과거 시계열 데이터의 특성을 파악해 미래 데이터를 예측하는 것입니다.

     

    시계열 데이터 분석도 변수의 개수에 따라, 데이터 유형에 따라 다양한 분석 방법이 있지만

    저희는 지수 평활법에 집중해서 배웠습니다.

     

    지수 평활법은 현재의 실제 값과 예측 값을 합산해서 미래의 예측 값을 구하는 방법입니다.

    즉, 미래의 예측 값 = 과거의 실제 값 X 𝛼 + 과거의 예측 값 X (1-𝛼) 인 것이죠.

    이때 𝛼는 0에서 1 사이의 값으로, 실제 값을 반영할 가중치를 의미합니다.

    지수 평활법은 과거의 값이 현재 나와 가까운 시점일수록 가중치를 많이 준다는 특징이 있습니다.

     

    지수 평활법에 대해 간단하게 예를 들어볼게요.

    A기업의 주가 예측 프로젝트를 진행하는데 날짜별로 실제 값과 예측 값을 적어본다고 합시다.

    현재 날짜인 3/1에 3/2의 주가가 100일 것으로 예측했는데

    3/2가 되어 보니 실제 주가가 90이었다고 하겠습니다.

    이 데이터를 바탕으로 3/3의 주가를 예측할 때, 우리가 실제 값의 40%를 반영하겠다고 하면(𝛼값)

    3/3의 주가는 (90 X 0.4) + (100 X 0.6) = 96이 될 것입니다.

    좀 이해가 되시나요?

     

    엑셀로 지수 평활법을 이용해 예측치를 산출할 수 있다고 합니다.

    =FORECAST.ETS(target_date, values, timeline, [계절성], [누락데이터처리], [중복시계열처리])

    FORECAST.ETS 함수에 예측할 날짜, 알고 있는 실제 값들, 과거의 날짜들을 넣고

    계절성이 얼만큼 있는지, 누락 데이터는 어떻게 처리할 것인지, 중복 시계열은 어떻게 처리할 것인지를

    넣어주면 예측치를 알 수 있습니다.

     

    시계열 데이터에 대한 이론을 학습한 뒤, 강사님께서 준비해주신 실습 파일로 실습도 진행했습니다.

     

    머신러닝의 개념

    인공지능이나 머신러닝에 대해 한 번도 들어보지 못한 분 계신가요?

    정확히 무슨 의미인지는 몰라도 어디선가 들어보고

    '그래서 그게 뭔데?' 라는 생각을 한번 쯤은 해보셨을 거라고 생각합니다.

     

    인공지능과 머신러닝, 그리고 딥러닝은 간단히 포함 관계로 나타낼 수 있습니다.

    인공지능은 사고나 학습 등 인간이 가진 지적 능력을 컴퓨터로 구현하는 기술입니다.

    머신러닝은 말 그대로 기계학습으로, 컴퓨터가 스스로 학습해 인공지능의 성능을 향상 시키는 기술입니다.

    마지막으로 딥러닝은 인간의 뉴런과 가장 비슷한 인공신경망 방식으로 정보를 처리하는 기술을 의미합니다.

     

    머신러닝의 종류

    머신러닝은 먼저 크게 지도학습과 비지도학습, 그리고 강화학습으로 나눌 수 있습니다.

     

    지도학습은 정답이 있는 데이터를 가지고 모델을 학습시킨 뒤,

    학습한 모델이 얼마나 정답을 정확하게 맞추는지 평가하는 머신러닝 기법입니다.

    연속형 수치의 값으로 특정 수치를 예측할 경우 회귀라고 하고

    주어진 입력 값을 n개의 결과값으로 분류하는 경우 분류라고 합니다.

    지도학습의 대표적인 알고리즘으로는 Decision Tree, Random Forest, KNN, SVM 등이 있습니다.

     

    비지도학습은 정답이 없는 데이터를 활용해 모델을 학습시키는데,

    데이터가 어떻게 구성되어 있는지, 어떻게 분류될 수 있는지에 대한 문제를 해결할 때 사용됩니다.

    대표적인 알고리즘으로는 K-means Clustering, PCA 등이 있습니다.

     

    강화학습은 학습 시스템이 취한 행동에 대해 보상이나 벌점을 줌으로써

    가장 큰 보상을 받는 방향으로 유도하는 머신러닝 기법입니다.

    어떻게 보면 강화학습이 인산이 학습하는 과정과 굉장히 유사한 기법이라고 할 수 있죠.

     

    다양한 머신러닝 알고리즘에 대한 자세한 내용은 해당 부트캠프에서는 다루지 않을 예정이지만

    패스트캠퍼스에 머신러닝, 딥러닝 알고리즘을 다루는 강의들이 많이 있으니 궁금하신 분들은 참고해주세요!

    https://fastcampus.co.kr/

     

    패스트캠퍼스 [직장인 실무교육]

    프로그래밍, 영상편집, UX/UI, 마케팅, 데이터 분석, 엑셀강의, The RED, 국비지원, 기업교육, 서비스 제공.

    fastcampus.co.kr


    머신러닝 이론 찍먹과 엑셀로 할 수 있는 다양한 데이터 분석 프로젝트 실습으로

    이동훈 강사님과의 엑셀, 기초 통계 수업은 이렇게 마무리 되었습니다.

    짧은 일주일이었지만 그 이상으로 많은 것을 얻을 수 있어서 소중한 시간이었답니다 😊


    3/2에는 다시 온라인 강의로 기초 통계를 복습하는 날이었습니다.

    위에 이미 언급된 내용 외에 추가로 배운 내용들만 공유 드릴게요!

     

    중심경향성

    중심경향성은 데이터 분포의 중심을 나타내는 말로, 데이터를 대표하는 값으로 이해하실 수도 있습니다.

    중심경향성은 크게 세 가지로 나뉘는데, 하나씩 살펴볼게요.

     

    먼저 최빈값은 가장 많이 등장하는 값을 의미합니다.

    범주형 자료의 경우 수치가 아니다보니 모든 분포를 다 확인하는 것보다

    가장 많이 나온 값(최빈값)을 찾는 것이 효율적이기 때문에

    주로 범주형 자료에서 대표값으로 최빈값을 사용한다고 해요!

     

    다음으로 중앙값은 자료를 크기 순으로 나열했을 때 가운데에 있는 값을 의미합니다.

    크기 순으로 나열해야 중앙값을 알 수 있기 때문에 범주형 자료보다는 순서형 자료의 대표값으로 적합하겠죠?

     

    마지막으로 평균값이 있는데, 저희가 평소에 일반적으로 말하는 평균은 산술 평균을 말합니다.

    산술 평균은 흔히 아는 대로 자료의 값을 모두 더해서 자료의 수로 나눈 값을 뜻합니다.

    특징으로는 주로 연속형 자료에 사용되고,

    이상치에 크게 민감하다는 특징이 있습니다.

    가중 평균은 자료의 중요도에 따라 가중치를 부여한 평균인데,

    신뢰도가 더 높은 데이터에 더 높은 가중치를 부여해 평균을 구하는 방식입니다.

    기하 평균은 이전 시점에 대한 비율에 대한 평균을 구할 때 사용되는 평균입니다.

    기하 평균을 사용하게 되는 예시로는 평균 성장률이나 주가 상승률에서 평균을 구할 때가 있습니다.

     

    퍼짐 정도

    데이터가 어떻게 얼마나 퍼져있는 지 퍼짐 정도를 확인할 수 있는 방식으로는

    분산, 표준편차, 범위, IQR 등이 있습니다.

    분산과 표준편차는 앞서 언급했었으니 범위와 IQR에 대해 설명드리겠습니다!

     

    범위는 range라고도 하는데, 쉽게 말해 최대값에서 최소값을 빼 범위를 구할 수 있습니다.

    범위를 통해 데이터가 어느 정도의 폭으로 퍼져 있는지 알 수 있죠.

    범위의 장점은 계산이 쉽고 해석하기에 용이하다는 점입니다.

    하지만 단점으로는 최대값과 최소값 사이에 데이터가 어떤 형태의 분포를 띄고 있는지 모르기 때문에

    범위 내의 관측값 분포에 대해 자세히 알 수는 없다는 점이 있고,

    이상치가 미치는 영향이 매우 크다는 단점도 있습니다.

    그렇기 때문에 범위만 가지고 데이터의 퍼짐 정도를 판단하기엔 부족하겠죠?

     

    IQR은 제3사분위수에서 제1사분위수를 뺀 값을 의미합니다.

    평균이나 중위값에 비해 한쪽으로 치우친 분포의 퍼짐 정도를 확인할 때 유용합니다.

     

    회귀 분석을 공부하는 이유

    최근 한 미용실의 한 달 간 매출이 50% 증가했다고 합시다.

    매출이 그만큼 증가한 이유를 딱 하나의 요인으로 말할 수 있을까요?

    마침 시기가 졸업 시즌이라 졸업식에 가기 전에 머리를 하고 싶은 사람이 많을 수도 있겠고,

    개강 전 기념 할인 행사를 열어 마케팅이 성공적이라 매출이 증가했을 수도 있겠죠.

    이처럼 보통 어떤 결과를 설명하기 위해 하나의 변수만 영향을 주지는 않습니다.

     

    그렇기 때문에 우리는 회귀 분석을 공부해야 하는데요.

    회귀 분석은 변수 사이의 모형을 두한 뒤 적합도를 측정해 내는 방법이고,

    적합도가 가장 높은 모델이 데이터를 잘 설명하는 모델이라고 볼 수 있습니다.

    회귀 분석의 장점은 여러 가지가 있습니다.

    많은 요인들 간 밸런스 조절을 잘 해서 요인들이 각각 결과에 어느 정도 영향을 미치는지

    가늠할 수 있게 해준다는 점,

    둘 이상의 변수 간 관계를 보여주는 통계적 방법이라는 점,

    종속변수에 영향을 미치는 독립변수의 영향력을 판단할 수 있다는 점입니다.

    이때 종속변수란 결과를 의미하고, 독립변수는 종속변수를 설명하기 위한 변수들을 의미해요.

     

    하지만 회귀 분석을 할 때 주의해야 할 점도 있는데요.

    회귀 분석은 상관관계를 나타내는 분석 방법이지, 인과관계를 설명해주는 건 아니라는 점입니다.

    매출과 회귀 분석 모델의 성능이 양의 상관관계가 있다고 해서

    모델의 성능이 올랐기 때문에 매출이 올랐다고 말할 수는 없기 때문이죠.

    하지만 상관성을 나타낼 때 회귀 분석만큼 좋은 분석 방법은 없다는 거! 😉


    이번 주 수업은 이렇게 마무리 되었습니다.

    기초 통계 수업이 끝난 기념(?)으로 퀴즈도 봤는데요,

    짜잔~!  🎉 

    실시간 수업 들은 걸 온라인 강의로 복습하고, 학습 일지 쓰면서 또 복습하니까

    퀴즈 만점도 받을 수 있었답니다 😆

    저번 글에 이어 이번 글까지 읽으신 분들이라면 여러분도 퀴즈 만점 충분히 가능해요! 👍

    댓글

Designed by Tistory.