카테고리 없음

ADsp

이응 2024. 10. 31. 14:21

1과목  데이터 이해

 

데이터

데이터 : 있는 그대로의 객관적 사실, 가공되지 않은 상태 (주문수량)

정보 : 데이터로부터 가공된 자료 (베스트 셀러)

 

데이터의 유형

(1) 정성적, 정량적

- 정성적 데이터 : 자료의 특징을 풀어 설명 - 언어, 문자 (기상특보, 주관식 설문응답)

- 정량적 데이터 : 자료를 수치화 - 수치, 기호 (온도, 풍속)

(2) 정형 , 반정형, 비정형

- 정형 데이터 : 정보 형태가 정해짐 ( 관계형 DB, 엑셀 스프리드시트, CSV)

- 반정형 데이터 : 데이터를 설명하는 메타데이터를 포함( 로그, HTML, XML ,JSON)

- 비정형데이터 : 형태가 정해지지 않음 (SNS , 유튜브 , 음원)

 

암묵지, 형식지간 상호작용

-암묵지 : 개인에게 습득되고 겉으로 드러나지 않음

-형식지 : 문서, 매뉴얼 등의 형상화된 지식

1) 공통화 : 암묵지 지식을 다른 사람에게 알려줌

2) 표출화 : 암묵지 지식을 매뉴얼이나 문서로 전환

3) 연결화 : 교재, 매뉴얼에 새로운 지식 추가

4) 내면화 : 만들어진 교재, 매뉴얼에서 다른 사람의 암묵지를 터득

 

DIKW 피라미드

(1) 데이터 : 있는 그대로의 사실 (A 대리점 핸드폰 100만원, B대리점 핸드폰 200만원)

(2) 정보 : Data를 통해 패턴 인식 (A대리점이 핸드폰이 싸다)

(3) 지식 : 패턴을 통해 예측 (A에서 핸드폰을 사면 이득을 보겠다)

(4) 지혜 : 창의적인 산물 (A대리점의 다른 기기들도 B대리점보다 저렴할 것이다)

 

데이터 단위

KB < MB < GB < TB < PB < EB < ZB < YB ( Pea < Exa < Zetta < Yotta )

 

데이터 베이스의 정의와 특징

데이터베이스의 정의

(1) DB : 일정 구조에 맞게 조직화된 데이터의 집합

스키마 : DB 구조와 제약조건에 관한 전반적 명세

인스턴스 : 정의된 스키마에 따라 저장된 값

(2)DBMS : DB 를 관리, 접근 환경 제공하는 소프트 웨어

1) 관계형 DBMS : 테이블 (표)로 정리  (오라클, MSSQL, MYSQL , MARIA DB)

2) 객체지향 DBMS : 정보를 객체형태로 정리

3) NoSQL DBMS : 비정형 데이터를 저장하고 처리 (HBASE, Mongo DB, Dynamo DB, Casandra)

(3) SQL : 데이터 베이스에 접근할 수 있는 하부 언어

정의언어 (DDL) : CREATE, ALTER, DROP

조작언어(DML) : SELECT, INSERT, DELETE, UPDATE

제어언어(DCL): COMMIT,ROLLBACK, GRANT, REVOKE

 

데이터베이스의 특징

(1) 공용데이터 : 여러 사용자가 다른 목적으로 데이터 공동 이용

(2) 통합된 데이터 : 동일한 데이터 중복되어 있지 않음

(3) 저장된 데이터 : 저장매체에 저장

(4) 변화되는 데이터  : 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지 (무결성)

 

데이터베이스의 구성요소

메타 데이터 : 데이터를 설명하는 데이터

인덱스 : 정렬 , 탐색을 위한 데이터의 이름

 

데이터베이스 설계절차

(1) 요구조건분석

(2) 개념적설계 : 개념적 스키마 생성

(3) 논리적설계: ERD 설계

(4) 물리적설계 : 저장구조 설계

 

데이터베이스 활용

기업 활용 데이터 베이스

- OLTP : 데이터를 수시로 갱신 (거래단위)

-OLAP : 다차원 데이터를 대화식으로 분석

-CRM : 고객과 관련 자료 분석, 마케팅 활용

-SCM : 공급망 연결 최적화

-ERP : 기업 경영 자원을 효율화

-BI : 기업 보유 데이터 정리 , 분석하여 리포트 중심 도구

-BA : 통계 기반 비즈니스 통찰력

-Block Chain : 네트워크 참여한 모든 사용자가 정보를 분산, 저장

-KMS : 기업의 모든 지식을 포함

 

Data Ware House(DW)

(1) 특징 

주제지향적 : 분석목적 설정이 중요

데이터통합 : 일관화 된 형식으로 저장

시계열성 : 히스토리를 가진 데이터

비휘발성 : 읽기 전용 - 수시로 변하지 않음

(2) ETL (Extraction, Transformation , Load)

ETL을 통하여 DW와 DM 등의 DB 시스템에 데이터 적재

 

Data Lake

비정형 데이터를 저장하여 하둡과 연계하여 처리

하둡 : 병렬처리 오픈소스 프레임워크

1) HDFS : 분산형 파일 저장 시스템

2) MapReduce : 분산된 데이터를 병렬로 처리

 

2. 데이터의 가치와 미래

 빅데이터의 이해

 

빅데이터 출현 배경

인터넷 확산, 스마트폰 보급, 클라우딩 컴퓨팅으로 인한 경제성 확보, 저장매체 가격하락, 하둡을 활용한 분산 컴퓨팅, 비정형 데이터 확산

 

빅데이터의 3V (가트너 정의)

1) Volume(규모) : 데이터 양 증가 (구글 번역 서비스)

2) Variety(다양성) : 데이터 유형 증가

3) Velocity(속도): 데이터 생성, 처리 속도 증가

4) 그 외 5 V에 포함되는 요소

-Value (가치)

-Veracity(신뢰성)

 

빅데이터에 대한 비유

(1) 산업 혁명의 석탄, 철 : 산업혁명에서의 석탄, 철 역할

(2) 원유 : 정보제공으로 생산성 향상

(3) 렌즈 : 현미경이 생물학 발전 영향 , 산업 전반에 영향 ( 구글 Ngram Viewer)

(4) 플랫폼 : 공동 활용 목적으로 구축된 구조물, 써드파티 비지니스에 활용 ( 페이스 북)

*써드파티 : 원천기술을 활용한 파생상품 만드는 회사

 

빅데이터가 만들어내는 변화 

(1) 표본조사 -> 전수조사

(2) 사전처리 -> 사후처리

(3) 질 ->

(4) 인과관계 -> 상관관계

 

빅데이터의 가치와 영향

빅데이터 가치 산정이 어려운 이유

(1) 특정 데이터를 언제, 어디서 누가 활용할 지 알 수 없음

(2) 기존에 가치 없는 데이터도 새로운 분석기법으로 가치를 창출

 

비즈니스 모델

빅데이터를 활용 위한 3대 요소

-인력, 자원(데이터) , 기술

 

빅데이터의 주요 분석기법

-회귀분석 : 독립변수와 종속변수 관계 X가 Y에 어떤 영향을 미치는가?

(고객 만족도가 높은 사람은 재방문할 확률 높은가?)

-유형분석 : A와 B는 어디에 속하는 범주 (같은 패턴을 보이는 동물)

-연관규칙 : 여러 요소들간의 규칙 상관관계 존재 (마트에서 치킨과 맥주를 같이 사는 관계)

-유전자 알고리즘 : 최적화 필요한 문제의 해결책

(택배차량 어떻게 배치, 최대 시청률 얻으려면 어떤 프로그램을 어떤 시간대에 방송?)

-기계학습 : 훈련 데이터로부터 컴퓨터가 학습하고 미래를 예측 (넷플릭스 영화 추천 시스템)

-감정분석 : 감정(긍정/부정) 분석 (후기를 바탕으로 원하는 것 발견)

-소셜 네트워크 분석 : 사람간의 관계 SNS상 사용자들 관계 속 영향력 높은 사람 찾기)

 

위기 요인과 통제 방안

위기 요인과 통제방안

(1) 사생활침해 : SNS 올린 데이터가 사생활 침해

-> 제공자에서 사용자 책임으로 전환

(2) 책임 원칙 훼손 : 범죄 예측 프로그램으로 예측하여 체포하는 문제

-> 결과에 대해서만 책임

(3) 데이터의 오용 : 분석 결과가 항상 옳은 것은 아님

-> 알고리즘을 해석 가능한 알고리즈미스트 필요

 

개인정보 비식별화

(1) 데이터 마스킹 : 홍길동 -> 홍 xx

(2) 가명처리 : 홍길동 -> 임꺽정

(3) 총계처리 : A ; 165, B : 170, C : 175 -> 합 : 510, 평균 : 170

(4) 범주화 : 홍길동 35세 -> 홍길동 30 ~ 40 세

 

미래의 빅데이터

(1) 서비타이제이션 (Servitization) : 서비스와 제품의 결합, 기존 -신규 서비스의 결합

(2) 마이데이터 : 자신의 신용 정보를 다른 제 3자에게 제공하여 서비스를 제공받음

(3) 딥 러닝 :  사람의 뇌 구조를 모방한 인공신경망을 활용하여 기계학습(머닝러닝) 기법

 

2. 가치 창조를 위한 데이터 사이언스와 전략 인사이트

빅데이터분석과 전략 인사이트

전략 인사이트

- 집중과 선택 ( 많은 데이터나 다양한 대상에 분산보다는 현재 분석에 집중)

- 업계 상황만 보지 말고 더 넓은 시야에서 봐야함

- 경영진의 전략적 인사이트에 기여

👉🏻 조직이 분석을 배우는 상태이거나 특정 문제의 범위를 해결할 때는 집중과 선택

👉🏻 사업 상황들을 확인할 떄는 넓은 시야

 

데이터 사이언스

- 데이터와 관련된 모든 분야의 전문지식을 종합한 학문

- 정형 / 비정형 데이터를 막론하고 데이터를 분석 (총체적 접근법)

 

데이터 사이언스 핵심 구성요소

(1) Analytics : 이론적 지식

(2) IT : 프로그래밍적 지식

(3) 비즈니스 분석 : 비즈니스적 능력

 

전략 인사이트 도출을 위한 필요 역량

데이터 사이언티스트의 필요역량

(1) 하드 스킬 : 이론적 지식 (수학 , 통계학, 가설검정 등) 가트너 제시 역량에 미포함

(2) 소프트 스킬 : 스토리텔링, 리더십, 창의력, 분석 등

👉🏻  하드스킬은 이과적, 소프트스킬은 문과적인 느낌

 

빅데이터 그리고 데이터 사이언스의 미래

빅데이터 가치 패러다임 변화

- Digitalization  -> Connection > Agency

(1) Digitalization : 아날로그 세상을 디지털화

(2) Connection : 디지털화된 정보들의 연결

(3) Agency : 연결을 효과적으로 관리

 

 

2과목 데이터 분석 기획

1. 데이터 분석 기획의 이해

분석 기획 방향성 도출

 

분석 대상과 방법

방법 \ 대상 Known UnKnown
Known 최적화 (Optimization) 통찰(Insight)
Un-Known 솔루션 (Solution) 발견(Discovery)

 

분석 기획 방안

  과제중심적접근 장기적 마스터플랜
목적 빠르게 해결 지속적 분석 원인 해결
1차목표 Speed & Test Accuracy & Deploy
과제유형 Quick & Win Long Term View
접근방식 Problem Solving Problem Definition

 

분석 기획서 고려사항

1) 가용 데이터 : 분석의 기본이 되는 데이터 확보 및 파악

2) 적절한 유스케이스 탐색 : 기존에 잘 구현 되어있는 유사 시나리오 활용

3) 장애요소에 대한 사전계획 수립 : 조직의 역량으로 내제화

 

의사결정을 가로막는 요소

고정 관념 편향된 생각

프레이밍 효과 : 동일상황임에도 개인의 판단, 결정이 달라짐

 

분석 방법론

분석 방법론의 구성요소

절차, 방법, 도구와 기법, 템플릿과 산출물

 

분석 방법론 모델

(1) 폭포수 모델 : 이전 단계 완료되어야 다음 단계 진행 (Top-Down)

(2) 나선형 모델 : 여러 개발과정 거쳐 점진적으로 완성, 위험요소 제거 초점

(3) 프로토타입 모델 : 일부분 (프로토타입)을 우선 개발하고 보완

(4) 애자일 : 일정한 주기를 가지고 프로토타입을 끊임없이 수정하여 고객의 Needs 반영

 

KDD 분석 방법론

-데이터 선택 -> 전처리 -> 변환 -> 마이닝 -> 결과 평가

1) 전처리 : 이상값, 잡음 식별 등 데이터 가공

2) 변환 : 변수 선택 및 차원 축소

 

Crip -DM 분석 방법론

-업무이해 -> 데이터 이해 -> 데이터준비 -> 모델링 -> 평가 -> 전개

1) 모델링 단계에서 모델 평가 수행하고 평가 과정 단계에서 모델 적용성 평가 수행

2) 평가 -> 전개에서 위대한 실패 발생 가능

 

 

빅데이터 분석 방법론

 

1) 분석 기획

- 비즈니스 범위 설정 : SOW(Statement of Works) : 구조화된 프로젝트 정의서

- 위험 계획 수립 (회피, 전이, 완화, 수용)

2) 데이터분석

- 추가적인 데이터 확보 필요 시 데이터 준비 단계로 다시 진행

3) 데이터 분석 - 모델링

- 가설 설정 통해 통계 모델이나 기계학습을 이용한 분류, 예측 등의 모델을 만드는 과정

- 의사 코드 : 일반적인 언어로 프로그래밍 언어의 알고리즘을 유사한 형식으로 써 놓은 것

 

 

분석 과제 발굴

 

디자인 싱킹 

사용자에 공감으로 시작해서 아이디어 발산 / 수령 과정을 통한 피드백으로 발전하는 과정

-공감하기 -> 문제정의 -> 아이디어 도출 -> 프로토타입 -> 테스트

 

하향식 접근 방법

문제가 주어지고 해답을 찾기 위해 진행

문제탐색 -> 문제 정의 -> 해결방안 -> 타당성 검토

 

(1)문제 탐색

1) 빠짐없이 문제를 도출하고 식별하며 솔루션 초점보다는 가치에 초점

2) 기존 시스템 개선하여 사용 가능하면 개선하여 활용

3) 비즈니스 모델 캔버스 단순화 측면 : 업무, 제품 , 고객, 규제와 감사, 지원 인프라

👉🏻 지원 인프라 업무중에 고객이 제품을 규제와 감사 했다

4) 관점

거시적관점 : STEEP(사회, 기술, 경제, 환경, 정치)

경쟁자 확대 관점 : 대체자 , 경쟁자, 신규 진입자

시장의 니즈 탐색관점 : 고객, 채널, 영향자

5) 분석 유스 케이스

발굴한 분석 기회들을 구체적 과제로 만들기 전에 상세한 설명과 효과를 명시

(2)타당성 검토

경제적 타당성 : 비용대비 편익 분석관점 접근

데이터 타당성 : 데이터 존재여부, 분석역량 이 필요

기술적 타당성 : 역량 확보 방안 사전에 수립

 

상향식 접근 방법

: 문제 정의 자체가 어려울 때, 사물을 그대로 인식하는 What 관점 

주로 비지도 학습

 

지도학습 / 비지도 학습

(1) 지도 학습

정답이 있는 데이터를 학습 

분류분석, 회귀분석, 의사결정트리 , KNN , SVM

(2) 비지도학습

정답이 없는 데이터를 학습

군집분석, 차원축소, 연관규칙분석

 

분석 프로젝트 관리방안

분석과제에서 고려해야할 5가지 요소

데이터 크기, 속도, 데이터 복잡도, 분석 복잡도, 정확도 / 정밀도

정확도와 정밀도는 Trade - Off 관계

 

프로젝트 관리 지식 체계 10가지 영역

통합 , 범위 , 시간(일정) , 원가(비용) , 품질, 인적자원, 의사소통, 리스트(위험), 조달, 이해관계자

 

 

분석 마스터 플랜

마스터 플랜 수립

 

우선순위 선정

1) 전력적 중요도 : 전략적 필요성 , 시급성

2) 실행 용이성 : 투자 용이성, 기술 용이성

 

ISP

중장기 마스터 플랜을 수립하는 절차

 

ROI 관점

시급성 관점 : 비즈니스 효과 (Return) : Value

난이도 관점 : 투자비용 요소 (Investment) : Volume , Variey, Velocity

 

 

분석 거버넌스 체계 수립

 

분석 거버넌스 체계 구성 요소

조직 , 프로세스, 시스템, 데이터 분석관련 교육 및 마인드 육성 체계

 

데이터 분석 수준 진단

(1) 분석 준비도 

1) 분석 업무 파악 : 사실 분석, 예측, 시뮬레이션, 최적화, 분석 업무 정기적 개선

2) 분석 인력 및 조직 : 분석 전문가 , 관리자, 조직, 경영진 이해

3) 분석 기법 : 적합한 기법 사용, 분석 기법 라이브러리/평가/개선

4) 분석 데이터 : 데이터 관리, 외부 데이터 활용, 기준 데이터 관리(MDM)

5) 분석 문화 : 의사결정, 회의에서 활용, 공유 및 협업 문화

6) IT 인프라 : 운영 시스템 통합 환경

(2) 분석 성숙도

CMMI 모델 기반 (1~5단계)

비즈니스 / 조직 , 역량 / IT 부문 관점으로 구분

1) 도입  : 환경 , 시스템 구축

2) 활용 : 업무에 적용

3) 확산 : 전사 차원 관리 , 공유

4) 최적화 : 혁신, 성과 향상에 기여

 

1) 준비형 : 낮은 준비도 , 낮은 성숙도

- 데이터 , 인력, 조직, 분석업무, 분석기법 적용 안되어 사전 준비 필요

2) 정착형 : 낮은 준비도 , 높은 성숙도

- 인력, 조직, 분석업무, 분석기법 등을 제한적으로 사용

3) 도입형 : 높은 준비도 , 낮은 성숙도

- 조직 및 인력 등 준비도는 높으나, 분석업무 및 기법 부족

4) 확산형 : 높은 준비도, 높은 성숙도

- 6가지 분석 구성 요소가 모두 갖추고 있으며 지속적 확산이 가능

 

분석 지원 인프라 방안 수립

: 확장성을 고려한 플랫폼 구조 적용 (중앙집중적 관리)

 

데이터 거버넌스

(1) 데이터 거버넌스

1) 전사 차원에서 데이터 대해 표준화된 관리 체계 수립

2) 구성요소 : 원칙, 조직, 프로세스

3) 중요 관리대상 : 마스터 데이터, 메타 데이터, 데이터 사전 등

- 마스터 데이터 : 자료 처리에 기준이 되는 자료

- 메타 데이터 : 다른 데이터를 설명해 주는 데이터

- 데이터 사전 : DB에 저장된 정보를 요약

(2) 데이터 거버넌스 체계

1) 데이터 표준화 : 메타 데이터 및 사전 구축

2) 데이터 관리 체계 : 효율성을 위함

3) 데이터 저장소 관리 : 저장소 구성

4) 표준화 활동 : 모니터링 , 표준 개선 활동

 

빅데이터 거버넌스

데이터 거버넌스 체계 + 빅데이터 효율적 관리, 데이터 최적화 , 정보보호 데이터 카테고리 별 관리 책임자 지정등을 포함

 

조직 및 인력방안 수립 (DSCoE : 분석 조직)

- 집중 구조 : 독립적인 전담 조직 구성 (중복 업무 가능성 존재) / 이원화

- 기능 구조 : 해당 부서에서 직접 분석 (DSCOE 가 없음)

- 분산 구조 : 분석 조직 인력을 현업 부서에 배치

 

 

 

3과목 데이터분석

 

1. R 기초와 데이터 마트

R 기초

 

데이터 전처리

- 데이터를 분석하기 위해 데이터를 가공하는 작업

1) 요약변수  :수집된 정보를 종합한 변수로 서 재활용성이 높음 (1개월간 수입)

2) 파생변수  :의미를 부여한 변수 , 논리적 타당성 필요 (고객 구매등급)

 

R에서의 데이터 전처리 패키지

1) reshape : melt 로 녹인 데이터를 cast로 재구조화

2) sqldf : R 에서 SQL을 활용하여 데이터프레임(DF)을 다룰 수 있게 해줌

3) plyt : apply 함수 기반 데이터 처리

4) data.table : 컬럼별 인덱스로 빠른 처리가 가능한 데이터 구조

 

데이터마트(DM)

데이터 웨어 하우스의 한 분야로 특정 목적을 위해 사용 (소규모 데이터 웨어하우스)

 

결측값과 이상값 검색

EDA(탐색적 자료 분석)

데이터의 의미를 찾기 위해 통계, 시각화를 통해 파악

EDA의 4가지 주제 : 저항성의 강조, 잔차 계산, 자료변수의 재표현, 그래프를 통한 현시성

 

결측값

존재하지 않은 데이터 null/NA로 표시 의미있는 데이터 일 수도 있음

1) 단순 대치법

:결측값 가지는 데이터 삭제

:complete.cases 함수로 FALSE 데이터에 결측값 제거

2) 평균 대치법

: 평균으로 대치

3) 단순 확률 대치법

: 가까운 값으로 변경 (KNN을 활용)

4) 다중 대치법

: 여러번 대치 (대치 -> 분석 -> 결합)

 

이상값

극단적으로 크거나 작은 값이며 의미있는 데이터 일수도 있음 (체중 3kg)

이상값을 항상 제거하는 것은 아님

1)ESD(Extreme Studientized Deviation)

: 평균으로부터 표준 편차의 3배  넘어가는 데이터는 이상 값으로 판단

 

 

 

2) 사분위수 

: Q1 - 1.5IQR보다 작거나 Q3 + 1.5IQR 보다 크면 이상값으로 판단

 

 

2. 통계분석

- 통계학 개론

 

전수조사와 표본조사

전수조사 : 전체를 다 조사, 시간과 비용 많이 소모

표본조사 : 일부만 추출하여 모집단을 분석

 

표본 추출 방법

1) 랜덤 추출법 : 무작위로 표본 추출

2) 계통 추출법 : 번호 부여하여 일정 간격으로 추출

3) 집락 추출법 

- 여러 군집으로 나눈 뒤 군집을 선택하여 랜덤 추출

- 군집 내 이질적 특징, 군집 간 동질적 특징

4) 층화 추출법

- 군집 내 동질적 특징, 군집 간 이질적 특징

- 같은 비율로 추출 시 비례 층화 추출법

5) 복원, 비복원 추출

-복원 추출 : 추출되었던 데이터를 다시 포함시켜 표본 추출

-비복원 추출 : 추출되었던 데이터는 제외하고 표본 추출

 

자료의 척도 구분

1) 질적 척도

명목척도 : 어느 집단에 속하는지 나타내는 자료 (대학교, 성별)

순서척도(서열척도) : 서열관계가 존재하는 자료 (학년, 순위)

2) 양적 척도

등간척도(구간척도) : 구간 사이 간격이 의미가 있으며 덧셈과 뺄셈만 가능 (온도 지수 등)

비율척도 : 절대적 기준 0 이 존재하고 사칙연산 가능한 자료 (무게 나이 등)

 

기초 통계량

1) 평균(기댓값) : 전체 합을 개수로 나눈 값

2) 중앙값 : 자료를 크기 순으로 나열했을 때 가운 데 값

3) 최빈값 : 가장 빈번하게 등장하는 값

4) 분산 : 자료들이 퍼져있는 점도 / 표준편차 : 분산의 제곱근 값

5) 공분산 : 두 확률 변수의 상관 정도

- 공분산 = 0  : 상관이 전혀 없는 상태

-공분산 > 0 : 양의 상관 관계

-공분산 < 0 : 음의 상관 관계

- 최소, 최대값이 없어 강약 판단 불가

6) 상관계수

-상관 정도를 -1 ~1 값으로 표현

-상관계수 = 1 : 정비례 관계

-상관계수 = -1 : 반비례 관계

 

첨도와 왜도

1) 첨도 : 자료의 분포가 얼마나 뾰족한 지 나타내는 척도

- 첨도 = 0 : 정규 분포 형태

👉🏻 3을 기준으로 정규분포 형태를 판단하기도 함

- 값이 클수록 뾰족한 모양

 

(2) 왜도 : 자료 분포의 비대칭 정도 (0일 때 대칭)

- 왜도 < 0 : 최빈값 > 중앙값 > 평균값

- 왜도  >0 : 최빈값 < 중앙값 < 평균값

 

 

 

Summary 함수 결과의 해석

 

기초 확률 이론

1) 조건부 확률 : 특정 사건 B 가 발생했을 때 A 가 발생할 확률

2) 독립사건 : A,B가 서로 영향을 주지 않는 사건

3) 배반사건 : A, B 가 서로 동시에 일어나지 않는 사건

 

확률 분포

- 확률 변수가 특정한 값을 가질 확률을 나타내는 함수

1.이산 확률 분포

-값을 셀 수 있는  분포 , 확률 질량함수로 표현

1) 이산균등분포 : 모든 값에서 값이 일정한 분포

2) 베르노이분포 : 매 시행마다 오직 두 가지의 결과 뿐인 분포

3) 이항분포 : n번의 독립적인 베르누이 시행 통해 성공할 확률 p를 가지는 분포

4) 기하분포 : 처음 성공이 나올 때까지 시도횟수를 확률변수로 가지는 분포

5) 다항분포 : 여러개의 값을 가질 수 있는 확률 변수들에 대한 분포

6) 포아송분포 : 단위 공간 내에서 발생할 수 있는 사건의 발생 횟수 표현하는 분포

 

2. 연속 확률 분포

- 값을 셀 수 없는 분포, 확률 밀도 함수로 표현

1) 정규분포 : 우리가 일상생활에서 흔히 보는 가우스분포(Z검정)

2) t분포 : 두 집단의 평균치 차이의 비교 검정 시 사용 (T검정)

-데이터 개수가 30개 이상이면 정규성 검정 불필요

3) 카이제곱분포 : 두 집단의 동질성 검정, 혹은 단일 집단 모분산에 대한 검정 (카이제곱검정)

4) F분포 : 두 집단의 분산의 동일성 검정 시 사용 (F검정)

 

3.확률 변수 X의 f(x) 확률분포의 대한 기댓값(E(X))

1) 이산적 확률변수 = 시그마

2) 연속적 확률변수 = 적분

 

추정

- 표본으로부터 모집단을 추측하는 방법

(1) 점추정 : 모집단이 특정한 값

(2) 구간추정 : 모집단이 특정한 구간 (95%, 99%를 가장 많이 사용)

 

가설검정

모집단의 특성에 대한 주장을 가설로 세우고 표본조사로 가설의 채택여부를 판정

1) 귀무가설(H0) : 일반적으로 생각하는 가설(차이가 없다)

2) 대립가설(H1) : 귀무가설을 기각하는 가설 , 증명하고자 하는 가설 (차이가 있다, 크다/작다)

3) 유의수준 (a) : 귀무가설이 참일 때 기각하는 1종 오류를 범할 확률의 허용 한계 (일반적 0.05)

4) 유의확률(p-value) : 귀무가설을 지지하는 정도를 나타내는 확률

 

실제 \ 검정결과 H0 가 사실이라고 판정 H0가 거짓이라고 판정
H0가 사실 옳은 결정 1종 오류(a)
H0가 거짓 2종 오류 옳은 결정

 

가설 검정 문제풀이 방법

1) 귀무가설 / 대립가설 설정

-'차이가 없다' 혹은 '동일하다' -> 귀무가설

2) 양측 혹은 단측 검정 확인

-대립 가설의 값이 '같지 않다' -> 양측검정 / '값이 크다', '값이 작다' -> 단측검정

3) 일표본 혹은 이표본 확인

-하나의 모집단 -> 일표본 / 두 개의 모집단 -> 이표본

4) 귀무가설 기간 혹은 채택 

-p-value < 유의수준(0.05) -> 귀무가설 기각 / p-value > 유의수준(0.05) -> 귀무가설 채택

5) t 검정인 경우 -단일 표본 , 대응 표본, 독립표본 확인

모집단에 대한 평균검정 -> 단일 표본

동일 모집단에 대한 평균 비교 검정 -> 대응 표본

서로 다른 모집단에 대한 평균 비교 검정 -> 독립표본

 

비모수 검정

1) 모집단에 대한 아무런 정보 없을 때

2) 관측 자료가 특정 분포를 따른다고 가정 불가

3) 부호검정, 순위합검정, 만-휘트니 U검정, 크리스컬-월리스 검정

 

기초 통계분석

회귀분석

1. 개념 : 독립변수들이 종속변수에 영향을 미치는 파악하는 분석방법

1) 독립변수 : 원인을 나타내는 변수 (x)

2) 종속변수 : 결과를 나타내는 변수 (y)

3) 잔차 : 계산값과 예측값의 차이 오차 : 모집단 기준, 잔차 : 표본집단 기준)

 

2. 회귀계수 추정방법

최소제곱법 : 잔차의 제곱합이 최소가 되는 회귀계수와 절편을 구하는 방법

 

3. 회귀모형 평가

R-squared : 총 변동 중에서 회귀모형에 의하여 설명되는 변동이 차지하는 비율 (0 ~ 1 )

0일때는 모델이 안좋은 거고 1일 때는 모델이 좋은 거

 

회귀분석의 가정

1) 선형성 : 종속변수와 독립변수는 선형 관계

2) 등분산성 : 잔차의 분산이 고르게 분포

3) 정상성(정규성) : 잔차가 정규분포의 특성을 지님

4) 독립성 :  독립변수들간 상관관계가 없음

- 정규성은 Q-Q plot, 샤피로 월크 검정, 히스토그램 , 왜도와 첨도 활용 확인

 

회귀분석 종류

1) 단순회귀 : 1 개의 독립변수와 종속변수의 선형관계

2) 다중회귀 : 2개 이상의 독립변수와 종속변수의 선형관계

3) 다항회귀 : 2개 이상의 독립변수와 종속변수가 2차 함수 이상의 관계

4) 릿지회귀 : L2 규제를 포함하는 회귀 모형

5) 라쏘회귀 : L1 규제를 포함하는 회귀 모형

 

 

회귀 모형의 검정

1) 독립변수와 종속변수 설정

2) 회귀계수 값의 추정

3) 모형이 통계적으로 유의미한가 : 모형에 대한 F 통계량 , p -value

-귀무가설 : 모든 회귀계수는 0이다

4) 회귀계수들이 유의미한가 : 회귀 계수들의 t 통계량 , p-value

-각각의 회귀계수에 대한 귀무가설 : 회귀 계수는 0 이다

5) 위 1) 2) 모두를 기각하면 해당 모델을 활용

6) 모형이 설명력을 갖는가 : 결정계수(R square)

 

 

최적의 회귀 방정식 탐색 방법

1) 전진선택법 : 변수를 하나씩 추가하면서 최적의 회귀방정식을 찾아내는 방법

2) 후진제거법 : 변수를 하나씩 제거하면서 최적의 회귀방정식을 찾아내는 방법

3) 단계별 선택법 : 전진선택법 + 후진선택법으로 변수를 추가할 때 벌점을 고려

1) AIC (아카이케 정보기준)

-편향과 분산이 최적화되는 지점 탐색, 자료가 많을 수록 부정확

2) BIC (베이즈 정보 기준)

- AIC를 보완했지만 AIC보다 큰 패널티를 가지는 단점 , 변수가 적은 모델에 적합

 

 

다변량 분석

상관분석

- 두 변수간의 선형적 관계가 존재하는 지 파악하는 분석

(1)종류

1) 피어슨 상관분석 : 양적 척도, 연속형 변수, 선형관계 크기 측정

2) 스피어만 상관분석 : 서열 척도, 순서형 변수, 선형 /비선형적 관계 나타냄

(2)다중공선성

- 다중 회귀분석에서 설명 변수들 사이에 상관관계가 클 때 모델을 불안정하게 만듬

 

다차원 척도법

- 데이터 간의 근접성을 시각화 ( 2차원 평면이나 3차원 공간에 표현)

1) 특징 : 데이터 축소 목적, Stress 값이 0에 가까울 수록 좋음 x/y 축 해석이 불가

2) 종류

1) 계량적 MDS : 양적척도 활용

2) 비계량적 MDS : 순서척도 활용

 

주성분 분석 (PCA)

상관성 높은 변수들의 선형 결합으로 차원을 축소하여 새로운 변수를 생성

자료의 분산이 가장 큰 축이 첫번째 주성분

70 ~ 90 % 의 설명력을 갖는 수를 결정

 

 

(1) 스크리플롯 (Screeplot)

주성분의 개수를 선택하는데 도움이 되는 그래프 (x 축 주성분 개수 ,y축 분산변화)

수평을 이루기 바로 전 단계 개수로 선택

 

(2) 바이플롯

데이터 간 유사도를 한 번에 볼 수 있는 그래프 ( x 축 첫번째 주성분, y 축 두번째 주성분)

PC와 평행할수록 해당 PC에 큰 영향

화살표의 길이가 길수록 분산이 큼

 

시계열 예측

 

시계열 분석

시간의 흐름에 따라 관찰된 자료의 특성을 파악하여 미래를 예측 (주가데이터, 기온데이터)

 

정상성

시계열 예측을 위해서는 모든 시점에 일정한 평균과 분산을 가지는 정상성을 만족해야함

정상시계열로 변환 방법

1) 차분 : 현 시점의 자료를 이전 값으로 빼는 방법

2) 지수변환, 로그변환

 

백색잡음

시계열 모형의 오차항을 의미하며 원인은 알려져 있지 않음

평균이 0이면 가우시안 백색 잡음

 

시계열 모형

1) 자기회귀(AR) 모형

자기 자신의 과거 값이 미래를 결정하는 모형

부분자기상관함수(PACF)를 활요하여 p +1 시점 이후 급격 감소하면 AR(p)포형 선정

2) 이동평균(MA)모형

이전 백색잡음들의 선형결합으로 표현되는 모형

자기상관함수 (ACF)를 활용하여 q+1 시차 이후 급격히 감소하면 MA(q) 모형 선정

3)자기회귀누적이동평균(ARIMA) 모형

AR 모형과 MA 모형의 결합

ARIMA (p,d,q)

1) p 와 q 는 AR 모형과 MA 모형이 관련 있는 차수

2) d 는 정상화시에 차분 몇번 했는 지 의미

3) d = 0 이면 ARMA 모델

 

분해시계열

시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

1) 추세요인 : 장기적으로 증가 감소하는 추세

2) 계절요인 : 계절과 같이 고정된 주기에 따라 변화

3) 순환요인 : 알려지지 않은 주기를 갖고 변화 ( 경제 전반, 특정 산업)

4) 불규칙 요인 : 위 3가지로 설명 불가한 요인

 

정형 데이터 마이닝

데이터 마이닝

방대한 데이터 속에서 새로운 규칙, 패턴을 찾고 예측을 수행하는 분야

 

데이터 마이닝의 유형

1) 지도학습 : 정답이 있는 데이터를 활용

: 인공 신경망, 의사 결정트리, 회귀분석, 로지스틱회귀

2) 비지도 학습 : 정답이 없는 데이터들 사이의 규칙을 파악

:군집분석 , SOM, 차원축소, 연관분석

 

과대적합과 과소적합

1) 과대적합 : 모델이 지나치게 데이터를 학습하여 매우 복잡해진 모델 (회귀: 릿지,라쏘)

2) 과소적합 : 데이터를 충분히 설명하지 못하는 단순한 모델

 

데이터 분할

과대적합과 과소적합을 방지하고 데이터가 불균형한 문제를 해결하기 위해 사용

 

(1) 분할된 데이터 셋 종류

1) 훈련용 : 모델을 학습하는데 활용 (50%)

2)검증용 : 모델의 과대, 과소 적합응 조정하는데 활용 (30%)

3) 평가용 : 모델을 평가하는데 활용 (20%)

(2) 분할된 데이터의 학습 및 검증 방법

1) 홀드아웃 : 훈련용과 평가용 2개의 셋으로 분할

2) K-fold 교차검증 : 데이터를 k개의 집단으로 구분하여 k-1개 학습, 나머지 1개로 평가

3) LOOCV : 1개의 데이터로만 평가, 나머지로 학습

4) 부트스트래핑 : 복원추출을 활용하여 데이터 셋을 생성, 데이터 부족, 불균형 문제 해소

 

분류분석

로지스틱 회귀분석

종속변수가 범주형 데이터를 대상으로 성공과 실패 2개의 집단을 분류하는 문제에 활용

1) 오즈

성공할 확률과 실패할 확률의 비

Odds = 성공확률 (p) / 실패확률 (1 -P)

2) 로짓 변환

오즈에 자연로그 (자연상수 e 가 밑)을 취하는 작업

독립변수 X가 n 증가하면 확률이 e만큼 증가

 

의사결정 트리

-여러개의 분리기준으로 최종 분류값을 찾는 방법

(1)분류(범주형)에서의 분할 방법

1) CHAID 알고리즘 : 카이제곱 통계량

2) CART 알고리즘 : 지니지수 활용

3) C4.5 / C 5.0 알고리즘 : 엔트로피지수 활용

(2) 회구(연속형) 에서의 분할 방법

1) CHAID 알고리즘 : ANOVA F 통계량

2) CART 알고리즘  :분산 감소량

(2) 학습간 규제

1) 정지규칙

: 분리를 더이상 수행하지 않고 나무의 성장을 멈춤

2) 가지치기

: 일부 가지를 제거하여 과대적합을 방지

 

앙상블

여러개의 예측 모형들을 조합하는 기법으로 전체적인 분산을 감소시켜 성능 향상이 가능

1)보팅

다수결 방식으로 최종 모델을 선택

2)배깅

복원추출에 기반을 둔 붓스트랩을 생성하여 모델을 학습 후에 보팅으로 결합

복원추출을 무한히 반복할 때 특정 하나의 데이터가 선택되지 않을 확률 : 36.8%

3)부스팅

잘못된 분류 데이터에 큰 가중치를 주는 방법 , 이상치에 민감

종류 : AdaBoost, GBM , XGBoost, Light GBM

4) 랜덤포레스트

베깅에 의사결정트리를 추가하는 기법으로 성능이 좋고 이상치에 강한 모델

 

인공신경망

인간의 뇌 구조를 모방한 퍼셉트론을 활용한 추론모델

(1) 구조

1) 단층 신경망 : 입력층과 출력층으로 구성 ( 단일 퍼셉트론)

2) 다층 신경망 : 입력층과 출력층 사이에 1개 이상의 은닉층 보유 ( 다층 퍼셉트론)

-은닉층 수는 사용자가 직접 설정

(2) 활성화 함수

인경 신경망의 선형성을 극복

1) 시그모이드 함수

- 0 ~ 1 사이의 확률 값을 가지며, 로지스틱 회귀 분석과 유사

2) 소프트맥수 함수

- 출력 값이 여러 개로 주어지고 목표 데이터가 다범주인 경우 활용

3) 하이퍼볼릭 탄젠트 함수

- -1 ~ 1 사이 값을 가지며 시그모이드 함수의 최적화 지연을 해결

4)ReLU 함수

기울기 소실문제를 극복, max(0,x)

(3) 학습방법

1) 순전파(피드포워드) : 정보가 전방으로 전달

2) 역전파 알고리즘 : 가중치를 수정하여 오차를 줄임

3) 경사하강법 : 경사의 내리막길로 이동하여 오차가 최소가 되는 최적의 해를 찾는 기법

4) 기울기 소실 문제 

다수의 은닉층에서 시그모이드 함수 사용 시 학습이 제대로 되지 않는 문제

 

기타 분류모델

(1) KNN: 거리기반으로 이웃에 많은 데이터가 포함되어 있는 범주로 분류

(2) 나이브베이즈 : 나이브 (독립) 베이즈 이론을 기반으로 범주에 속할 확률 계산

(3) SVM :선형이나 비선형 분류 , 회귀 등에서 활용할 수 있는 다목적 모델

 

 

분류모델 평가지표

 

(3) ROC 커브

가로축을 1-특이도(FPR), 세로축을 민간도(TPR) 로 두어 시각화한 그래프

그래프 면적이 클수록 (1에 가까울수록) 모델의 성능이 좋다고 평가

(4) 이익도표

임의로 나눈 각 등급별로 반응검출율 , 반응률, 리프트 등의 정보를 산출하여 나타내는 도표

향상도 곡선 : 이익도표를 시각화한곡선

 

군집분석

비지도 학습으로 데이터들 간 거리나 유사성을 기준으로 군집을 나누는 분석

 

거리측도 

(1) 연속형 변수

유클리디안 거리 : 두 점 사이의 직선거리

맨하트 거리 : 각 변수들의 차이의 단순 합

체비셰프 거리 : 변수 거리 차 중 최댓값

표준화 거리 : 유클리디안 거리를 표준편차로 나눔

민코우스키 거리 : 유클리드, 맨하튼 거리를 일반화한 거리

마할라노비스 거리 : 표준화 거리에서 변수의 상관성 고려

(2) 범주형 변수

자카드 유사도 , 코사인 유사도

 

실루엣 계수

군집분석을 평가하는 지표로서 같은 군집간 가깝고 다른 군집간 먼 정도를 판단 ( -1 ~1 )

 

계층적 군집분석

(1) 거리측정방법

1) 최단 연결법 (단일 연결법) : 군집간 가장 가까운 데이터

2) 최장 연결법 (완전 연결법) : 군집간 가장 먼 데이터

3) 평균 연결접 : 군집의 모든 데이터들의 평균

4) 중심 연결법 : 두 군집의 중심

5) 와드 연결법 : 두 군집의 편차 제곱합이 최소가 되는 위치

 

(2) 덴드로그램

계층적 군집화를 시각적으로 나타내는 Tree 모양의 그래프 

 

K 평균 군집화

비계층 군집화 방법으로 거리기반

(1) 특징

안전된 군집은 보장하나 최적의 보장은 어려움

한번 군집에 속한 데이터는 중심점이 변경되면 군집이 변할 수 있음

(2)과정

1) 군집의 개수 K개 설정

2) 초기 중심점 설정

3) 데이터들을 가장 가까운 군집에 할당

4) 데이터의 평균으로 중심점 재설정

5) 중심점 위치가 변하지 않을까지 3),4)번 과정 반복

(3) K-medoids 군집화

K 평균 군집화의 이상치에 민감함을 대응하기 위한 군집방법

일반적으로 실형된 것이 PAM

 

혼합분포군집

-EM 알고리즘 활용

(1) E-Step 

1단계 ) 초기 파라미터 값 임의 설정

2단계 ) 파라미터 값 활용하여 기댓값 계산

(2) M-Step

3단계) 기댓값으로부터 확률분포의 파라미터 값 추정

4단계) 2단계부터 반복수행

 

SOM(자기 조직화 지도)

차원 축소와 군집화를 수행하여 고차원 데이터 시각화하는 기법

(1) 구성 : 은닉충 없이 입력층과 출력층으로만 구성

(2) 특징

인공신경망과 달리 순전파 방식만 사용

완전연결의 형태

경쟁층에 표시된 데이터는 다른 노드로 이동 가능

입력변수의 위치 관계를 그대로 보존

 

연관분석

: 항목들간의 조건 - 결과로 이루어지는 패턴을 발견하는 기법 (장바구니 분석)

 

(1)특징

결과가 단순하고 분명 (IF ~ THEN ~) 

품목 수가 증가할 수록 계산량이 기하급수적으로 증가

Apriori 알고리즘을 활용하여 연관분석을 수행

(2) 순차패턴

: 연관분석에 시간 개념을 추가하여 품목과 시간에 대한 규칙 찾는 기법