1. 통계학 기본
1.1 통계학
1.1.1 통계학의 목적(1) : 가지고 있는 데이터의 설명
1.1.2 통계학의 목적(2) : 모르는 데이터의 예측과 추측
1.1.3 표본과 모집단
1.1.4 1장에서 다루는 내용
1.2 표본을 얻는 과정
1.2.1 확률변수
1.2.2 호수와 낚시의 예
1.2.3 모집단에서 표본을 얻는 과정
1.2.4 실현값
1.2.5 샘플링
1.2.6 단순 랜덤 샘플링
1.2.7 샘플사이즈
1.2.8 전수조사와 표본조사
1.3 표본을 얻는 과정의 추상화
1.3.1 확률
1.3.2 확률분포
1.3.3 확률분포를 따름
1.3.4 모집단분포
1.3.5 무한모집단의 해석과 모집단분포
1.3.6 정리 : 표본을 얻는 과정
1.3.7 항아리 모델
1.4 기술통계 기초
1.4.1 수치형 변수
1.4.2 이산형 변수와 연속형 변수
1.4.3 카테고리형 변수
1.4.4 계급과 계급값
1.4.5 도수, 도수분포, 상대도수
1.4.6 누적도수와 누적상대도수
1.4.7 히스토그램
1.4.8 통계량
1.4.9 평균값
1.4.10 기댓값
1.4.11 분산
1.4.12 평균과 분산과 데이터의 범위
1.5 모집단분포 추정
1.5.1 모집단분포와 모집단의 상대도수분포
1.5.2 좀 더 현실적인 호수의 낚시 예
1.5.3 가정하기
1.6 확률질량함수와 확률밀도함수
1.6.1 확률질량함수
1.6.2 확률밀도
1.6.3 적분과 덧셈의 관계
1.6.4 확률밀도함수
1.6.5 정규분포
1.6.6 모수(확률분포의 매개변수)
1.6.7 여러 가지 확률분포
1.6.8 모집단분포의 추정
1.6.9 표본의 통계량을 모수의 추정값이라고 생각하기
1.6.10 추정오차
1.6.11 정리 : 통계학의 기본
1.7 통계량 계산
1.7.1 왜 수식으로 표현하는가
1.7.2 표본
1.7.3 평균값
1.7.4 기댓값
1.7.5 모평균과 표본평균
1.7.6 분산(표본분산)
1.7.7 분산(불편분산)
1.7.8 표본분산이 편향성을 가지는 이유
1.7.9 표준편차
1.8 확률론 기본
1.8.1 집합
1.8.2 요소
1.8.3 집합의 2가지 표기 방법
1.8.4 부분집합
1.8.5 벤다이어그램
1.8.6 교집합과 합집합
1.8.7 차집합
1.8.8 공집합
1.8.9 전체집합
1.8.10 여집합
1.8.11 표본점, 표본공간, 사상
1.8.12 배반사상
1.8.13 주사위를 던졌을 때 추정 가능한 여러 가지 확률분포
1.8.14 확률의 공리주의적 정의
1.8.15 빈도에 의한 확률 해석
1.8.16 주관확률
1.8.17 확률의 덧셈정리
1.8.18 조건부 확률
1.8.19 확률의 곱셈정리
1.8.20 독립
1.9 확률변수와 확률분포
1.9.1 확률변수와 실현값
1.9.2 이산형 확률분포와 확률질량함수
1.9.3 확률밀도
1.9.4 연속형 확률분포와 확률질량함수
1.9.5 연속형 확률분포와 확률밀도함수
1.9.6 확률의 합계, 확률밀도의 적분
1.9.6 적분과 면적의 관계
1.9.7 정규분포의 확률밀도함수
1.9.8 확률분포를 따른다
1.9.9 독립적이고 동일한 확률분포
1.9.10 정규분포의 확률밀도함수에서 확률을 계산하는 방법
1.9.11 확률밀도에서 기댓값을 계산하는 방법
2. 파이썬과 주피터 노트북 기초
2.1 환경 구축
2.1.1 파이썬이란
2.1.2 파이썬 버전
2.1.3 파이썬과 아나콘다
2.1.4 주피터 노트북
2.1.5 설치
2.1.6 파이썬 프로그래밍 용어
2.2 주피터 노트북 기본
2.2.1 주피터 노트북 실행
2.2.2 새 파일 만드기
2.2.3 계산 실행 방법
2.2.4 실행 결과 저장하기
2.2.5 Markdown을 사용하는 방법
2.2.6 주피터 노트북 종료하기
2.3 파이썬 프로그래밍 기본
2.3.1 사칙연산
2.3.2 주석 쓰기
2.3.3 데이터형
2.3.4 비교 연산자
2.3.5 변수
2.3.6 함수
2.3.7 클래스와 인스턴스
2.3.8 if 문을 사용한 분기
2.3.9 for 문을 사용한 반복 실행
2.3.10 사용하기 쉬운 프로그램을 작성하는 방법
2.4 numpy와 pandas 기본
2.4.1 분석을 위한 추가 기능 설치
2.4.2 numpy와 pandas
2.4.3 리스트
2.4.4 행과 열
2.4.5 배열
2.4.6 등차수열을 만드는 방법
2.4.7 여러 가지 배열을 만드는 방법
2.4.8 슬라이싱
2.4.9 데이터프레임
2.4.10 파일을 읽어 들이는 방법
2.4.11 데이터프레임 병합
2.4.12 데이터프레임 열에 대해 작업하기
2.4.13 데이터프레임 행에 대해 작업하기
2.4.14 시리즈
2.4.15 함수의 도움말
3. 파이썬을 이용한 데이터 분석
3.1 파이썬을 이용한 기술통계 : 1변량 데이터
3.1.1 통계 처리와 scipy
3.1.2 1변량 데이터의 관리
3.1.3 합계와 샘플사이즈
3.1.4 평균값(기댓값)
3.1.5 표본분산
3.1.6 불편분산
3.1.7 표준편차
3.1.8 표준화
3.1.9 그 외의 통계량
3.1.10 scipy.stats와 사분위수
3.2 파이썬을 이용한 기술통계 : 다변량 데이터
3.2.1 깔끔한 데이터
3.2.2 지저분한 데이터
3.2.3 교차분석표
3.2.4 다변량 데이터 관리하기
3.2.5 그룹별 통계량 계산하기
3.2.6 교차분석표 구현하기
3.2.7 공분산
3.2.8 분산-공분산 행렬
3.2.9 공분산(실습)
3.2.10 분산-공분산 행렬(실습)
3.2.11 피어슨 상관계수
3.2.12 상관행렬
3.2.13 피어슨 상관계수(실습)
3.2.14 상관계수가 무의미할 때
3.3 matplotlib과 seaborn을 이용한 데이터 시각화
3.3.1 파이썬을 이용한 데이터 시각화
3.3.2 시각화를 위한 준비
3.3.3 pyplot을 이용한 꺾은선 그래프
3.3.4 seaborn과 pyplot을 이용한 꺾은선 그래프
3.3.5 seaborn을 이용한 히스토그램
3.3.6 커널밀도추정에 따른 히스토그램 평활화
3.3.7 2변량 데이터에 대한 히스토그램
3.3.8 다변량 데이터를 시각화하는 코드 작성
3.3.9 상자그림
3.3.10 바이올린플롯
3.3.11 막대그래프
3.3.12 산포도
3.3.13 페어플롯
3.4 모집단에서 표본 추출 시뮬레이션
3.4.1 라이브러리 임포트
3.4.2 표본을 얻는 프로세스
3.4.3 5마리 물고기의 예
3.4.4 난수
3.4.5 복원추출과 비복원추룰
3.4.6 더 많은 물고기가 있는 호수에서 표본추출
3.4.7 모집단분포
3.4.8 모집단분포와 정규분포 간 확률밀도함수 비교
3.4.9 표본을 얻는 절차의 추상화
3.4.10 유한모집단추정
3.4.11 모집단분포를 정규분포로 가정해도 좋은가
3.5 표본 통계량 성질
3.5.1 시행
3.5.2 표본분포
3.5.3 라이브러리 임포트
3.5.4 표본평균을 여러 번 계산하기
3.5.5 표본평균의 평균값은 모평균에 가깝다
3.5.6 샘플사이즈가 크면 표본평균은 모평균에 가까워진다
3.5.7 표본평균을 몇 번이고 계산하는 함수 만들기
3.5.8 샘플사이즈를 바꿨을 때 표본평균의 분산
3.5.9 표본평균의 표준편차는 모집단보다 작다
3.5.10 표준오차
3.5.11 표준오차의 직관적인 설명
3.5.12 표본분산의 평균값은 모분산과 차이가 있다
3.5.13 불편분산을 사용하면 편향이 사라진다
3.5.14 샘플사이즈가 크면 불편분산은 모분산에 가까워진다
3.5.15 불편성
3.5.16 일치성
3.5.17 모수에 대해 좋은 추정량
3.5.18 큰수의 법칙
3.5.19 중심극한정리
3.6 정규분포와 응용
3.6.1 라이브러리 임포트
3.6.2 확률밀도
3.6.3 표본이 어떤 값 이하가 되는 비율
3.6.4 누적분포함수
3.6.5 하측확률과 퍼센트포인트
3.6.6 표준정규분포
3.6.7 t값
3.6.8 t값의 포본분포
3.6.9 t분포
3.7 추정
3.7.1 분석 준비
3.7.2 점추정
3.7.3 구간추정
3.7.4 신뢰계수와 신뢰구간
3.7.5 신뢰한계
3.7.6 신뢰구간 계산 방법
3.7.7 구간추정(실습)
3.7.8 신뢰구간을 구하는 방법 상세 설명
3.7.9 신뢰구간을 구하는 방법 상세 설명
3.7.10 구간추정 결과의 해석
3.8 통계적가설검정
3.8.1 통계적가설검정
3.8.2 1변량 데이터의 t 감정
3.8.3 유의미한 차이
3.8.4 t검정 : 직관적인 생각
3.8.5 평균값의 차이가 큰 것만으로는 유의미한 차이를 얻을 수 없다
3.8.6 t값
3.8.7 통계적가설점정의 틀 : 귀무가설, 대립가설
3.8.8 p값
3.8.9 유의수준
3.8.10 t검정과 t분포의 관계
3.8.11 단측검정과 양측검정
3.8.12 p값 계산 방법
3.8.13 t검정의 구현 : 분석 준비
3.8.14 t검정의 구현 : t값 계산
3.8.15 t검정의 구현 : p값 계산
3.8.16 시뮬레이션에 의한 p값 계산
3.9 평균값의 차이 검정
3.9.1 2집단 데이터에 대한 t검정
3.9.2 대응표본 t검정
3.9.3 분석 준비
3.9.4 대응표본 t검정(실습)
3.9.5 독립표본 t검정
3.9.6 독립표본 t검정(실습)
3.9.7 독립표본 t검정(등분산)
3.9.8 p해킹
3.10 분할표 검정
3.10.1 분할표를 사용할 떄의 장점
3.10.2 이 절에서 다룰 예제
3.10.3 기대도수 구하기
3.10.4 기대도수와의 차이 구하기
3.10.5 p값 계산
3.10.6 분할표 검정(실습)
3.11 검정 결과 해석
3.11.1 p값이 0.05 이하일 때의 결과 작성법
3.11.2 p값이 0.05보다 클 때의 결과 작성법
3.11.3 가설검정을 할 때 자주 하는 실수
3.11.4 제1종 오류와 제2종 오류
3.11.5 검정의 비대칭성
3.11.6 유의수준은 검정을 하기 전에 정해둔다
3.11.7 모델 선택
3.11.8 통계적가설검정이 필요한가
3.11.9 가정이 올바른가
4. 통계모델 기본
4.1 통계모델
4.1.1 모델
4.1.2 모델링
4.1.3 모델은 무엇에 도움이 되나
4.1.4 복잡한 세계를 단순화하다
4.1.5 복잡한 현상을 특정한 관점에서 다시 보게 한다
4.1.6 수리모델
4.1.7 확률모델
4.1.8 통계모델
4.1.9 확률분포와 통계모델
4.1.10 통계모델을 이용한 예측
4.1.11 통계모델과 고전적인 분석 절차의 비교
4.1.12 통계모델의 활용
4.2 통계모델을 만드는 방법
4.2.1 이 절의 예제
4.2.2 종속변수와 독립변수
4.2.3 파라메트릭 모델
4.2.4 논파라메트릭 모델
4.2.5 선형모델
4.2.6 계수와 가중치
4.2.7 모델 구축 = 모델 정하기 + 파라미터 추정
4.2.8 선형모델을 구축하는 방법
4.2.9 변수 선택
4.2.10 Null 모델
4.2.11 검정을 이용한 변수 선택
4.2.13 모델 평가
4.2.14 통계모델을 만들기 전에 분석의 목적을 정한다
4.3 데이터의 표현과 모델의 명칭
4.3.1 정규선형모델
4.3.2 회귀분석
4.3.3 다중회귀분석
4.3.4 분산분석
4.3.5 일반선형모델
4.3.6 머신러닝에서의 명칭
4.4 파라미터 추정 : 우도의 최대화
4.4.1 파라미터 추정 방법을 배우는 의미
4.4.2 우도
4.4.3 우도함수
4.4.4 로그우도
4.4.5 로그의 성질
4.4.6 최대우도법
4.4.7 최대우도추정량
4.4.8 최대화 로그우도
4.4.9 정규분포를 따르는 데이터의 우도
4.4.10 장애모수
4.4.11 정규선형모델의 우도
4.4.12 최대우도법 계산 예
4.4.13 최대우도추정량의 성질
4.5 파라미터 추정 : 손실의 최소화
4.5.1 손실함수
4.5.2 잔차
4.5.3 잔차의 합을 그대로 손실의 지표로 사용할 수 없는 이유
4.5.4 잔차제곱합
4.5.5 최소제곱법
4.5.6 최소제곱법과 최대우도법의 관계
4.5.7 오차함수
4.5.8 여러 가지 손실함수
4.6 예측 정확도의 평가와 변수 선택
4.6.1 적합도와 예측 정확도
4.6.2 과적합(오버피팅)
4.6.3 변수 선택의 의의
4.6.4 일반화 오차
4.6.5 훈련 데이터와 테스트 데이터
4.6.6 교차검증
4.6.7 아카이케 정보 기준
4.6.8 상대 엔트로피
4.6.9 상대 엔트로피의 최소화와 평균로그우도
4.6.10 평균로그우도가 지니는 편향과 AIC
4.6.11 AIC와 교차검증
4.6.12 AIC를 이용한 변수 선택
4.6.13 검정 대신 변수 선택
4.6.14 검정과 AIC 중 어느 것을 사용할 것인가
5. 정규선형모델
5.1 연속형 독립변수가 하나인 모델(단순회귀)
5.1.1 분석 준비
5.1.2 데이터 읽어 들이기와 표시
5.1.3 모델 구축
5.1.4 statsmodels를 이용한 모델링
5.1.5 추정 결과 표시와 계수 검정
5.1.6 summary 함수와 출력 내용 설명
5.1.7 AIC를 이용한 모델 선택
5.1.8 회귀직선
5.1.9 seaborn을 이용한 회귀직선 그래프 그리기
5.1.10 모델을 이용한 예측
5.1.11 전차 계산
5.1.12 결정계수
5.1.13 수정된 결정계수
5.1.14 잔차 그래프
5.1.15 Q-Q 플롯
5.1.16 summary 함수의 출력으로 보는 잔차 체크
5.2 분산분석
5.2.1 이 절의 예제
5.2.2 분산분석이 필요한 시기
5.2.3 검정의 다중성
5.2.4 분산분석의 직감적 사고방식:F비
5.2.5 유믜미한 차이가 있을 때와 없을 때의 바이올린플롯
5.2.6 분산분석의 직감적 사고방식 : 오차 및 효과의 분리
5.2.7 군간변동과 군내변동
5.2.8 분석 준비
5.2.9 데이터 작성과 표시
5.2.10 분산분석(1) : 군간 제곱과 군내 제곱 계산
5.2.11 분산분석(2) : 군간 분산과 군내 분산 계산
5.2.12 분산분석(3) : p값 계산
5.2.13 독립변수가 카테고리형인 일반선형모델
5.2.14 더미변수
5.2.15 statsmodels를 이용한 분산분석
5.2.16 분산분석표
5.2.17 모델의 계수 해석
5.2.18 모델을 사용해서 오차와 효과 분리하기
5.2.19 회귀모델의 분산분석
5.3 독립변수가 여럿인 모델
5.3.1 분석 준비
5.3.2 데이터로 그래프 그리기
5.3.3 나쁜 분석 예 : 변수가 1개인 모델 만들기
5.3.4 독립변수 간의 관계 조사하기
5.3.5 복수의 독립변수를 가지는 모델
5.3.6 나쁜 분석 예 : 일반적인 분산분석으로 검정하기
5.3.7 회귀계수의 t감정
5.3.8 Type || ANOVA
5.3.9 모델 선택과 분산분석
5.3.10 Type || ANOVA의 수정제곱합
5.3.11 Type || ANOVA(실습)
5.3.12 Type || ANOVA의 해석
5.3.13 변수 선택과 모델 해석
5.3.14 AIC를 이용한 변수 선택
5.3.15 다중공선성
6.일반선형모델
6.1 여러 가지확률분포
6.1.1 용어 설명
6.1.2 이항분포
6.1.3 이항분포 사용법
6.1.4 이항분포의 확률질량함수
6.1.5 분석 준비
6.1.6 이항분포(실습)
6.1.7 푸아송 분포
6.1.8 푸아송 분포의 사용
6.1.9 푸아송 분포의 확률질량함수
6.1.10 이항분포와 푸아송 분포의 관계
6.1.11 푸아송 분포(실습)
6.1.12 그 외의 확률분포
6.1.13 자수형 분포
6.2 일반선형모델의 기본
6.2.1 일반선형모델의 구성요소
6.2.2 확률분포
6.2.3 선형예측자
6.2.4 링크함수
6.2.5 링크함수와 확률분포의 대응
6.2.6 일반선형모델의 파라미터 추정
6.2.7 일반선형모델을 이용한 검정 방법
6.3 로지스틱 회귀
6.3.1 이 절의 예제
6.3.2 두 값 판별 문제
6.3.3 로짓함수
6.3.4 역함수
6.3.5 로지스틱함수
6.3.6 로지스틱함수의 특징
6.3.7 로지스틱 회귀의 구조
6.3.8 로지스틱 회귀의 우도함수
6.3.9 분석 준비
6.3.10 데이터 읽어 들이기와 그래프 표시
6.3.11 로지스틱 회귀(실습)
6.3.12 로지스틱 회귀 결과의 출력
6.3.13 모델 선택
6.3.14 로지스틱 회귀곡선 그래프
6.3.15 성공확률 예측
6.3.16 용어 설명
6.3.17 로지스틱 회귀계수와 오즈비의 관계
6.4 일반선형모델의 평가
6.4.1 분석 준비
6.4.2 피어슨 잔차
6.4.3 피어슨 잔차의 해석
6.4.4 피어슨 잔차(실습)
6.4.5 deviance
6.4.6 deviance의 해석
6.4.7 deviance와 우도비 검정
6.4.8 deviance 잔차
6.4.9 교차 엔트로피 오차
6.5 푸아송 회귀
6.5.1 이 절의 예제
6.5.2 푸아송 회귀의 구조
6.5.3 분석 준비
6.5.4 푸아송 회귀(실습)
6.5.5 모델 선택
6.5.6 회귀곡선 그래프
6.5.7 회귀계수 해석
7. 통계학과 머신러닝
7.1 머신러닝 기본
7.1.1 머신러닝
7.1.2 지도학습
7.1.3 비지도학습
7.1.4 강화학습
7.1.5 룰 베이스 머신러닝
7.1.6 통계학과 머신러닝을 완전히 분리하는 것은 어렵다
7.1.7 통계학은 과정, 머신러닝은 결과에 주목한다
7.2 정규화와 리지 회귀, 라소 회귀
7.2.1 정규화
7.2.2 리지 회귀
7.2.3 라소 회귀
7.2.4 정규화 강도를 지정하는 파라미터의 결정
7.2.5 독립변수의 표준화
7.2.6 리지 회귀와 라소 회귀와 추정 결과 차이
7.2.7 변수 선택과 정규화의 비교
7.2.8 정규화의 의의
7.3 파이썬을 이용한 리지 회귀와 라소 회귀
7.3.1 사이킷런
7.3.2 분석 준비
7.3.3 표준화
7.3.4 시뮬레이션으로 종속변수 만들기
7.3.5 일반적인 최소제곱법 적용하기
7.3.6 sklearn을 이용한 선형회귀
7.3.7 리지 회귀 - 벌칙항의 영향
7.3.8 리지 회귀 - 최적의 정규화 강도 결정
7.3.9 라소 회귀 - 벌칙항의 영향
7.3.10 라소 회귀 - 최적의 정규화 강조 결정
7.4 선형모델과 신경망
7.4.1 이 절에서 다루는 예제
7.4.2 입력 벡터, 목표 벡터, 가중치, 편향
7.4.3 단순 퍼셉트론
7.4.4 활성화함수
7.4.5 선형모델에서 신경망으로
7.4.6 은닉층
7.4.7 신경망
7.4.8 신경망의 구조
7.4.9 신경망의 L2 정규화
7.4.10 분석 준비
7.4.11 데이터 읽기와 다듬기
7.4.12 로지스틱 회귀
7.4.13 표준화
7.4.14 신경망
7.4.15 선형모델의 장점과 신경망의 장점
7.5 이 책 다음으로 배울 것
7.5.1 수리적인 측면 배우기
7.5.2 고전적인 통계학 입문 배우기
7.5.3 통계모델 배우기
7.5.4 머신러닝 배우기
7.5.5 모델 평가 방법 배우기
7.5.6 데이터 과학
출처 : 파이썬으로 배우는 통계학 교과서
'파이썬과 통계학' 카테고리의 다른 글
[파이썬과 통계학] 파이썬을 이용한 데이터 분석 (0) | 2024.11.06 |
---|