자격증/빅데이터분석기사 10

[빅데이터분석기사 실기] 제 3유형 : T검정 연관분석, 카이제곱 검정, 윌콕슨 검정

기존의 3유형과 문제는 동일합니다만 만약 두 집단이 연관되어있는지 확인하는 분석을 해보겠습니다 import pandas as pd a = pd.read_csv('data/blood_pressure.csv', index_col=0) import scipy from scipy import stats #표본 평균 - 이전과 동일 mean_before = a[['bp_before']].mean().round(2) mean_after = a[['bp_after']].mean().round(2) mean_diff = mean_after[0]-mean_before[0] print(mean_diff.round(2)) #두집단 연관되어있을때 tstat_mean_diff = scipy.stats.ttest_rel(a[['..

[빅데이터 분석기사 실기] 제 3유형 문제풀이 :F test

https://blog.minitab.com/ko/adventures-in-statistics-2/understanding-analysis-of-variance-anova-and-the-f-test 분산 분석 (ANOVA) 과 F-검정 이해하기 분산 분석(ANOVA)을 통해 집단 3개 이상의 평균이 서로 다른지 확인할 수 있습니다. 분산 분석은 F-검정을 사용하여 평균의 동질성 통계적으로 검정합니다. 이 게시물에서는 일원 분산 분석 예시를 blog.minitab.com 개념은 여기를 참고해서 만약 집단 3개이상의 평균이 서로 다른지 확인하라는 경우를 대비해 F-test를 외워둡니다 import pandas as pd import scipy from scipy import stats #anova test ..

[빅데이터분석기사 실기] 제 3유형 문제풀이 - T 검정 ( 단독, 2집단)

새로 추가된지 얼마 안된 제 3유형입니다. 체험하기에 있는 제 3유형 문제 풀이입니다 참고로 제가 적는 실기관련 포스팅은 첫번째 포스팅에 올렸던 인프런 강의 기반이니 강의를 들으실 분들은 참고하시면 될 것 같습니다. 실기를 준비하시는 분들은 이미 필기시험에서 기본적인 통계에 대해서 공부하셨을테니 자세하게 설명하진 않습니다. 이데이터를 기반으로 T검정, F검정, T연관분석, 카이제곱검정, 윌콕슨 검정에 대해 다루게 됩니다 여기서 사용하는 critical value와 pvalue에 대해서 간단히 정리하겠습니다 p value같은경우 확률분포 그래프에서 양쪽 극단값의 범위를 설정하여 통계적으로 나오는 결과의 신뢰성을 보여주는 값입니다. p-value같은 경우 가정하는 주장 즉 H1의 신뢰도가 올라갑니다. 쉽게 ..

[빅데이터분석기사 실기] 작업형 2 연습문제 풀이

실기 환경에 나와잇는 작업형 2 연습문제 풀이입니다 #결측치 확인 X_train['환불금액'] = X_train['환불금액'].fillna(0) X_test['환불금액'] = X_test['환불금액'].fillna(0) print(X_train.isna().sum()) #라벨인코더 from sklearn.preprocessing import LabelEncoder label = ['주구매상품','주구매지점'] X_train[label] = X_train[label].apply(LabelEncoder().fit_transform) X_test[label] = X_test[label].apply(LabelEncoder().fit_transform) print(X_train['주구매지점'].value_coun..

[빅데이터분석기사 실기] 제1유형 문제 풀어보기

https://www.dataq.or.kr/www/board/view.do 데이터자격시험 www.dataq.or.kr 데이터 자격시험에선 실기 환경을 직접체험해볼 수 있는 환경이 만들어져있습니다 첫번째 예시문제입니다 이런식으로 데이터를 확인할 수 있는데요 전 파이썬으로 진행했습니다 import pandas as pd a = pd.read_csv('data/mtcars.csv', index_col=0) from sklearn.preprocessing import MinMaxScaler scaler = ['qsec'] min = MinMaxScaler() min.fit(a[scaler]) a[scaler] = min.transform(a[scaler]) result = a[a['qsec']>0.5] prin..

[빅데이터 분석기사 실기] 작업형 2 연습문제 : 분류 예측문제, ROC_curve, predict_proba

[문제] - 수험번호.csv 파일이 만들어지도록 코드제출 - 제출모형희 성능은 ROC-AUC평가지표 - predict_proba 예측, 종속변수 survived 열의 범주 1확률 예측 - 데이터 파일읽기 예제 #데이터 가져오기 import seaborn as sns import pandas as pd from sklearn.model_selection import train_test_split df = sns.load_dataset('titanic') X_train,X_test, y_train,y_test = train_test_split(df, df['survived'],test_size=0.2,random_state=42) X_train = X_train.drop(['alive','survived']..

[빅데이터 분석기사 실기] 작업형 2 회귀예측문제 풀어보기

#회귀예측문제 - 성능이 우수한 예측모형 구축위해 적절한 데이터 전처리 - 피쳐엔지니어링, 분류알고리즘, 초매개변수 최적화, 모형 앙상블 - 수험번호로 파일만들기 - 제출한 모형의 성능은 RMSE, MAE가 평가지표 - 종속변수 mpg 임의로 seaborn에서 제공하는 데이터를 가져와 회귀예측문제를 풀어보겠습니다 #데이터 파일열고 분리 import seaborn as sns import pandas as pd import numpy as np from sklearn.model_selection import train_test_split df = sns.load_dataset('mpg') X_train,X_test,y_train,y_valid = train_test_split(df,df['mpg'],tes..

[빅데이터 분석기사 실기] 작업유형 2 연습문제 : 데이터 수집부터 저장까지

작업유형 2문제는 데이터를 확인해서 모델도 돌리고, 파일 저장하는 것까지 해야합니다 # 데이터 수집 이 문제에서는 펭귄과 관련된 데이터 셋을 사용하게 됩니다. import seaborn as sns df = sns.load_dataset('penguins') print(df.head()) # 결측치 확인 데이터를 받으면 결측치를 무조건 확인해야합니다 #결측치 확인 df.isna().sum() #2. 데이터 전처리 #결측치 제거 결측치를 제거하는데는 여러 방법이 있습니다. 데이터를 보고 그 방법을 달리해야합니다 해당열 평균값, 비율, 중앙값, 값 직접입력 등의 방법이 있습니다 먼저 성별의 분포를 확인해보면 # 해당열의 분포 확인하기 df['sex'].value_counts() Male이 비교적 많으니 결측..

[빅데이터분석기사 실기] 작업유형 1유형 문제풀이 : 결측치 대체, 표준편차 비교

[문제] 1. 데이터의 첫번째 행부터 70%의 데이터를 추출한 후 2. distance의 결측값을 distance의 중앙값으로 대체하고 3. 결측값 전처리 전과 후의 표준편차를 비교해라 4. 전, 후 결과 값을 print로 출력하기 #데이터 읽어오기 및 70퍼센트 추출하기 import seaborn as sns import pandas as pd import numpy as np #데이터 읽어오기 sns.get_dataset_names() df = sns.load_dataset('planets') #데이터 확인하기 print(df.head()) #데이터 추출하기 print(len(df)) #1035개 행 #70퍼센트 데이터 개수 len에 저장 len = int(len(df) * 0.7) #df를 70 퍼..

[빅데이터 분석기사 실기] 작업형 1 연습문제풀이: 평균 산출, 상위 10번째 값 추출

https://www.inflearn.com/course/%EB%B9%85%EB%B6%84%EA%B8%B0-%EC%8B%9C%ED%97%98%EC%8B%A4%EA%B8%B0-%ED%8C%8C%EC%9D%B4%EC%8D%AC/dashboard [무료] 빅데이터 분석기사 시험 실기(Python) - 인프런 | 강의 국가기술자격증 빅데이터분석기사 실기 with Python 강의입니다. 여러분들의 합격을 응원합니다!, - 강의 소개 | 인프런 www.inflearn.com 빅데이터 분석기사 실기 준비하면서 강의 정리입니다. 문제모음집은 아니니 주의해주세요 [작업유형 1] 문제 : alcohol의 상위 10번째 값 추출해서 범위 값을 변경한 후 speeding 7이상의 alcohol 데이터들의 평균 산출 최종결과..