Data Science

Python

[python][pandas] 판다스 그룹 집계하기pandas.DataFrame.groupby.aggregate

#0 소스데이터 #1 col1기준으로 그룹핑한 데이터의 집계 df.groupby('col1').agg(['size', 'mean', 'std', 'min', 'max']) y_train_gb = y_train_pd.groupby('round_eGFR').agg(['size', 'mean', 'std', 'min', 'max']) y_train_gb #2 column별 원하는 집계 사용가능 df.groupby('col1').agg({'col1' : ['size'], 'col2' : ['size', 'mean'], 'col3' : ['std'], 'col4' : ['min', 'max']}) y_train_gb = y_train_pd.groupby('round_eGFR').agg({'true_eGFR' : ..

기타

[ANACONDA] 콘다 명령어 정리,Conda command summary

콘다 환경 생성 conda create --name your_env_name 콘다 환경 활성화 conda activate $ENVIRONMENT_NAME 콘다 환경 비활성화 conda deactivate 콘다 환경 복사 conda create --name new_env_name --clone old_env_name 콘다 특정 파이썬 버전 생성 #Create an environment for developing a python version conda create --name your_env_name python=2.7 conda create --name your_env_name python=3.5 콘다 환경 리스트 조회 conda env list 콘다 환경내 패키지 설치 Conda install -n e..

Python

[jupyter] [python] ipynb to HTML, ipynb형식 파일 HTML로 변환하기

ipynb to HTML $ jupyter nbconvert --to html filename.ipynb output

R

[R] function 사용하여 반복작업 쉽게 하기

반복작업할때 function 기능 사용하면 코드를 간결화 할 수 있음. 기본 function(x, y) { any_command(x, y) } select_col 기능을 생성 select(), mutate(), filter() 세가지 명령을 한번에 함. #10 -5th.1 col2 = c("id","psu","kstrata","wt_itvex","age","sex", "he_crea", "he_uph", "he_unitr", "he_usg", "he_upro", "he_uglu", "he_uket", "he_ubil", "he_ubld", "he_uro") select_col % select(col2) %>% mutate(wt=wt_itvex*1/9.5) %>% select(-wt_itvex) %>% f..

R

[R] RStudio Cheatsheets

R 특정 function이 생각안날떄 유용한 cheat sheets ref; rstudio.com/resources/cheatsheets/4 RStudio Cheatsheets Open source and enterprise-ready professional software for data science rstudio.com

기타

[ANACONDA] 아나콘다 환경 추출하기, Conda export environment

아나콘다 환경 추출하기 개발 환경에 따라 다른 OS에 conda 환경을 import 할 때 유용함 Summary 1. 콘다 환경 실행 / conda activate env 2_1. .yml 형식으로 저장 / conda env export > name_environment.yml 2_2. .txt 형식으로 저장 / conda list --explicit > test1.txt 3. yml 파일로 환경 생성 1. 콘다 환경 실행 / conda activate my_env $ conda activate my_env 2_1. .yml 형식으로 저장 / conda env export > name_environment.yml conda env export > name_enviroment.yml default path..

기타

[DB] KNHANES, 국민건강영양조사 원시자료 다운받기

국민건강영양조사 2018년도 데이터가 최근에 공개됨. 원시자료 다운 방법 1. knhanes.cdc.go.kr/knhanes/main.do 질병관리청 국민건강영양조사 홍보홈페이지 knhanes.cdc.go.kr 링크 접속 후 원시자료 클릭 ◐ 2. email 입력 3. 원시자료 다운로드 ref : knhanes.cdc.go.kr/knhanes/main.do

Python

[python] Oversampling, SMOTE –ADASYN

imbalanced dataset을 이용해서 maching learning modeling을 할때 크게 두가지 방법이 있음 1. hyperparameter tuning 과정에서 scale weight 2. oversampling Oversampling 기법으로 SMOTE(synthetic minority oversampling technique)가 일반적으로 많이 쓰임 그 일환으로 ADASYN(Adaptive synthetic sampling approach for imbalanced learning)을 이용해서 oversampling 해보겠음. #1 데이터 준비 X_train_features_imputed.info() #2 ADASYN 이용 oversampling - hyper parameter에서 s..

Chandler.j
'분류 전체보기' 카테고리의 글 목록 (24 Page)