index 1. data scientist life cycle 2. install streamlit 3. edit config file 4. run .py file 1. data scientist life cycle 데이터 사이언스를 한다면 프로젝트 단위로 위 사이클에서 크게 벗어나지 않을 것임. 그 중에서 Model Deployment 부분에 대한 글임 2. install streamlit - streamlit은 머신러닝 및 데이터 사이언스를 위한 맞춤 웹 앱을 쉽게 만들고 공유할 수 있는 오픈소스 python 라이브러리임. - pip install 가능 pip install streamlit 3. edit config file 예제 참고 예제 1. https://www.geeksforgeeks.org..
XGBoost : Dimension Reduction (feature selection) 1. Feature importance 2. BorutaShap XGBoost 알고리즘으로 모델을 만들고 최대한 input variables을 줄여 경제적인 모델을 만들기 위해 두 가지 방법을 사용해 봄. 1. Feature importance - XGBoost의 기본 내장된 feature_importance를 이용하는 방법. - importance가 가장 작은 변수를 차례대로 제거 해주고 train에서 성능을 비교 - 본인의 기준에 맞게 제거할 변수를 선택 - 논리적이긴 하나 특별한 이론이 개입된 방법은 아니기 떄문에 신뢰성에 대한 이슈는 있음. #1.1 XGBoost의 내장되어 있는 기능으로 importance를..
- XGBoost 환경 셋팅 #0. tpot and xgboost #1. cpu : conda install #2. single gpu : cuml #3. multi gpu : rapids, conda install tpot and dask_ml #0 TPOT and XGBoost #0.0 TPOT for Automated Machine Learning Automated Machine Learning (AutoML) 사용자 개입이 거의없이 예측 모델링 작업을 위해 성능이 우수한 모델을 자동으로 검색하는 기술 TPOT - Python에서 AutoML을 수행하기위한 오픈 소스 라이브러리 - 데이터 변환 및 기계 학습 알고리즘에 인기있는 Scikit-Learn 기계 학습 라이브러리를 사용 - 유전 프로그래밍 ..
imbalace dataset을 이용해서 modeling한 classification model에서 predict probabilities를 calibration 해주면 performance의 개선이 있을 수 있음 참고 : machinelearningmastery.com/probability-calibration-for-imbalanced-classification/ How to Calibrate Probabilities for Imbalanced Classification Many machine learning models are capable of predicting a probability or probability-like scores for class membership. Probabilitie..