본문 바로가기
반응형

Data Science233

[2024][경진대회] 제 2회 AI 신약개발 경진대회: JUMP AI 2024 후기 프로젝트 개요참여 경진대회: 제2회 신약개발 AI 경진대회 (DACON)프로젝트 목표: IRAK4(Interleukin-1 Receptor-Associated Kinase 4) 단백질의 IC50 활성 값을 예측하는 AI 모델 개발예측 대상: IC50 값은 약물의 특정 생물학적 기능을 50% 억제하는 데 필요한 농도를 의미하며, 이를 기반으로 약물의 효능을 평가팀 구성: 5명의 팀원과 함께 데이터 분석, 모델 개발, 선행 연구 조사 담당데이터 처리 및 모델 개발데이터 구성:SMILES 데이터로 분자 구조를 표현약물-단백질 상호작용을 나타내는 IC50 데이터RDKit, Mordred 등을 사용하여 분자의 descriptors를 계산 (예: Molecule Weight, Hydrogen Bond Donors/.. 2024. 9. 27.
[신약 개발] IC50_nM 값 예측을 위한 손실 함수 선택 가이드 IC50_nM 값의 예측 모델을 만들 때,손실 함수를 어떻게 선택하느냐에 따라 모델의 성능과 결과가 크게 달라질 수 있습니다. 이번 글에서는 IC50_nM 값 분포에 적합한 손실 함수 세 가지, 즉 MSLE(Mean Squared Logarithmic Error), MAE(Mean Absolute Error), 그리고 Huber Loss에 대해 알아보고, 각 손실 함수의 장단점을 비교하여 어떤 상황에서 사용하면 좋을지 설명드리겠습니다.1. MSLE (Mean Squared Logarithmic Error)MSLE는 예측 값과 실제 값의 로그 차이의 제곱을 구하는 손실 함수입니다.값의 절대적인 차이보다 비율을 중시하므로, IC50_nM처럼 값이 크게 변동하는 데이터에 적합합니다. 공식:$$ MSLE = \.. 2024. 9. 12.
[autoML][python][mljar] automated machine learning Part3 : interpretation reportUsing Visual Studio Code 이전글 참고- Part1 [python][mljar] automated machine learning - Part2 : mljar순서 1. mljar : automated machine learning 2. install - pip 3. run code 4. report 1. mljar : automated machine learning - 머신러닝 자동화 프레임 워크 그림참고 참고 : https://mljar.com/automated-machine-learning/ What is Automated Machindatainsider.tistory.com- Part2 [autoML][python][mljar] automated machine learning - Part2 : mljar.version21. p.. 2024. 9. 11.
[Loss function][Regression][MAE][MSE][L1 loss][L2 loss][Huber loss]Regression loss function,회귀에서 손실함수 1. Regression, Loss function회귀 모델을 학습할 때, 모델이 예측한 값과 실제 값 사이의 차이를 측정하는**손실 함수(Loss Function)**는 매우 중요한 역할을 합니다.손실 함수는 모델이 학습하는 방향을 결정하고, 그 성능을 좌우합니다.회귀 분석에서 자주 사용되는 손실 함수로는MAE(Mean Absolute Error),MSE(Mean Squared Error),그리고 Huber Loss가 있습니다.이번 글에서는 이 세 가지 손실 함수의 차이점과 특징을 살펴보겠습니다.1) 평균 절대 오차 (MAE: Mean Absolute Error, L1 loss)MAE는 예측 값과 실제 값의 차이의 절대값을 평균내는 방식으로,오차가 클수록 손실이 선형적으로 증가하는 특징을 가지고 있습니.. 2024. 9. 9.
[python][binary classification][Probability][threshold][performance]Best threshold Method 1. 요약이진 분류 모델을 사용하여 결과를 예측할 때, 모델은 주로 확률값을 출력합니다. 이 확률값을 바탕으로 예측을 양성(Positive) 또는 음성(Negative)으로 변환할 때, 임계값(threshold)을 선택해야 합니다. 기본적으로 0.5를 많이 사용하지만, 데이터의 불균형이나 문제의 특성에 따라 0.5는 최적의 임계값이 아닐 수 있습니다. 따라서 임계값을 올바르게 선택하면 모델의 성능을 크게 향상시킬 수 있습니다.2. 방법론최적의 임계값을 선택하는 방법은 다양하며, 각각의 방법은 모델이 달성하려는 목표에 따라 다르게 적용됩니다.1) ROC Curve와 Youden's J StatisticROC (Receiver Operating Characteristic) 곡선은 TPR(진양성률, True .. 2024. 9. 6.
[Python][Tableau][PDF][xlsx to pdf][csv to pdf] 테이블 형식 데이터를 한글 PDF 문서로 변환하기 1. 개요- RAG system을 구축하려고 할 때 PDF 문서의 형태가 아닐 수 있다.- 예를 들어 csv, xlsx 형태일 수 있는데 이를 PDF docements로 만드는 방법.2. 필수패키지!pip install reportlab fpdf23. 코드- 한글이기 때문에 encoding에 주의해야함import pandas as pdfrom langchain.schema import Documentfrom reportlab.lib.pagesizes import A4from reportlab.pdfgen import canvasfrom reportlab.pdfbase.ttfonts import TTFontfrom reportlab.pdfbase import pdfmetricsfrom reportlab.l.. 2024. 8. 27.

TOP

Designed by 티스토리