Data Science

이론

[신약 개발] IC50_nM 값 예측을 위한 손실 함수 선택 가이드

IC50_nM 값의 예측 모델을 만들 때,손실 함수를 어떻게 선택하느냐에 따라 모델의 성능과 결과가 크게 달라질 수 있습니다. 이번 글에서는 IC50_nM 값 분포에 적합한 손실 함수 세 가지, 즉 MSLE(Mean Squared Logarithmic Error), MAE(Mean Absolute Error), 그리고 Huber Loss에 대해 알아보고, 각 손실 함수의 장단점을 비교하여 어떤 상황에서 사용하면 좋을지 설명드리겠습니다.1. MSLE (Mean Squared Logarithmic Error)MSLE는 예측 값과 실제 값의 로그 차이의 제곱을 구하는 손실 함수입니다.값의 절대적인 차이보다 비율을 중시하므로, IC50_nM처럼 값이 크게 변동하는 데이터에 적합합니다. 공식:$$ MSLE = \..

Python

[autoML][python][mljar] automated machine learning Part3 : interpretation reportUsing Visual Studio Code

이전글 참고- Part1 [python][mljar] automated machine learning - Part2 : mljar순서 1. mljar : automated machine learning 2. install - pip 3. run code 4. report 1. mljar : automated machine learning - 머신러닝 자동화 프레임 워크 그림참고 참고 : https://mljar.com/automated-machine-learning/ What is Automated Machindatainsider.tistory.com- Part2 [autoML][python][mljar] automated machine learning - Part2 : mljar.version21. p..

이론

[Loss function][Regression][MAE][MSE][L1 loss][L2 loss][Huber loss]Regression loss function,회귀에서 손실함수

1. Regression, Loss function회귀 모델을 학습할 때, 모델이 예측한 값과 실제 값 사이의 차이를 측정하는**손실 함수(Loss Function)**는 매우 중요한 역할을 합니다.손실 함수는 모델이 학습하는 방향을 결정하고, 그 성능을 좌우합니다.회귀 분석에서 자주 사용되는 손실 함수로는MAE(Mean Absolute Error),MSE(Mean Squared Error),그리고 Huber Loss가 있습니다.이번 글에서는 이 세 가지 손실 함수의 차이점과 특징을 살펴보겠습니다.1) 평균 절대 오차 (MAE: Mean Absolute Error, L1 loss)MAE는 예측 값과 실제 값의 차이의 절대값을 평균내는 방식으로,오차가 클수록 손실이 선형적으로 증가하는 특징을 가지고 있습니..

Python

[python][binary classification][Probability][threshold][performance]Best threshold Method

1. 요약이진 분류 모델을 사용하여 결과를 예측할 때, 모델은 주로 확률값을 출력합니다. 이 확률값을 바탕으로 예측을 양성(Positive) 또는 음성(Negative)으로 변환할 때, 임계값(threshold)을 선택해야 합니다. 기본적으로 0.5를 많이 사용하지만, 데이터의 불균형이나 문제의 특성에 따라 0.5는 최적의 임계값이 아닐 수 있습니다. 따라서 임계값을 올바르게 선택하면 모델의 성능을 크게 향상시킬 수 있습니다.2. 방법론최적의 임계값을 선택하는 방법은 다양하며, 각각의 방법은 모델이 달성하려는 목표에 따라 다르게 적용됩니다.1) ROC Curve와 Youden's J StatisticROC (Receiver Operating Characteristic) 곡선은 TPR(진양성률, True ..

Python

[Python][Tableau][PDF][xlsx to pdf][csv to pdf] 테이블 형식 데이터를 한글 PDF 문서로 변환하기

1. 개요- RAG system을 구축하려고 할 때 PDF 문서의 형태가 아닐 수 있다.- 예를 들어 csv, xlsx 형태일 수 있는데 이를 PDF docements로 만드는 방법.2. 필수패키지!pip install reportlab fpdf23. 코드- 한글이기 때문에 encoding에 주의해야함import pandas as pdfrom langchain.schema import Documentfrom reportlab.lib.pagesizes import A4from reportlab.pdfgen import canvasfrom reportlab.pdfbase.ttfonts import TTFontfrom reportlab.pdfbase import pdfmetricsfrom reportlab.l..

기타

[ChemBERTa][SMILES][Drug Discovery][신약개발]ChemBERTa를 활용한 분자 구조 예측 모델 개발

1. 개요프로젝트 목표: 이 프로젝트는 ChemBERTa 모델을 활용하여 분자 구조(SMILES 문자열)와 관련된 예측을 수행하는 것입니다. 주어진 데이터셋에서 분자 구조를 학습하고, 이를 바탕으로 IC50 값을 예측하는 모델을 개발합니다.2. 주요 라이브러리 및 모델 로드사용된 라이브러리: transformers, torch, pandas, sklearn모델 및 토크나이저 로드:모델 이름: seyonec/ChemBERTa-zinc-base-v1RobertaTokenizer와 RobertaForSequenceClassification을 사용하여 ChemBERTa 모델과 토크나이저를 로드합니다.model_name = "seyonec/ChemBERTa-zinc-base-v1"tokenizer = Robert..

LLM

[MedQA][LLM benchmark][medical benchmark]MedQA DatasetMedical LLM benchmark

Medical LLM benchmarkMedQAMedQA 소개:MedQA는 미국 의사 면허 시험(USMLE) 문제를 기반으로 한 질문 답변(Q&A) 데이터셋.주로 의학 교육 및 연구, AI 시스템 개발에 사용.3가지 언어번전: English, simplified Chinese, and traditional Chinese데이터셋 구성:질문: 여러 선택지가 있는 객관식 문제 형태.선택지: 일반적으로 4~5개의 선택지 제공, 하나의 정답 존재.정답: 각 문제의 올바른 답이 명시.설명: 일부 문제는 정답에 대한 설명 포함.활용 분야:의료 AI 연구: 의료 분야 AI의 성능 평가에 활용.의학 교육: 학생과 의료 전문가의 학습 도구로 활용.자연어 처리(NLP) 연구: 복잡한 의학 텍스트를 이해하고 분석하는 모델 개..

Data Insider/학회 및 전시회

[2024][헬스케어][컨퍼런스]미래 헬스케어 트렌드 컨퍼런스

컨퍼런스 요약2024년 8월 8일, 서울 코엑스 컨퍼런스 홀에서 미래 헬스케어 트렌드 컨퍼런스가 개최되었습니다. 이 컨퍼런스는 병원, 기업, AI 전문가, 시니어 케어 및 건강 모니터링 혁신가들을 한자리에 모아 헬스케어 분야의 주요 변화를 조명했습니다.세션 1: 세계적인 헬스케어 패러다임 대전환미래 병원의 모습:스마트 중환자실자연 친화적인 입원실로봇틱스 아바타 시술 및 메타버스 수술 표준화빅데이터 기반의 의료 서비스 개선글로벌 바이오 헬스케어 기업들의 변화:미국 생물 보안법에 따른 중국 생산 공장 이전한국 헬스케어 시장의 새로운 기회시니어 케어와 실버 산업의 성장 가능성 강조세션 2: 의료와 디지털 헬스케어 트렌드아마존의 헬스케어 혁신:유전체 데이터로 환자 질환 예측AWS의 HealthOmics, Hea..

Chandler.j
'분류 전체보기' 카테고리의 글 목록 (4 Page)