IC50_nM 값의 예측 모델을 만들 때,손실 함수를 어떻게 선택하느냐에 따라 모델의 성능과 결과가 크게 달라질 수 있습니다. 이번 글에서는 IC50_nM 값 분포에 적합한 손실 함수 세 가지, 즉 MSLE(Mean Squared Logarithmic Error), MAE(Mean Absolute Error), 그리고 Huber Loss에 대해 알아보고, 각 손실 함수의 장단점을 비교하여 어떤 상황에서 사용하면 좋을지 설명드리겠습니다.1. MSLE (Mean Squared Logarithmic Error)MSLE는 예측 값과 실제 값의 로그 차이의 제곱을 구하는 손실 함수입니다.값의 절대적인 차이보다 비율을 중시하므로, IC50_nM처럼 값이 크게 변동하는 데이터에 적합합니다. 공식:$$ MSLE = \..
1. Regression, Loss function회귀 모델을 학습할 때, 모델이 예측한 값과 실제 값 사이의 차이를 측정하는**손실 함수(Loss Function)**는 매우 중요한 역할을 합니다.손실 함수는 모델이 학습하는 방향을 결정하고, 그 성능을 좌우합니다.회귀 분석에서 자주 사용되는 손실 함수로는MAE(Mean Absolute Error),MSE(Mean Squared Error),그리고 Huber Loss가 있습니다.이번 글에서는 이 세 가지 손실 함수의 차이점과 특징을 살펴보겠습니다.1) 평균 절대 오차 (MAE: Mean Absolute Error, L1 loss)MAE는 예측 값과 실제 값의 차이의 절대값을 평균내는 방식으로,오차가 클수록 손실이 선형적으로 증가하는 특징을 가지고 있습니..
1. 요약이진 분류 모델을 사용하여 결과를 예측할 때, 모델은 주로 확률값을 출력합니다. 이 확률값을 바탕으로 예측을 양성(Positive) 또는 음성(Negative)으로 변환할 때, 임계값(threshold)을 선택해야 합니다. 기본적으로 0.5를 많이 사용하지만, 데이터의 불균형이나 문제의 특성에 따라 0.5는 최적의 임계값이 아닐 수 있습니다. 따라서 임계값을 올바르게 선택하면 모델의 성능을 크게 향상시킬 수 있습니다.2. 방법론최적의 임계값을 선택하는 방법은 다양하며, 각각의 방법은 모델이 달성하려는 목표에 따라 다르게 적용됩니다.1) ROC Curve와 Youden's J StatisticROC (Receiver Operating Characteristic) 곡선은 TPR(진양성률, True ..
1. 개요- RAG system을 구축하려고 할 때 PDF 문서의 형태가 아닐 수 있다.- 예를 들어 csv, xlsx 형태일 수 있는데 이를 PDF docements로 만드는 방법.2. 필수패키지!pip install reportlab fpdf23. 코드- 한글이기 때문에 encoding에 주의해야함import pandas as pdfrom langchain.schema import Documentfrom reportlab.lib.pagesizes import A4from reportlab.pdfgen import canvasfrom reportlab.pdfbase.ttfonts import TTFontfrom reportlab.pdfbase import pdfmetricsfrom reportlab.l..
1. 개요프로젝트 목표: 이 프로젝트는 ChemBERTa 모델을 활용하여 분자 구조(SMILES 문자열)와 관련된 예측을 수행하는 것입니다. 주어진 데이터셋에서 분자 구조를 학습하고, 이를 바탕으로 IC50 값을 예측하는 모델을 개발합니다.2. 주요 라이브러리 및 모델 로드사용된 라이브러리: transformers, torch, pandas, sklearn모델 및 토크나이저 로드:모델 이름: seyonec/ChemBERTa-zinc-base-v1RobertaTokenizer와 RobertaForSequenceClassification을 사용하여 ChemBERTa 모델과 토크나이저를 로드합니다.model_name = "seyonec/ChemBERTa-zinc-base-v1"tokenizer = Robert..
Medical LLM benchmarkMedQAMedQA 소개:MedQA는 미국 의사 면허 시험(USMLE) 문제를 기반으로 한 질문 답변(Q&A) 데이터셋.주로 의학 교육 및 연구, AI 시스템 개발에 사용.3가지 언어번전: English, simplified Chinese, and traditional Chinese데이터셋 구성:질문: 여러 선택지가 있는 객관식 문제 형태.선택지: 일반적으로 4~5개의 선택지 제공, 하나의 정답 존재.정답: 각 문제의 올바른 답이 명시.설명: 일부 문제는 정답에 대한 설명 포함.활용 분야:의료 AI 연구: 의료 분야 AI의 성능 평가에 활용.의학 교육: 학생과 의료 전문가의 학습 도구로 활용.자연어 처리(NLP) 연구: 복잡한 의학 텍스트를 이해하고 분석하는 모델 개..
컨퍼런스 요약2024년 8월 8일, 서울 코엑스 컨퍼런스 홀에서 미래 헬스케어 트렌드 컨퍼런스가 개최되었습니다. 이 컨퍼런스는 병원, 기업, AI 전문가, 시니어 케어 및 건강 모니터링 혁신가들을 한자리에 모아 헬스케어 분야의 주요 변화를 조명했습니다.세션 1: 세계적인 헬스케어 패러다임 대전환미래 병원의 모습:스마트 중환자실자연 친화적인 입원실로봇틱스 아바타 시술 및 메타버스 수술 표준화빅데이터 기반의 의료 서비스 개선글로벌 바이오 헬스케어 기업들의 변화:미국 생물 보안법에 따른 중국 생산 공장 이전한국 헬스케어 시장의 새로운 기회시니어 케어와 실버 산업의 성장 가능성 강조세션 2: 의료와 디지털 헬스케어 트렌드아마존의 헬스케어 혁신:유전체 데이터로 환자 질환 예측AWS의 HealthOmics, Hea..