Data Science

이론

유전체 & 인공지능 LLM과 함께 공부해보기 Part2: 4장-5장

제 1장-3장2024.10.10 - [이론] - 유전체 & 인공지능 LLM과 함께 공부해보기 Part1: 1장-3장제 4장: 분류 모델의 평가 지표유전체학 연구에서 기계 학습 모델, 특히 분류 모델의 성능을 정확하게 평가하는 것은 매우 중요합니다. 이 장에서는 분류 모델의 성능을 평가하는 데 사용되는 주요 지표들을 살펴보겠습니다.4.1 정확도 (Accuracy)정확도는 가장 기본적이고 직관적인 평가 지표입니다. 전체 예측 중 올바르게 분류된 비율을 나타냅니다.정확도 = (올바르게 분류된 샘플의 수) / (전체 샘플의 수)하지만 정확도만으로는 불균형한 데이터셋에서 모델의 성능을 제대로 평가하기 어려울 수 있습니다.4.2 정밀도 (Precision)정밀도는 모델이 양성으로 예측한 샘플 중 실제 양성인 비율을..

이론

밀집 행렬 vs 희소 행렬 (Dense Matrix Vs Sparse Matrix)

밀집 행렬 vs 희소 행렬: 데이터 구조의 효율성과 응용1. 서론행렬은 데이터 과학, 기계 학습, 컴퓨터 그래픽스 등 다양한 분야에서 핵심적인 역할을 합니다. 그러나 모든 행렬이 동일하게 생성되거나 처리되는 것은 아닙니다. 이 글에서는 두 가지 주요 행렬 유형인 희소 행렬(Sparse Matrix)과 밀집 행렬(Dense Matrix)에 대해 깊이 있게 살펴보겠습니다.2. 정의2.1 밀집 행렬 (Dense Matrix)밀집 행렬은 대부분의 요소가 0이 아닌 값을 가지는 행렬입니다. 일반적으로 우리가 흔히 접하는 행렬의 형태입니다.예시:Copy[1 2 3][4 5 6][7 8 9]2.2 희소 행렬 (Sparse Matrix)희소 행렬은 대부분의 요소가 0인 행렬입니다. 일반적으로 0이 아닌 요소의 수가 전..

이론

유전체 & 인공지능 LLM과 함께 공부해보기 Part1: 1장-3장

제 1장: 유전체학과 생물정보학 입문1.1 기본 유전체 개념유전체학은 생물체의 모든 유전자 집합, 그 기능 및 상호작용을 연구하는 학문입니다. 유전체학을 이해하기 위해서는 먼저 몇 가지 기본 개념을 파악해야 합니다:1.1.1 DNA (Deoxyribonucleic Acid)DNA는 모든 알려진 생물체의 발달, 기능, 성장, 재생산에 필요한 유전 정보를 담고 있는 분자입니다. DNA는 네 가지 화학 염기로 구성되어 있습니다:Adenine (A)Guanine (G)Cytosine (C)Thymine (T)이 염기들은 서로 쌍을 이루는데, A는 T와, C는 G와 결합하여 염기쌍을 형성합니다. 이 염기들의 순서 또는 서열이 생물체의 구성과 유지에 필요한 정보를 결정합니다.1.1.2 RNA (Ribonucleic..

Database/SQL

[OMOP CDM][PostgreSQL]OMOP CDM Local 에 구현하기

DatasetCMS dataset https://redivis.com/datasets/ye2v-6skh7wdr7 - 회원 가입 후 해당 자료 무료 다운로드 가능 (아래의 8개 테이블만 사용) EnviromentsOS: Window 11PostgreSQL: 16.4 https://www.enterprisedb.com/downloads/postgres-postgresql-downloads- PostgreSQL 설치할 때 pgAdmin도 함께 설치Create Database- pgAdmin 에서 데이터베이스 마우스 우클릭 Create > Database- Database name: ex) omopCreate Table (column name and type)- Tables에서 마우스 우클릭 Create > T..

Data Insider/학회 및 전시회

KHF 2024 (K-HOSPITAL HEALTH TECH FAIR)

행사 개요명칭: KHF 2024일시: 2024년 10월 2일(수) ~ 10월 4일(금), 3일간장소: 코엑스 1층 A, B홀주최: 대한병원협회주관: (주)메쎄이상, 미래의료산업협의회참석 포럼포럼명: 환자 및 의료진의 의료서비스 경험을 혁신하는 AI 에이전트 사례 소개삼성서울병원 & 하해호 & 네이버클라우드네이버클라우드의 CLOVA healthcare 및 디지털 헬스케어 랩 발표음성 EMR, AI 에이전트를 통한 만성질환 관리 등 소개주목할 만한 참가 기업 및 제품인지 건강 관련MINIMUM STUDIO브레인 피트니스: 웹 기반 치매 예방 인지 능력 개선 게임브레인아카데미MindRx: 치매 예방 및 치료LEMON: 아동 두뇌계발과 발달지연 치료emotiv인지 모델링 기술 기반 멘탈 헬스 DTx주요 제품: ..

이론

[Vector DB][Knowledge Graph] 지식 그래프 vs 벡터 데이터베이스: 데이터 표현의 두 가지 접근법

1. 소개빅데이터 시대에 접어들면서 효율적인 데이터 표현과 처리 방식의 중요성이 더욱 부각되고 있습니다. 이러한 배경 속에서 지식 그래프와 벡터 데이터베이스라는 두 가지 혁신적인 접근법이 주목받고 있습니다. 이 두 기술은 각각 고유한 방식으로 데이터를 표현하고 처리하며, 다양한 분야에서 활용되고 있습니다.2. 지식 그래프란?지식 그래프는 실세계의 개체와 그들 사이의 관계를 그래프 구조로 표현하는 데이터 모델입니다. 노드(개체)와 엣지(관계)로 구성되며, 복잡한 정보를 직관적이고 의미론적으로 표현할 수 있습니다.주요 특징:의미론적 관계 표현유연한 스키마추론 및 지식 발견 용이활용 사례:검색 엔진 개선 (Google Knowledge Graph)추천 시스템금융 사기 탐지3. 벡터 데이터베이스란?벡터 데이터베..

Data Insider/공모전 및 경진대회

[2024][경진대회] 2024 연구데이터 분석활용 경진대회 (DataON) 후기

대회소개 국가 연구데이터 플랫폼국가연구데이터플랫폼서비스 Data ONdataon.kisti.re.kr최종발표자료 요약2024 연구데이터 분석 활용 경진대회 팀명: 5po프로젝트명: "멍의" 헬스케어대회 기간: 2024년 8월 – 2024년 9월팀 구성원:바이오메디컬 데이터 사이언티스트, 팀 리드의료 인공지능 엔지니어프로젝트 개요목표:반려동물 건강 관리에 필요한 빠르고 정확한 상담 도구 개발대형 언어 모델(LLM) 기반 반려동물 건강 챗봇 구축시장 상황:2020년 기준, 반려동물 시장 약 3조 원 규모로 성장반려동물을 가족처럼 여기는 ‘펫팸족’ 트렌드 확산반려동물 건강 관리에 대한 수요 증가사용된 데이터DataON:한국과학기술정보연구원(KISTI) 제공 동물 질병 텍스트 데이터 활용AI-Hub:반려동물(개..

Data Insider/공모전 및 경진대회

[2024][경진대회] 제 2회 AI 신약개발 경진대회: JUMP AI 2024 후기

프로젝트 개요참여 경진대회: 제2회 신약개발 AI 경진대회 (DACON)프로젝트 목표: IRAK4(Interleukin-1 Receptor-Associated Kinase 4) 단백질의 IC50 활성 값을 예측하는 AI 모델 개발예측 대상: IC50 값은 약물의 특정 생물학적 기능을 50% 억제하는 데 필요한 농도를 의미하며, 이를 기반으로 약물의 효능을 평가팀 구성: 5명의 팀원과 함께 데이터 분석, 모델 개발, 선행 연구 조사 담당데이터 처리 및 모델 개발데이터 구성:SMILES 데이터로 분자 구조를 표현약물-단백질 상호작용을 나타내는 IC50 데이터RDKit, Mordred 등을 사용하여 분자의 descriptors를 계산 (예: Molecule Weight, Hydrogen Bond Donors/..

Chandler.j
'분류 전체보기' 카테고리의 글 목록 (3 Page)