1. 개요
[배경]
인공지능(AI) 기술을 활용하여 주어진 바이오 데이터를 기반으로 한 문제 해결을 목표로 하는 '2024 생명연구자원 AI활용 경진대회'를 개최합니다.
이번 대회의 목표는 바이오 분야에서 AI 활용의 저변을 확대하고, 복잡한 바이오 데이터를 효율적으로 분석 및 해석할 수 있는 AI 알고리즘을 개발하는 것입니다.
이 대회는 바이오 데이터의 활용도를 높이고, 이를 통해 바이오 분야에서의 AI 기술 적용 가능성을 극대화하기 위해 기획되었습니다.
바이오 데이터의 활용을 통해 인공지능 기술이 실제 문제 해결에 어떻게 기여할 수 있는지 탐구하는 것이 목적입니다.
[주제]
암환자 유전체 데이터의 변이 정보를 활용한 암종 분류 AI 모델 개발
[설명]
학습데이터로 제공되는 암환자 유전체 변이 정보 데이터를 활용하여 특정 변이 정보를 바탕으로 암종을 정확하게 분류하는 AI 알고리즘을 개발
[주최 / 주관 / 운영]
- 주최/주관 : 과학기술정보통신부, 한국생명공학연구원, 국가생명연구자원정보센터
- 운영: 데이콘
[참가 대상]
대한민국 국민
※ 개인 또는 팀(최대 3명)으로 참여
2. 규칙
1) 리더보드
- 평가 산식 : Macro F1 Score
- Public score : 전체 테스트 데이터 중 사전 샘플링된 30%
- Private score : 전체 테스트 데이터 100%
2) 평가 방식
- 1차 평가 : 리더보드 Private Score 상위 10팀 선발
- 2차 평가 : Private Score 상위 10팀 대상 코드 및 PPT 제출 후 코드 검증 및 온라인 발표 평가
- 2차 평가 기준
3) 개인 또는 팀 참여 규칙
- 개인 또는 팀을 이루어 참여할 수 있습니다.
- 개인 참가 방법 : 팀 신청 없이, 자유롭게 제출탭에서 제출 가능
- 팀 참가 방법 : 팀 탭에서 가능, 상세 내용은 팀 탭에서 팀 병합 정책 확인
- 팀 구성 방법: 팀 페이지에서 팀 구성 안내 확인
- 팀 최대 인원: 3 명
- 동일인이 개인 또는 복수팀에 중복하여 등록 불가
4) 외부 데이터 및 사전 학습 모델
- 사용에 법적 제약이 없으며, 누구나 변경, 재배포할 수 있는 공개된 외부 데이터 사용 가능
- 법적 제약이 없으며 논문으로 공개된 베이스의 사전 학습 모델(Pre-trained Model) 사용 가능
※ 2차 평가 대상자는 외부 데이터 및 사전학습 모델 사용한 경우 인용 정보 기재 필수
5) 코드 및 PPT 제출 규칙
대회 종료 후 2차 평가 대상자는 아래의 양식에 맞추어 코드와 PPT를 dacon@dacon.io 메일로 기한 내에 제출
제출한 코드는 Private Score 복원이 가능해야 함
o 코드에 ‘/data’ 데이터 입/출력 경로 포함
o 코드 파일 확장자: .R, .rmd, .py, .ipynb
o 코드와 주석 인코딩: UTF-8
o 모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함)
o 개발 환경(OS) 및 라이브러리 버전 기재
발표 평가 PPT 자료
o 2차 평가 기준(2. 평가 방식 -> 2차 평가 기준)에 맞춰 '10분 PT 분량'의 자유 양식으로 작성
제출 파일 목록
o Private Score 복원이 가능한 코드 파일
o Private Score 복원이 가능한 모델 weight 파일
o 발표 평가 PPT 자료
o 외부데이터를 사용한 경우, 해당 외부데이터와 그 출처
6) 유의 사항
- 1일 최대 제출 횟수: 3 회
- 사용 가능 언어: Python, R
- 모든 csv 형식의 데이터와 제출 파일은 UTF-8 인코딩을 적용합니다.
- 모델 학습과 추론에서 평가 데이터셋 정보 활용(Data Leakage)시 수상 제외
- 모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
- 최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일 1개를 선택해야 함
- 대회 직후 공개되는 Private 랭킹은 최종 순위가 아니며 코드 검증과 발표 평가 후 수상자가 결정됨
데이콘은 부정 제출 행위를 금지하고 있으며 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다. 자세한 사항은 아래의 링크를 참고해 주시기 바랍니다. https://dacon.io/notice/notice/13
7) 토론(질문)
대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다. 기타 질문은 토론 페이지를 통해 자유롭게 토론해주시기 바랍니다.
데이콘 답변을 희망하는 경우 토크 게시글 댓글로 질문을 올려 주시기 바랍니다.
예) [DACON 답변 요청] 시상식은 언제 열리나요?
3. 일정
[세부일정]
- 참가 신청 기간 : 2024년 08월 26일(월) 10:00 ~ 2024년 10월 21일(월) 10:00
- 대회 기간 : 2024년 08월 28일(수) 10:00 ~ 2024년 10월 21일(월) 10:00
- 팀 병합 마감 : 2024년 10월 14일(월) 23:59
- 대회 종료 : 2024년 10월 21일(월) 10:00
- 코드 및 발표자료 제출 : 2024년 10월 21일(월) 12:00 ~ 2024년 10월 23일(수) 10:00
- 코드 검증 : 2024년 10월 24일(목) 10:00 ~ 2024년 10월 31일(목) 10:00
- 온라인 발표 평가 : 2024년 10월 24일(목) 오후 예정
- 최종 수상자 발표 : 2024년 11월 01일 예정
- 오프라인 시상식 : 2024년 11월 중 시상식 예정
4. 상금
[인공지능 활용 부문]
5. 수행내용 (코드)
- git-hub: https://github.com/eunchanj/DACON_202410_2024-Life-Research-Resources-AI-Utilization-Contest
- 최종 Public: #98, Private: #80 (10% 이내)