LLM

LLM

[MedQA][LLM benchmark][medical benchmark]MedQA DatasetMedical LLM benchmark

Medical LLM benchmarkMedQAMedQA 소개:MedQA는 미국 의사 면허 시험(USMLE) 문제를 기반으로 한 질문 답변(Q&A) 데이터셋.주로 의학 교육 및 연구, AI 시스템 개발에 사용.3가지 언어번전: English, simplified Chinese, and traditional Chinese데이터셋 구성:질문: 여러 선택지가 있는 객관식 문제 형태.선택지: 일반적으로 4~5개의 선택지 제공, 하나의 정답 존재.정답: 각 문제의 올바른 답이 명시.설명: 일부 문제는 정답에 대한 설명 포함.활용 분야:의료 AI 연구: 의료 분야 AI의 성능 평가에 활용.의학 교육: 학생과 의료 전문가의 학습 도구로 활용.자연어 처리(NLP) 연구: 복잡한 의학 텍스트를 이해하고 분석하는 모델 개..

LLM

[ChatGPT][flask][tutorial]ChatGPT, flask app Zero shot tutorial

1. 튜토리얼 및 준비물- ChatGPT를 활용해 zero shot으로 간단한 앱 만들어보기- QA 에 대한 평가 지표를 비교하고 보고서를 만들어 word 파일로 저장시키는 앱- 준비물 두 시스템에 대한 평가 지표- 사용된 평가지표1) answer_similarity2) answer_correctness- sample_rag: RAG 시스템에 대한 평가표- sample_default: 기본 GPT 시스템에 대한 평가표   2. Zero Shot 쿼리 짜기첨부하는 두개의 성능 결과 csv 파일을 업로드 하고 비교평가 하여 word 파일로 저장시키는 flask 앱 만들어줘. 참고 사항은 아래와 같아 --- question은 동일해 따라서 해당 칼럼이 key야. --- answer_similarity와 ans..

LLM

[LLM][RAG][ChatGPT]ChatGPT 활용LLM 시스템 평가 보고서 만들기

0. 목적- 기본 GPT 시스템 vs 구축한 RAG 시스템을 비교 평가하고 싶을 때!1. 데이터 준비- RAGAS 프레임워크를 사용한 QA set이 필요함- 동일한 Question을 태우고 두 시스템의 Answer를 가져옴- RAGAS metric 중 QA 만을 이용하여 계산 가능한 지표 사용Answer semantic similarityAnswer Correctness2. 데이터 요약- 공통 질문, 기본 GPT 시스템 대답, RAG 시스템 대답- 위의 칼럼으로 구성된 데이터 프레임3. 평가 보고서 만들기- ChatGPT 활용- 두 데이터를 첨부한 후 아래의 질문을 넣어줌tbl_default는 기본 GPT 시스템의 평가지표 결과이고 tbl_rag은 RAG 시스템의 평가지표 결과들이야.  동일한 quest..

LLM

[LLM][RAG][RAGAS]RAG evaluationRAGAS

0. 개요- RAGAS는 1. Generation 부분과 2. Retireval 부분을 평가하는 지표가 각 2개씩 대표적으로 있음1. 신뢰성(Faithfulness)정의: 생성된 응답의 사실적 정확성을 평가.구성 요소:질문: 사용자로부터 받은 원래 질문.문맥: 질문에 대한 배경 정보 또는 참조 문서.생성된 응답: 모델이 생성한 답변.주장 집합: 생성된 응답에서 식별된 주장들.평가 방법:Answer 로 부터 Claim 들을 생성 → 생성된 Claim 들이 context로 추론 가능한가?생성된 응답에서 주장들을 식별.각 주장을 문맥과 비교하여 추론 가능한지 판단.신뢰성 점수 계산: 신뢰성 점수=총 주장 수문맥에서 추론 가능한 주장 수$$ \text{신뢰성 점수} = \frac{\text{문맥에서 추론 가능한..

LLM

[LLM][RAG][AutoRAG]AutoRAG Part2: QA set(RAGAS)

AutoRAG Part2: QA set-RAGASusing RAGAS framework1. default# 1. default methodimport pandas as pdfrom autorag.data.qacreation.ragas import generate_qa_ragascorpus_df = pd.read_parquet(corpus_path)qa_df_ragas = generate_qa_ragas(corpus_df, test_size=50)2. distribution# 2. distributions methodfrom ragas.testset.evolutions import simple, reasoning, multi_context, conditionalfrom autorag.data.qacreat..

LLM

[LLM][RAG][AutoRAG]AutoRAG Part1: QA set

AutoRAG Part1: QA setAutoRAG 준비물 중 하나인 QA data set을 만드는 것은 중요한 첫 단추Single Question and AnswerCorpus의 context를 보고 LLM이 Question 과 Answer를 생성한다https://docs.auto-rag.com/data_creation/tutorial.html#make-qa-data-from-corpus-data Start creating your own evaluation data - AutoRAG documentationPrevious Configure LLM & Embedding modelsdocs.auto-rag.com  RawData 1)→ corpus 2)→ QA set 1. corpusDocs(Raw Da..

LLM

[LLM][RAG][AutoRAG]AutoRAG tutorial

AutoRAG-tutorial-koRef, Githubhttps://github.com/Marker-Inc-Korea/AutoRAG-tutorial-koclone repositorypackage 설치pip install -r requirements.txt1. TrialAutoRAG 구동하여 결과물을 얻는 과정준비물: 1) corpus.parquet 2) qa.parquetbenchmark 폴더 생성Python Script (main.py)OPENAI_API_KEY 설정: .env.template 파일 복제 → key 입력 → .env 로 이름 변경하여 저장RUN scriptpython3 main.py --config ./config/tutorial_ko.yaml python main.py --config..

LLM

[LLM][RAG][AutoRAG]AutoRAG

AutoRAG1. 개념AutoRAG(Automatic Retrieval-Augmented Generation)은 문서 검색과 질문 응답(QA) 시스템을 구축하는 데 도움을 주는 프레임워크임. 기본적으로 대량의 문서나 데이터를 기반으로 필요한 정보를 검색하고, 이를 기반으로 응답을 생성하는 시스템을 구축할 수 있음. 특히, 대규모 언어 모델을 활용하여 정확하고 효율적인 QA 시스템을 만들 수 있음.AutoRAG docs documentation2. 준비물AutoRAG를 사용하기 위해서는 다음과 같은 준비물이 필요함:Python 환경: Python 3.6 이상필수 라이브러리: transformers, torch, pandas 등데이터셋: QA 데이터셋과 검색할 문서 데이터셋3. 코드!pip install t..

Chandler.j
'LLM' 카테고리의 글 목록