본문 바로가기
반응형

LLM17

[LLM][Python] Auto-Analyst Review 1. 배경 - Medium 에서 LLM을 활용한 agentic auto-analyst 관련 포스팅을 봤음.https://medium.com/firebird-technologies/auto-analyst-2-0-the-ai-data-analytics-system-26aec602928e Auto-Analyst 2.0 — The AI data analytics systemOverview and open-sourcing the projectmedium.com - 내용 요약을 하면 아래와 같음.Auto-Analyst 2.0은 데이터 분석 과정을 간소화하고 향상시키기 위해 다양한 AI 에이전트를 통합한 AI 기반 데이터 분석 시스템입니다. 이 시스템은 데이터 전처리, 통계 분석, 머신러닝, 시각화를 포함한 복잡한 .. 2025. 1. 10.
[MedQA][LLM benchmark][medical benchmark]MedQA DatasetMedical LLM benchmark Medical LLM benchmarkMedQAMedQA 소개:MedQA는 미국 의사 면허 시험(USMLE) 문제를 기반으로 한 질문 답변(Q&A) 데이터셋.주로 의학 교육 및 연구, AI 시스템 개발에 사용.3가지 언어번전: English, simplified Chinese, and traditional Chinese데이터셋 구성:질문: 여러 선택지가 있는 객관식 문제 형태.선택지: 일반적으로 4~5개의 선택지 제공, 하나의 정답 존재.정답: 각 문제의 올바른 답이 명시.설명: 일부 문제는 정답에 대한 설명 포함.활용 분야:의료 AI 연구: 의료 분야 AI의 성능 평가에 활용.의학 교육: 학생과 의료 전문가의 학습 도구로 활용.자연어 처리(NLP) 연구: 복잡한 의학 텍스트를 이해하고 분석하는 모델 개.. 2024. 8. 20.
[ChatGPT][flask][tutorial]ChatGPT, flask app Zero shot tutorial 1. 튜토리얼 및 준비물- ChatGPT를 활용해 zero shot으로 간단한 앱 만들어보기- QA 에 대한 평가 지표를 비교하고 보고서를 만들어 word 파일로 저장시키는 앱- 준비물 두 시스템에 대한 평가 지표- 사용된 평가지표1) answer_similarity2) answer_correctness- sample_rag: RAG 시스템에 대한 평가표- sample_default: 기본 GPT 시스템에 대한 평가표   2. Zero Shot 쿼리 짜기첨부하는 두개의 성능 결과 csv 파일을 업로드 하고 비교평가 하여 word 파일로 저장시키는 flask 앱 만들어줘. 참고 사항은 아래와 같아 --- question은 동일해 따라서 해당 칼럼이 key야. --- answer_similarity와 ans.. 2024. 7. 31.
[LLM][RAG][ChatGPT]ChatGPT 활용LLM 시스템 평가 보고서 만들기 0. 목적- 기본 GPT 시스템 vs 구축한 RAG 시스템을 비교 평가하고 싶을 때!1. 데이터 준비- RAGAS 프레임워크를 사용한 QA set이 필요함- 동일한 Question을 태우고 두 시스템의 Answer를 가져옴- RAGAS metric 중 QA 만을 이용하여 계산 가능한 지표 사용Answer semantic similarityAnswer Correctness2. 데이터 요약- 공통 질문, 기본 GPT 시스템 대답, RAG 시스템 대답- 위의 칼럼으로 구성된 데이터 프레임3. 평가 보고서 만들기- ChatGPT 활용- 두 데이터를 첨부한 후 아래의 질문을 넣어줌tbl_default는 기본 GPT 시스템의 평가지표 결과이고 tbl_rag은 RAG 시스템의 평가지표 결과들이야.  동일한 quest.. 2024. 7. 29.
[LLM][RAG][RAGAS]RAG evaluationRAGAS 0. 개요- RAGAS는 1. Generation 부분과 2. Retireval 부분을 평가하는 지표가 각 2개씩 대표적으로 있음1. 신뢰성(Faithfulness)정의: 생성된 응답의 사실적 정확성을 평가.구성 요소:질문: 사용자로부터 받은 원래 질문.문맥: 질문에 대한 배경 정보 또는 참조 문서.생성된 응답: 모델이 생성한 답변.주장 집합: 생성된 응답에서 식별된 주장들.평가 방법:Answer 로 부터 Claim 들을 생성 → 생성된 Claim 들이 context로 추론 가능한가?생성된 응답에서 주장들을 식별.각 주장을 문맥과 비교하여 추론 가능한지 판단.신뢰성 점수 계산: 신뢰성 점수=총 주장 수문맥에서 추론 가능한 주장 수$$ \text{신뢰성 점수} = \frac{\text{문맥에서 추론 가능한.. 2024. 7. 25.
[LLM][RAG][AutoRAG]AutoRAG Part2: QA set(RAGAS) AutoRAG Part2: QA set-RAGASusing RAGAS framework1. default# 1. default methodimport pandas as pdfrom autorag.data.qacreation.ragas import generate_qa_ragascorpus_df = pd.read_parquet(corpus_path)qa_df_ragas = generate_qa_ragas(corpus_df, test_size=50)2. distribution# 2. distributions methodfrom ragas.testset.evolutions import simple, reasoning, multi_context, conditionalfrom autorag.data.qacreat.. 2024. 7. 17.

TOP

Designed by 티스토리