0. 목적
- 기본 GPT 시스템 vs 구축한 RAG 시스템을 비교 평가하고 싶을 때!
1. 데이터 준비
- RAGAS 프레임워크를 사용한 QA set이 필요함
- 동일한 Question을 태우고 두 시스템의 Answer를 가져옴
- RAGAS metric 중 QA 만을 이용하여 계산 가능한 지표 사용
- Answer semantic similarity
- Answer Correctness
2. 데이터 요약
- 공통 질문, 기본 GPT 시스템 대답, RAG 시스템 대답
- 위의 칼럼으로 구성된 데이터 프레임
3. 평가 보고서 만들기
- ChatGPT 활용
- 두 데이터를 첨부한 후 아래의 질문을 넣어줌
tbl_default는 기본 GPT 시스템의 평가지표 결과이고 tbl_rag은 RAG 시스템의 평가지표 결과들이야.
동일한 question에 대한 성능 지표는 answer_similarity와 answer_correctness이고, 두 지표들을 통계적으로 비교분석하고 어떤 question에서 차이가 많이 났는지 인사이트를 보여주는 보고서를 작성하는 작업을 아래의 내용을 참고해서 진행 한 후 최종적으로 .docs 문서로 저장해줘.
---
보고서의 구성
1. 서론
2. 본론
1) 비교 통계 결과
2) 인사이트
3. 결론
---
통계적 비교 부분
1. 각 집단에 따른 지표들의 평균 및 표준편차, 그리고 두 집단의 p-value, p value가 0.05 이하인 경우 p < 0.05로 테이블 형태로 나타내줘.
columns) Metric | Mean (SD) | RAG_Mean (SD) | p-value
2. 각 지표들의 distribution plot을 그려줘, 각 지표마다 레이아웃을 다르게 하고 해당 지표의 레이아웃 안에 두 집단의 값들을 서로 구분되는 색상과 투명도를 적용하여 분포도를 그려줘. 꼭 보고서에 포함되게 해줘.
3. 앞의 결과들을 전체적으로 한번 요약 해줘
---
인사이트 부분
1. 질문에 따른 각 시스템에서의 점수와, 그 차이를 나타내는 테이블을 보여주는데, 차이의 정도가 상위10개만 뽑아서 보여줘.
---
보고서 작성 언어는 한국어로 진행해줘
4. 생성된 평가 보고서
- 초안으로 제법 훌륭한 평가 보고서 작성 완료