1. RAG ?
1) ChatGPT
Question: RAG에 대해 블로그 할 내용 요약하고 참고 자료 주소 포함해서 10줄 내외로 작성해줘
Answer:
검색 증강 생성(RAG)은 정보 검색의 힘을 언어 생성과 통합하는 인공 지능 분야의 새로운 접근 방식입니다. 이 기술은 생성 프로세스 중에 외부 문서에서 관련 데이터를 동적으로 가져와 AI가 생성한 텍스트의 품질과 정확성을 크게 향상시킵니다. Meta AI가 개발한 RAG는 변환기 아키텍처, 특히 검색용 BERT, 생성용 GPT와 같은 모델을 활용하여 보다 상황에 맞는 시스템을 생성합니다.
RAG는 먼저 검색기 모델을 사용하여 입력 쿼리를 기반으로 관련 문서 구절을 선택하는 방식으로 작동합니다. 그런 다음 이러한 문서는 최종 텍스트 출력을 합성하는 생성기 모델에 대한 추가 컨텍스트 역할을 합니다. 이 접근 방식을 사용하면 더욱 자세하고 구체적인 응답이 가능하며, 특히 교육 도구, 콘텐츠 제작, 고객 지원 등 높은 사실적 정확성이 요구되는 애플리케이션에 유용합니다.
RAG의 실제 구현은 최신의 광범위한 지식 기반의 통합이 중요한 시스템에서 볼 수 있습니다. 예를 들어, 고객 서비스에서 RAG는 상황에 맞게 관련성이 있을 뿐만 아니라 최신 정보로 업데이트된 답변을 제공할 수 있습니다. 마찬가지로, 콘텐츠 생성 시 제작된 자료의 콘텐츠가 풍부하고 스타일적으로 일관성이 있는지 확인합니다.
주요 참고자료는 다음과 같습니다:
1. 언어 모델 향상에 대한 방법론과 적용을 설명하는 Lewis 등의 RAG 기본 논문.
2. 다양한 AI 애플리케이션에서 RAG의 실제 구현을 설명하는 블로그 게시물 및 튜토리얼.
3. 실제 시나리오에서 RAG의 효율성을 강조하고 복잡한 쿼리를 처리할 때 RAG의 적응성과 효율성을 보여주는 사례 연구입니다.
2) Summary
대형언어모델은 방대한 텍스트 데이터로 학습되어 다양한 작업을 수행할 수 있지만, 학습 데이터에 포함되지 않은 최신 정보나, 우리가 분석하려고 하는 의료 데이터에는 접근하기 어렵다는 한계점이 있다. RAG 기술을 적용하면 이러한 한계를 극복하고 우리의 목적에 맞는 의료데이터를 분석할 수 있다.
RAG는 LLM과 의료데이터를 연결하여, 사용자 질의에 대한 답변 생성 시 관련 정보를 검색하고 활용할 수 있도록 한다. 이를 통해 LLM은 최신 정보 및 의료 데이터 지식을 반영한, 보다 정확하고 신뢰성 있는 답변을 생성할 수 있다.
RAG의 주요 구성 요소는 다음과 같다.
- 검색 시스템: 사용자 질의와 관련된 정보를 외부 지식베이스에서 검색한다. 이 지식베이스는 의료 도메인의 지식이 담긴 데이터 및 연구 논문 등 다양한 형태의 텍스트 데이터를 포함할 수 있다. 검색 시스템은 효율적인 검색 알고리즘을 사용하여 질의와 가장 관련성 높은 문서를 빠르게 찾아낸다.
- 생성 시스템: 검색된 정보를 활용하여 LLM이 답변을 생성한다. LLM은 검색된 문서를 바탕으로 질의의 맥락을 이해하고, 이에 맞는 답변을 생성한다. 생성되는 답변은 Pandas 및 SQL query 문법을 포함한다.
- 통합 모듈: 검색된 정보와 LLM의 출력을 결합하여 최종 답변을 구성한다. 통합 모듈은 단순히 두 정보를 합치는 것이 아니라, 정보 간의 관계와 중요도를 분석하여 사용자에게 가장 유용한 형태로 답변을 제시한다. 예를 들어, 질의에 대한 Pandas 및 SQL 쿼리 답변과 함께 관련된 추가 정보나 출처를 제공할 수 있다.
2. youtube & code
https://www.youtube.com/watch?v=J2AsmUODBak
https://www.youtube.com/watch?v=ehP4vphl_Us
- Code
https://colab.research.google.com/drive/1PALBOJ-vXgKe3LOIbKoqeD8kuZYx_Lnr#scrollTo=-YinIRx6_--y
3. 기타 ref
https://aws.amazon.com/ko/what-is/retrieval-augmented-generation/