Data Science

LLM

[LLM][RAG]Retrieval-Augmented Generation

1. RAG ?1) ChatGPTQuestion: RAG에 대해 블로그 할 내용 요약하고 참고 자료 주소 포함해서 10줄 내외로 작성해줘Answer: 검색 증강 생성(RAG)은 정보 검색의 힘을 언어 생성과 통합하는 인공 지능 분야의 새로운 접근 방식입니다. 이 기술은 생성 프로세스 중에 외부 문서에서 관련 데이터를 동적으로 가져와 AI가 생성한 텍스트의 품질과 정확성을 크게 향상시킵니다. Meta AI가 개발한 RAG는 변환기 아키텍처, 특히 검색용 BERT, 생성용 GPT와 같은 모델을 활용하여 보다 상황에 맞는 시스템을 생성합니다.RAG는 ​​먼저 검색기 모델을 사용하여 입력 쿼리를 기반으로 관련 문서 구절을 선택하는 방식으로 작동합니다. 그런 다음 이러한 문서는 최종 텍스트 출력을 합성하는 생성기..

LLM

[LLM][Pandas]Pandas agent, LanChain or LlamaIndex

1. 개요- LLM으로 Pandas 코딩 할 수 있음- 데이터 분석 코딩 몰라도 대화형으로 구현 가능할 날이 곧 올듯2. LanChainhttps://python.langchain.com/docs/integrations/toolkits/pandas/ Pandas Dataframe | 🦜️🔗 LangChainThis notebook shows how to use agents to interact with apython.langchain.com3. LlamaIndexhttps://docs.llamaindex.ai/en/stable/examples/query_engine/pandas_query_engine/ Pandas Query Engine - LlamaIndex..

Data Insider/공모전 및 경진대회

[2024][창업경진대회] 보건의료빅데이터 활용창업경진대회

1. 추진 목적창의적인 보건의료빅데이터 활용 스타트업 기업의 발굴 지원으로 빅데이터 기반 산업 저변 확대 및 국내 기업의 경쟁력 강화 지원 바이오·헬스케어산업 성장 및 데이터 활용 창업 생태계 조성 지원2. 주최 및 주관(주최) 보건복지부 (주관) 건강보험심사평가원, 국민건강보험공단3. 대회 일정4. 포상5. 공모기간2024. 4. 8.(월)~5. 31.(금), 18:00까지 (약 50일간)6. 공모방법HIRA빅데이터개방포털 (신청·조회) 온라인 접수 https://opendata.hira.or.kr/op/ope/selectStartUpGdDtl.do 보건의료빅데이터개방시스템 opendata.hira.or.kr7. 참가자격(참가자격) 국내 거주 ..

Data Insider/공모전 및 경진대회

[2024][창업경진대회] 국민행복 서비스 발굴·창업 경진대회

1. 공모주제사회보장정보 등 공공데이터와 민간데이터를 활용한 창업 및 사업화 아이디어 발굴2. 참가자격대한민국 국민 누구나 (개인 또는 단체)3. 일정4. 신청방법양식 이메일(data@ssis.or.kr) 제출5. 시상내역6. 지원사항대상팀은 행정안전부 주관 제12회 범정부 공공데이터 활용 창업경진대회 참가 지원수상작 및 우수 아이디어에 대한 사업화 지원K-테스트베드를 통한 실증 지원, 성능 확인서 발급, 판로 확대 등 지원

LLM

[LLM][Claude][Gemini][GPT][Clova] LLM 모델 사용해보기

1. Studio 1) OPENAI 2) Google AI Studio 3) Anthropic 4) CLOVA Studio 2. API 1. Studio - Web 상에서 편하게 채팅모드 playground 로 사용해볼 수 있다. - 다양한 종류의 LLM 모델을 경험해보는 것은 매우 중요하다. 1) OPENAI - https://platform.openai.com/playground/chat - Model: 3.5 turbo 부터 4 turbo 까지 선택 가능 - Temperature [0,1]: 0에 가까울 수록 보수적인 - Maximum length: tocken 정할 수 있음 - 유료 사용 Credit 충전 2) Google AI Studio - https://aistudio.google.com/a..

Docker

[VScode][docker]VScode에서 remote server의docker container 접근하기 (feat. python - jupyter server)

0. Extension 1. Remote SSH 2. Docker contatiner 0. Extension - Remote - SSH - Dev Containers 1. Remote SSH - Extension tab에서 Remote Explorer > configuration에 등록해 놓은 remote server 접속 2. Docker contatiner - Remote server 점속 후 Command Palette (Ctrl+Shift+P) > Dev Containers: Attach ~ - 현재 running 중인 container 확인 후 접속 (ex: python, jupyter server, etc...)

Python

[python]UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 0-1: unexpected end of data

1. error 2. solution 1. error df = pd.read_csv("data_test.csv") - error message 더보기 { "name": "UnicodeDecodeError", "message": "'utf-8' codec can't decode bytes in position 0-1: unexpected end of data", "stack": "--------------------------------------------------------------------------- UnicodeDecodeError Traceback (most recent call last) Cell In[4], line 1 ----> 1 df = pd.read_csv(\"./procedur..

R

[R][stringdist]Approximate matching and string distance

1. stringdist 2. Tutorial 1. stringdist - stringdist 라이브러리는 문자열 간의 거리를 계산하는 다양한 함수를 제공합니다. - Levenshtein, Jaro-Winkler, Damerau-Levenshtein 등의 거리 측정 방법을 지원하며, 이를 통해 문자열 유사도를 측정할 수 있습니다. - 텍스트 마이닝, 자연어 처리 등의 분야에서 활용되며, 데이터 분석 및 시각화에도 유용하게 사용됩니다. - Github - RDocumentation - Docs: PDF 2. Tutorial - library library(data.table) library(stringdist) - sample data cat("================================st..

Chandler.j
'분류 전체보기' 카테고리의 글 목록 (8 Page)