RagIA

Construção de um RAG usando documentos do projeto Téo Me Why

Índice

Etapas
- Dados
  - Vídeos
  - Artigos
- Chunking
- Vector Database
- LLM
Referência

Etapas

Dados

As fontes de dados utilizadas serão:

Vídeos

Alguns vídeos com o contexto necessário foram baixados e transcritos para arquivos Markdown (.md) utilizando o modelo whisper.

Artigos

Coletânea de artigos do nosso blog em formato markdown (.md).

Todos os dados acima passarão pelas próximas etapas.

Chunking

Trataremos cada documento (vídeo, artigo, postagem) será "quebrado" em vários chunks. Para ter uma melhor separação desses textos evitando perda de contexto e semântica, utilizaremos o HybridChunker da biblioteca docling.

Vector Database

Cada chunk de cada documento é inserido no banco de dados vetorial Qdrant. Por amor a simplicidade vamos utilizar o serviço cloud do Qdrand em sua versão gratuita.

Métodos de busca que utilizaremos:

Densa
Esparsa
Colbert

Metadados do chunk:

id
nome do documento original (da onde o chunk pertence);

Ou seja, para o mesmo chunk do documento, criaremos 3 vetores (embeding) distintos, possibilitando assim todas as buscas necessárias.

LLM

Utilizaremos a API do Groq para inferência das LLMs.

Utilizaremos os seguintes argumentos no prompt:

consulta: pergunta do usuário
contexto: lista de k-top documentos encontrados na busca vetorial
instrução: detalhes de como o modelo de genAI deve responder

Integração com Chat

A interface primária de utilização desse sistema será pelo chat da Twitch. Para isso devemos implementar guardrails para que apenas respostas dentro de nosso contexto sejam respondidas.

A priori a resposta só será gerada para Subs do canal.

Referência

Nossa inspiração de projeto se deu pelos estudos no curso deveficiente.com

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
data		data
ragia		ragia
.gitignore		.gitignore
README.md		README.md
docker-compose.yaml		docker-compose.yaml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RagIA

Índice

Etapas

Dados

Vídeos

Artigos

Chunking

Vector Database

LLM

Integração com Chat

Referência

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

RagIA

Índice

Etapas

Dados

Vídeos

Artigos

Chunking

Vector Database

LLM

Integração com Chat

Referência

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages