Skip to content

Conversation

@caiopizzol
Copy link

Por favor, confirme se este pull request atende aos seguintes requisitos:

Qual alteração você está propondo?

  • Adicionar/atualizar projeto(s) de código aberto
  • Adicionar/atualizar mantenedor(es)

Adicionar/atualizar projeto(s) de código aberto

  • O projeto foi construído no Brasil ou recebe contribuições significativas do Brasil
  • O projeto possui pelo menos 100 pessoas marcando como favorito (stargazers)

O projeto tem 56 stars em apenas 5 dias (criado em 15/06/2025), demonstrando rápida adoção pela comunidade

Por que este projeto de código aberto deveria ser apresentado?

O CNPJ Data Pipeline resolve um problema crítico para o ecossistema de dados abertos brasileiro: democratizar o acesso aos dados públicos de CNPJ da Receita Federal, que são tecnicamente complexos de processar.

Impacto e relevância:

  • Processa 60+ milhões de registros empresariais brasileiros (toda a base de CNPJs)
  • Transforma ~25GB de dados brutos em formato acessível via SQL
  • Documentação completa em português, incluindo as peculiaridades dos dados governamentais
  • Já recebeu 380+ upvotes combinados no Reddit (r/dataengineering e r/brdev)

Problema que resolve:
Os dados de CNPJ são públicos mas extremamente difíceis de consumir:

  • Arquivos em ISO-8859-1 com problemas de encoding
  • Formato semicolon-separated com vírgula decimal
  • Chaves estrangeiras quebradas e dados inconsistentes
  • Tamanho que inviabiliza processamento em máquinas comuns
  • Alternativa gratuita a APIs pagas de consulta de CNPJ (cada um pode ter a sua própria!)

Solução técnica inovadora:

  • Adapta-se automaticamente aos recursos disponíveis (4GB a 64GB+ RAM)
  • Pipeline incremental que processa apenas atualizações
  • Arquitetura modular preparada para múltiplos bancos de dados
  • Performance otimizada: de 48h para 1h de processamento

Beneficiários:

  • Startups fazendo análise de mercado
  • Pesquisadores acadêmicos estudando economia brasileira
  • Jornalistas investigando dados empresariais
  • Desenvolvedores criando aplicações com dados públicos

A velocidade de adoção (56 stars em 5 dias) e o engajamento da comunidade demonstram a necessidade deste tipo de ferramenta no ecossistema brasileiro de tecnologia.

Adicionar/atualizar mantenedor(es)

  • A localização do mantenedor em seu perfil do GitHub indica que é no Brasil
  • O mantenedor aprovou que este PR seja incluído no site

Quais projeto(s) de código aberto o indivíduo mantém?

Por favor, substitua esta linha por URLs do GitHub para os projetos que o(s) indivíduo(s) mantém.

Algo que não se encaixa perfeitamente nas opções acima

  • Minhas edições sugeridas não se referem a uma página existente, ou pelo menos não a uma única página

Por favor, substitua esta linha por uma explicação das alterações propostas.


Obs: fecharemos o seu PR sem comentários se você não marcar as caixas acima e fornecer TODAS as informações solicitadas.

@caiopizzol caiopizzol requested a review from a team as a code owner June 18, 2025 18:14
@AndreaGriffiths11
Copy link
Collaborator

Thank you for your contribution and for taking the time to submit this PR!
Unfortunately, according to our contribution guidelines, we only accept projects (or changes) for repositories with at least 100 stars. At this time, the repository does not meet this requirement.

Lint test fail, less than 100 stars

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants