Estimating the Union's Active Debt Revenues with Machine Learning

An analysis based on tax revenues data from 2015 to 2021

Authors

  • Rubens Quaresma Santos Procuradoria-Geral da Fazenda Nacional

DOI:

https://doi.org/10.36428/revistadacgu.v14i26.529

Keywords:

Active debt, Tax Collection, Budget, Machine Learning, Data Science

Abstract

As the entity responsible for collecting the Active Debt of the Union, the Attorney General's Office of the National Treasury must present, at the end of each fiscal year, the results achieved and the collection forecasts for the following year for the composition of forthcoming Budget Laws. Currently, this estimate is made using the exponential smoothing technique, which considers past income to project future revenue. This article seeks to evaluate the application of machine learning algorithms in the elaboration of these projections, as a means of improving management. Linear Regression, Decision Tree, Random Forest and Gradient Boosting Decision Tree algorithms were tested. The models were fed with information from the macroeconomic indicators IPCA, IGP-M, GDP, Exchange rate and SELIC rate, as well as data on exceptional installments and tax transactions made available to taxpayers by the National Treasury.

Downloads

Download data is not yet available.

References

AGÊNCIA SENADO. (2021). Projeto que reabre prazo para o Programa Especial de Regularização Tributária segue para a Câmara. Brasília, BR.

https://www12.senado.leg.br/noticias/materias/2021/08/05/projeto-que-reabre-prazo-para-o-programa-especial-de-regularizacao-tributaria-segue-para-a-camara

BANCO CENTRAL DO BRASIL. (2022a). Estatísticas do setor externo. Nota para a imprensa - 29/04/2022.

https://www.bcb.gov.br/estatisticas/estatisticassetorexterno

________. (2022b). Taxa Selic.

https://www.bcb.gov.br/controleinflacao/taxaselic

BECKER, Dan. (2017a). How Models Work: The first step if you’re new to machine learning. Kaggle.

https://www.kaggle.com/code/dansbecker/how-models-work

________. (2017b). Model Validation: Measure the performance of your model, so you can test and compare alternatives. Kaggle.

https://www.kaggle.com/code/dansbecker/model-validation

CALLEGARI-JACQUES, Sidia M. (2017). Bioestatística: princípios e aplicações. Porto Alegre, BR: Artmed.

FÁVERO, Luiz Paulo; BELFIORE, Patrícia. (2017). Manual de análise de dados. 1. ed. Rio de Janeiro, BR: Elsevier.

FUNDAÇÃO GETÚLIO VARGAS. (2022). IGP-M: Resultados 2022. FGV.

https://portal.fgv.br/noticias/igpm-resultados-2022

FURTADO, Paulo Augusto. (2022). Por que escolher Python?. In: Jornada Python: uma jornada imersiva na aplicabilidade de uma das mais poderosas linguagens de programação do mundo. Rio de Janeiro, BR: Brasport.

FREITAS, Gabriel Belmino. (2019). O uso de machine learning na modelagem da previsão de inflação: revisão bibliográfica. 42 f. Trabalho de Conclusão de Curso (Bacharelado em Ciências Econômicas) — Universidade de Brasília, Brasília, 2019.

https://bdm.unb.br/handle/10483/25328

GOOGLE. (2022). Conheça o Colab.

https://colab.research.google.com/?utm_source=scs-index#scrollTo=OwuxHmxllTwN

GRUS, Joel. (2016). Data Science do Zero. Traduzido por Welington Nascimento. Rio de Janeiro, BR: Alta Books.

INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. (2022a). IPCA - Índice Nacional de Preços ao Consumidor Amplo. Portal do Governo Brasileiro.

https://www.ibge.gov.br/estatisticas/economicas/precos-e-custos/9256-indice-nacional-de-precos-ao-consumidor-amplo.html?=&t=o-que-e

________. (2022b). Produto Interno Bruto - PIB. Portal do Governo Brasileiro.

https://www.ibge.gov.br/explica/pib.php

________. (2022c). CONCLA - Comissão Nacional de Classificação.

https://cnae.ibge.gov.br/?view=estrutura&tipo=cnae&versao_classe=7.0.0&versao_subclasse=9.1.0

KELLEHER, John D.; TIERNEY, Brendan. (2018). Data Science. The MIT Press essential knowledge series. Cambridge, US: The MIT Press.

KRUGMAN, Paul R; OBSTFELD, Maurice. (2005). Economia internacional: teoria e política. Tradutor técnico Eliezer Martins Diniz. São Paulo, BR: Pearson Addison Wesley.

MCKINNEY, Wes. (2010). Data structures for statistical computing in python, Proceedings of the 9th Python in Science Conference, Volume 445.

https://conference.scipy.org/proceedings/scipy2010/pdfs/mckinney.pdf

MINISTÉRIO DA ECONOMIA. (novembro, 2014). Cadastro Nacional de Atividades Econômicas – CNAE.

https://www.gov.br/receitafederal/pt-br/assuntos/orientacao-tributaria/cadastros/cnpj/classificacao-nacional-de-atividades-economicas-2013-cnae/apresentacao

MOREIRA, J. M.; CARVALHO, A.; HORVÁTH, T. (2018). A general introduction to data analytics. Hoboken, US: Wiley.

OLIVEIRA, B. (2021). Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção. 87 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás.

http://repositorio.bc.ufg.br/tede/handle/tede/11522

OZDEMIR, Sinan. (2016). Principles of data science. Birmingham, UK: Packt Publishing Ltd.

PARANHOS, R. et al. (2014). Desvendando os Mistérios do Coeficiente de Correlação de Pearson: o Retorno. Leviathan (São Paulo), (8), 66-95.

DOI: https://doi.org/10.11606/issn.2237-4485.lev.2014.132346

PEDREGOSA et al. (2011). Scikit-learn: Machine Learning in Python, Journal of Machine Learning Research 12, pp. 2825-2830.

https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html

PROCURADORIA-GERAL DA FAZENDA NACIONAL. (2021a). Nota SEI nº 29/2021/PGDAU-CDA-COAGED/PGDAU-CDA/PGDAU/PGFN-ME. Presta informações sobre a dívida ativa da União para compor o anexo de riscos fiscais. Ministério da Economia.

http://www.consultaesic.cgu.gov.br/busca/dados/Lists/Pedido/Attachments/1637685/RESPOSTA_RECURSO_1_161568_SEI_ME___14626293___Nota.pdf

________. (2021b). Nota SEI nº 7/2022/PGDAU-CDA-COAGED/PGDAU-CDA/PGDAU/PGFN-ME. Boletim de Acompanhamento Gerencial - Edição Anual – 2021. Ministério da Economia.

https://www.gov.br/pgfn/pt-br/assuntos/divida-ativa-da-uniao/estudos-sobre-a-dau/boletim-de-acompanhamento-gerencial-da-divida-ativa-da-uniao-e-do-fgts-edicao-anual-2021.pdf

________. (2021c). Nota Conjunta SEI nº 2/2021/PGDAU-CGR. Analisa os resultados alcançados pelas modalidades de transação da dívida ativa da União e da transação do contencioso de pequeno valor. Ministério da Economia.

https://www.gov.br/pgfn/pt-br/assuntos/divida-ativa-da-uniao/estudos-sobre-a-dau/sei_me-17016922-nota-conjunta.pdf

SANTOS, Gustavo Carvalho. (2020). Algoritmos de Machine Learning para previsão da B3. 90 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal de Uberlândia, Uberlândia.

DOI https://doi.org/10.14393/ufu.di.2020.640

ZHANG, Z. et. al. (julho, 2021). GBDT-MO: Gradient-Boosted Decision Trees for Multiple Outputs in IEEE Transactions on Neural Networks and Learning Systems, vol. 32, no. 7, pp. 3156-3167.

http://proceedings.mlr.press/v70/si17a.html

Published

2022-12-20

Issue

Section

Ciência de Dados na Administração Pública: Desafios e Oportunidades

How to Cite

Estimating the Union’s Active Debt Revenues with Machine Learning: An analysis based on tax revenues data from 2015 to 2021. Revista da CGU, [S. l.], v. 14, n. 26, 2022. DOI: 10.36428/revistadacgu.v14i26.529. Disponível em: https://revista.cgu.gov.br/Revista_da_CGU/article/view/529.. Acesso em: 16 may. 2024.

Similar Articles

11-20 of 41

You may also start an advanced similarity search for this article.