Estimating the Union's Active Debt Revenues with Machine Learning

An analysis based on tax revenues data from 2015 to 2021


  • Rubens Quaresma Santos Procuradoria-Geral da Fazenda Nacional



Active debt, Tax Collection, Budget, Machine Learning, Data Science


As the entity responsible for collecting the Active Debt of the Union, the Attorney General's Office of the National Treasury must present, at the end of each fiscal year, the results achieved and the collection forecasts for the following year for the composition of forthcoming Budget Laws. Currently, this estimate is made using the exponential smoothing technique, which considers past income to project future revenue. This article seeks to evaluate the application of machine learning algorithms in the elaboration of these projections, as a means of improving management. Linear Regression, Decision Tree, Random Forest and Gradient Boosting Decision Tree algorithms were tested. The models were fed with information from the macroeconomic indicators IPCA, IGP-M, GDP, Exchange rate and SELIC rate, as well as data on exceptional installments and tax transactions made available to taxpayers by the National Treasury.


Download data is not yet available.


AGÊNCIA SENADO. (2021). Projeto que reabre prazo para o Programa Especial de Regularização Tributária segue para a Câmara. Brasília, BR.

BANCO CENTRAL DO BRASIL. (2022a). Estatísticas do setor externo. Nota para a imprensa - 29/04/2022.

________. (2022b). Taxa Selic.

BECKER, Dan. (2017a). How Models Work: The first step if you’re new to machine learning. Kaggle.

________. (2017b). Model Validation: Measure the performance of your model, so you can test and compare alternatives. Kaggle.

CALLEGARI-JACQUES, Sidia M. (2017). Bioestatística: princípios e aplicações. Porto Alegre, BR: Artmed.

FÁVERO, Luiz Paulo; BELFIORE, Patrícia. (2017). Manual de análise de dados. 1. ed. Rio de Janeiro, BR: Elsevier.

FUNDAÇÃO GETÚLIO VARGAS. (2022). IGP-M: Resultados 2022. FGV.

FURTADO, Paulo Augusto. (2022). Por que escolher Python?. In: Jornada Python: uma jornada imersiva na aplicabilidade de uma das mais poderosas linguagens de programação do mundo. Rio de Janeiro, BR: Brasport.

FREITAS, Gabriel Belmino. (2019). O uso de machine learning na modelagem da previsão de inflação: revisão bibliográfica. 42 f. Trabalho de Conclusão de Curso (Bacharelado em Ciências Econômicas) — Universidade de Brasília, Brasília, 2019.

GOOGLE. (2022). Conheça o Colab.

GRUS, Joel. (2016). Data Science do Zero. Traduzido por Welington Nascimento. Rio de Janeiro, BR: Alta Books.

INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. (2022a). IPCA - Índice Nacional de Preços ao Consumidor Amplo. Portal do Governo Brasileiro.

________. (2022b). Produto Interno Bruto - PIB. Portal do Governo Brasileiro.

________. (2022c). CONCLA - Comissão Nacional de Classificação.

KELLEHER, John D.; TIERNEY, Brendan. (2018). Data Science. The MIT Press essential knowledge series. Cambridge, US: The MIT Press.

KRUGMAN, Paul R; OBSTFELD, Maurice. (2005). Economia internacional: teoria e política. Tradutor técnico Eliezer Martins Diniz. São Paulo, BR: Pearson Addison Wesley.

MCKINNEY, Wes. (2010). Data structures for statistical computing in python, Proceedings of the 9th Python in Science Conference, Volume 445.

MINISTÉRIO DA ECONOMIA. (novembro, 2014). Cadastro Nacional de Atividades Econômicas – CNAE.

MOREIRA, J. M.; CARVALHO, A.; HORVÁTH, T. (2018). A general introduction to data analytics. Hoboken, US: Wiley.

OLIVEIRA, B. (2021). Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção. 87 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás.

OZDEMIR, Sinan. (2016). Principles of data science. Birmingham, UK: Packt Publishing Ltd.

PARANHOS, R. et al. (2014). Desvendando os Mistérios do Coeficiente de Correlação de Pearson: o Retorno. Leviathan (São Paulo), (8), 66-95.


PEDREGOSA et al. (2011). Scikit-learn: Machine Learning in Python, Journal of Machine Learning Research 12, pp. 2825-2830.

PROCURADORIA-GERAL DA FAZENDA NACIONAL. (2021a). Nota SEI nº 29/2021/PGDAU-CDA-COAGED/PGDAU-CDA/PGDAU/PGFN-ME. Presta informações sobre a dívida ativa da União para compor o anexo de riscos fiscais. Ministério da Economia.

________. (2021b). Nota SEI nº 7/2022/PGDAU-CDA-COAGED/PGDAU-CDA/PGDAU/PGFN-ME. Boletim de Acompanhamento Gerencial - Edição Anual – 2021. Ministério da Economia.

________. (2021c). Nota Conjunta SEI nº 2/2021/PGDAU-CGR. Analisa os resultados alcançados pelas modalidades de transação da dívida ativa da União e da transação do contencioso de pequeno valor. Ministério da Economia.

SANTOS, Gustavo Carvalho. (2020). Algoritmos de Machine Learning para previsão da B3. 90 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal de Uberlândia, Uberlândia.


ZHANG, Z. et. al. (julho, 2021). GBDT-MO: Gradient-Boosted Decision Trees for Multiple Outputs in IEEE Transactions on Neural Networks and Learning Systems, vol. 32, no. 7, pp. 3156-3167.





Ciência de Dados na Administração Pública: Desafios e Oportunidades

How to Cite

Estimating the Union’s Active Debt Revenues with Machine Learning: An analysis based on tax revenues data from 2015 to 2021. Revista da CGU, [S. l.], v. 14, n. 26, 2022. DOI: 10.36428/revistadacgu.v14i26.529. Disponível em: Acesso em: 3 jul. 2024.

Similar Articles

1-10 of 41

You may also start an advanced similarity search for this article.