Estimating the Union's Active Debt Revenues with Machine Learning
An analysis based on tax revenues data from 2015 to 2021
DOI:
https://doi.org/10.36428/revistadacgu.v14i26.529Keywords:
Active debt, Tax Collection, Budget, Machine Learning, Data ScienceAbstract
As the entity responsible for collecting the Active Debt of the Union, the Attorney General's Office of the National Treasury must present, at the end of each fiscal year, the results achieved and the collection forecasts for the following year for the composition of forthcoming Budget Laws. Currently, this estimate is made using the exponential smoothing technique, which considers past income to project future revenue. This article seeks to evaluate the application of machine learning algorithms in the elaboration of these projections, as a means of improving management. Linear Regression, Decision Tree, Random Forest and Gradient Boosting Decision Tree algorithms were tested. The models were fed with information from the macroeconomic indicators IPCA, IGP-M, GDP, Exchange rate and SELIC rate, as well as data on exceptional installments and tax transactions made available to taxpayers by the National Treasury.
Downloads
References
AGÊNCIA SENADO. (2021). Projeto que reabre prazo para o Programa Especial de Regularização Tributária segue para a Câmara. Brasília, BR.
BANCO CENTRAL DO BRASIL. (2022a). Estatísticas do setor externo. Nota para a imprensa - 29/04/2022.
https://www.bcb.gov.br/estatisticas/estatisticassetorexterno
________. (2022b). Taxa Selic.
https://www.bcb.gov.br/controleinflacao/taxaselic
BECKER, Dan. (2017a). How Models Work: The first step if you’re new to machine learning. Kaggle.
https://www.kaggle.com/code/dansbecker/how-models-work
________. (2017b). Model Validation: Measure the performance of your model, so you can test and compare alternatives. Kaggle.
https://www.kaggle.com/code/dansbecker/model-validation
CALLEGARI-JACQUES, Sidia M. (2017). Bioestatística: princípios e aplicações. Porto Alegre, BR: Artmed.
FÁVERO, Luiz Paulo; BELFIORE, Patrícia. (2017). Manual de análise de dados. 1. ed. Rio de Janeiro, BR: Elsevier.
FUNDAÇÃO GETÚLIO VARGAS. (2022). IGP-M: Resultados 2022. FGV.
https://portal.fgv.br/noticias/igpm-resultados-2022
FURTADO, Paulo Augusto. (2022). Por que escolher Python?. In: Jornada Python: uma jornada imersiva na aplicabilidade de uma das mais poderosas linguagens de programação do mundo. Rio de Janeiro, BR: Brasport.
FREITAS, Gabriel Belmino. (2019). O uso de machine learning na modelagem da previsão de inflação: revisão bibliográfica. 42 f. Trabalho de Conclusão de Curso (Bacharelado em Ciências Econômicas) — Universidade de Brasília, Brasília, 2019.
https://bdm.unb.br/handle/10483/25328
GOOGLE. (2022). Conheça o Colab.
https://colab.research.google.com/?utm_source=scs-index#scrollTo=OwuxHmxllTwN
GRUS, Joel. (2016). Data Science do Zero. Traduzido por Welington Nascimento. Rio de Janeiro, BR: Alta Books.
INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA. (2022a). IPCA - Índice Nacional de Preços ao Consumidor Amplo. Portal do Governo Brasileiro.
________. (2022b). Produto Interno Bruto - PIB. Portal do Governo Brasileiro.
https://www.ibge.gov.br/explica/pib.php
________. (2022c). CONCLA - Comissão Nacional de Classificação.
https://cnae.ibge.gov.br/?view=estrutura&tipo=cnae&versao_classe=7.0.0&versao_subclasse=9.1.0
KELLEHER, John D.; TIERNEY, Brendan. (2018). Data Science. The MIT Press essential knowledge series. Cambridge, US: The MIT Press.
KRUGMAN, Paul R; OBSTFELD, Maurice. (2005). Economia internacional: teoria e política. Tradutor técnico Eliezer Martins Diniz. São Paulo, BR: Pearson Addison Wesley.
MCKINNEY, Wes. (2010). Data structures for statistical computing in python, Proceedings of the 9th Python in Science Conference, Volume 445.
https://conference.scipy.org/proceedings/scipy2010/pdfs/mckinney.pdf
MINISTÉRIO DA ECONOMIA. (novembro, 2014). Cadastro Nacional de Atividades Econômicas – CNAE.
MOREIRA, J. M.; CARVALHO, A.; HORVÁTH, T. (2018). A general introduction to data analytics. Hoboken, US: Wiley.
OLIVEIRA, B. (2021). Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção. 87 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás.
http://repositorio.bc.ufg.br/tede/handle/tede/11522
OZDEMIR, Sinan. (2016). Principles of data science. Birmingham, UK: Packt Publishing Ltd.
PARANHOS, R. et al. (2014). Desvendando os Mistérios do Coeficiente de Correlação de Pearson: o Retorno. Leviathan (São Paulo), (8), 66-95.
DOI: https://doi.org/10.11606/issn.2237-4485.lev.2014.132346
PEDREGOSA et al. (2011). Scikit-learn: Machine Learning in Python, Journal of Machine Learning Research 12, pp. 2825-2830.
https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html
PROCURADORIA-GERAL DA FAZENDA NACIONAL. (2021a). Nota SEI nº 29/2021/PGDAU-CDA-COAGED/PGDAU-CDA/PGDAU/PGFN-ME. Presta informações sobre a dívida ativa da União para compor o anexo de riscos fiscais. Ministério da Economia.
________. (2021b). Nota SEI nº 7/2022/PGDAU-CDA-COAGED/PGDAU-CDA/PGDAU/PGFN-ME. Boletim de Acompanhamento Gerencial - Edição Anual – 2021. Ministério da Economia.
________. (2021c). Nota Conjunta SEI nº 2/2021/PGDAU-CGR. Analisa os resultados alcançados pelas modalidades de transação da dívida ativa da União e da transação do contencioso de pequeno valor. Ministério da Economia.
SANTOS, Gustavo Carvalho. (2020). Algoritmos de Machine Learning para previsão da B3. 90 f. Dissertação (Mestrado em Engenharia Elétrica) - Universidade Federal de Uberlândia, Uberlândia.
DOI https://doi.org/10.14393/ufu.di.2020.640
ZHANG, Z. et. al. (julho, 2021). GBDT-MO: Gradient-Boosted Decision Trees for Multiple Outputs in IEEE Transactions on Neural Networks and Learning Systems, vol. 32, no. 7, pp. 3156-3167.
Downloads
Published
Issue
Section
License
Copyright (c) 2022 Revista da CGU

This work is licensed under a Creative Commons Attribution 4.0 International License.
The Revista da CGU follows the Creative Commons Attribution 4.0 International License (CC BY), which allows the use and sharing of published works with mandatory indication of authors and sources. Contents published until 2019 have generic permission for use and sharing with mandatory indication of authorship and source.
We highlight some essential and non-exhaustive points related:
- The submission of the proposal implies a commitment not to submit it to another journal and authorizes if approved, its publication.
- The submission of the proposal also implies that the author(s) agrees with the publication, without resulting in remuneration, reimbursement, or compensation of any kind.
- The published texts are the responsibility of the authors and do not necessarily represent the opinion of the journal.
- Responsibility for any plagiarism is the responsibility of the author(s).
- The person responsible for the submission declares, under the penalties of the Law, that the information on the authorship of the work is complete and correct.
Also highlighted are the items related to our Editorial Policies, in particular on the Focus and Scope, Publication Ethics, Peer Review Process, and Open Access Policy.
