Análise uni e multivariada de dados empregando um software gratuito, executável e user friendly

ÁREA

Química Analítica


Autores

Antonio, D.C. (INSTITIUTO FEDERAL DE RONDÔNIA (IFRO))


RESUMO

Softwares user-friendly, ou seja, programas fáceis de serem utilizados com comandos intuitivos, que possibilitem o tratamento de dados, são de grande interesse para estudantes, profissionais e pesquisadores, uma vez, que a aquisição desses é inerente a procedimentos experimentais. Entretanto, alguns programas requerem conhecimento prévio de linguagem computacional e/ou são pagos. Assim, o objetivo desse trabalho é apresentar uma aplicação direta do PAleontological STatistics (PAST), um software gratuito, executável e user friendly, para o tratamento uni e multivariado de dados.


Palavras Chaves

tratamento de dados; software user-friendly; PAST

Introdução

Graças à automação, o volume de dados tem crescido consideravelmente nos últimos anos. Ferramentas e programas para tratamento destes dados são inúmeros, desde análises uni variadas simples à multivariadas mais complexas executadas por programas pagos como o pacote Excel e o MATLAB e programas gratuitos como Python e R. Tendo como vantagem serem gratuitos e livres, ou seja, possibilitam a modificação de códigos, estes programas requerem que o usuário tem certa familiaridade com linguagem de programação. Dentre os softwares gratuitos, o Estatísticas Paleontológicas, do inglês, PAleontological STatistics (PAST), é uma alternativa extremamente promissora. O PAST foi criado por Ryan e colaboradores em 1995 visando a análise de dados paleontológicos (Hammer; Harper & Ryan, 2001). Devido a sua funcionalidade diversa, o PAST tem sido empregado para o tratamento de dados obtidos em áreas como ambiental, biológicas e química (Sarathi et al., 2023; Fomina & Fomin, 2020; Al-Robai et al., 2017; Kumar, Kaur & Banga, 2012). Visando apresentar algumas funções matemáticas disponíveis no PAST e despertar o interesse da comunidade científica para esse programa, este trabalho traz uma análise uni e multivariada de dados meteorológicos da cidade de Cacoal/RO disponíveis na base de dados do Instituto Nacional de Meteorologia (INMET).


Material e métodos

Inicialmente, o software PAST foi adquirido na página oficial do programa (NHM, 2023). Os dados meteorológicos foram escolhidos devido ao INMET se tratar de um instituto nacional vinculado ao Ministério da Agricultura e Pecuária (Mapa) garantindo, assim, confiabilidade e rastreabilidade das informações disponíveis. Foram selecionados dados coletados entre janeiro e junho de 2023 para a cidade de Cacoal – Rondônia, uma vez que a autora está alocada no Instituto Federal de Rondônia - campus Cacoal. Dentre as 17 variáveis climáticas monitoradas, foram selecionadas sete: precipitação total (ppt, mm), pressão atmosférica ao nível da estação (P.A., mB), temperatura do ar (ºC), temperatura máxima (ºC), temperatura mínima (ºC), umidade relativa do ar (%) e velocidade horária do vento (m/s). Por se tratar de variáveis em escalas distintas, foi realizado um pré-processamento dos dados, ou seja, operações matemáticas realizadas antes dos cálculos visando remover possíveis tendências, ruídos ou variações que enviesem os dados que poderiam levar a conclusões incorretas. Foram calculadas as médias, medianas, máximo e mínimos por meio da função Summary statistics do programa. Para melhor visualização dos dados, foram plotados box-plots por meio da função Plot do programa. Finalmente, a Análise de Componentes Principais (do inglês, Principal Component Analysis, PCA) foi realizada com os dados após pré-processamento por meio da função Multivariate/Ordination. A Figura 1 apresenta a interface e os principais comandos utilizados. Figura 1: a) Comando Transform possibilita o pré-processamento dos dados, b) Comando Plot apresenta opções de visualização gráfica dos dados, c) Comando Univariate apresenta ferramentas univariadas para o tratamento dos dados e d) Comando Multivariate apresenta ferramentas multivariadas para o tratamento dos dados.


Resultado e discussão

A Figura 2a apresenta o quadro de Summary Statistics com valores de mínimo, média, mediana, máximo, desvio padrão, variância dentre outros. Desta análise, podemos concluir, por exemplo, que no período selecionado, foram coletados 940 pontos, N, a precipitação total variou de 0,0 a 12,8 mm com média de 0,04 mm e desvio padrão de 0,58 mm. As Figuras 2b e 2c apresentam os box-plots para as variáveis selecionadas. O PAST possibilita a edição do gráfico de forma intuitiva, modificando, por exemplo, a escala dos eixos, fonte, tamanho e a escala de cores. Gráficos do tipo box-plot permitem a visualização da média e/ou mediana, faixa de dispersão dos dados e de dados anômalos, outliers. A umidade relativa do ar, por exemplo, foi a variável que apresentou maior dispersão dos dados explicitado pelo comprimento das caixas na Figura 2c, por exemplo. As Figuras 2d, 2e e 2f apresentam parâmetros da análise multivariada selecionada. O número de componentes principais, CPs ou PCs, do inglês, Principal Components, pode ser selecionado por meio da relação PC x variância explicada. Neste caso, as três primeiras componentes explicam cerca de 92% da variância total dos dados,Figura 2d, assim, um modelo com três PCs foi selecionado. As variáveis do conjunto de dados são representadas pelos pesos, do inglês, loadings, Figura 2e. Em PC1, por exemplo, as variáveis: precipitação total, P.A. e umidade relativa do ar são claramente separadas das demais, uma vez, que as citadas apresentam loadings negativos. Essa separação é coerente com a natureza das variáveis, dado sua relação direta ou indireta com a água. Finalmente, não foi possível observar nenhuma discriminação clara entre as amostras ou, neste caso, nos dados de monitoramento climático, Figura 2f.

Figura 1

Figura 1: a) Comando Transform, b) Comando Plot, c) \r\nComando Univariate e d) Comando Multivariate.

Figura 2

Figura 2: a) Summary Statistics, b) e c) Box-plots \r\nem escala distintas, d) Autovalores e variância \r\nexplicada e) Pesos da PCA e f) Biplots da PCA.

Conclusões

É inegável a necessidade de programas de fácil utilização para o tratamento de dados. Neste sentido, o PAST é uma alternativa promissora que apresenta diversas ferramentas matemáticas e interface amigável ao usuário. Visando explicitar algumas de suas funcionalidades, foram apresentados cálculos de média, mediana, desvio padrão, a visualização por meio de gráficos e a análise multivariada mais empregada atualmente, a PCA.


Agradecimentos

A autora é grata ao Instituto Federal de Rondônia (IFRO) campus Cacoal pelo auxílio financeiro para participação em capacitação.


Referências

Al-Robai, S.A.; Mohamed, H. A.; Howladar, S. M. & Ahmed, A.A. (2017) Vegetation structure and species diversity of Wadi Turbah Zahran, Albaha area, southwestern Saudi Arabia. Annals of Agricultural Sciences, vol. 62, pp. 61-69. https://doi.org/10.1016/j.aoas.2017.04.001
Fomina, T. I. & Fomin, E. S. (2020) Phenotypic intraspecific variability of Campanula altaica Ledeb. (Campanulaceae) in the Western Siberian forest steppe. Journal of Asia-Pacific Biodiversity, vol. 13, pp. 658-666. https://doi.org/10.1016/j.japb.2020.06.011
INMET (2023) Disponível em < https://portal.inmet.gov.br/dadoshistoricos > Acessado em 01 jul. 2023.
Kumar,H.; Kaur, G. & Banga, S. (2012) Molecular Characterization and Assessment of Genetic Diversity in Sesame (Sesamum indicum L.) Germplasm Collection Using ISSR Markers. Journal of Crop Improvement, vol. 26, pp. 540-557. https://doi.org/10.1080/15427528.2012.660563
Sarathi, S, Behera, B, Mahapatra, A, Mohapatra, S, Jena, J & Nayak, S. (2023) Microbiological Characterization and Clinical Facets of Elizabethkingia Bloodstream Infections in a Tertiary Care Hospital of Eastern India. Infection and Drug Resistance, vol.16, pp. 3257-3267. https://doi.org/10.2147/IDR.S409121

Hammer Ø., Harper D. A. T. & Ryan P. D. (2001) PAST : Paleontological Statistics Software Package for Education and Data Analysis. Palaeontologia Electronica, vol., 4 , pp. 1–9.

PATROCINADORES

CFQ PERKINELMER ACMA LABS BLUCHER SEBRAE CRQ XV CAMISETA FEITA DE PET LUCK RECEPTIVO

APOIO

UFRN UFERSA IFRN PPGQ IQ-UFRN Governo do Estado do Rio Grande do Norte Natal Convention Bureau Nexa RN