Identificação de correlações entre parâmetros de qualidade da água no ponto de captação do Lago Paranoá, usando Análise de Componentes Principais (PCA)

ISBN 978-85-85905-15-6

Área

Ambiental

Autores

Pinke, C. (UNIVERSIDADE DE BRASÍLIA) ; Sodré, F. (UNIVERSIDADE DE BRASÍLIA)

Resumo

A Análise de Componentes Principais (PCA) foi utilizada para evidenciar a correlação entre parâmetros analíticos de naturezas diversas, considerando a área de estudo onde será a futura captação do Lago Paranoá (Brasília, DF), em três profundidades. A partir de 23 variáveis foram elaboradas 3 componentes principais, que explicaram 80,0% da variância, com baixos resíduos e sem outliers. O estudo sugeriu que uma das profundidades avaliada não agrega informações relevantes, podendo ser substituída por outra mais conveniente.

Palavras chaves

PCA; ÁGUA BRUTA; ANÁLISES QUÍMICAS

Introdução

A interpretação de resultados analíticos em monitoramentos da qualidade contendo muitas variáveis de naturezas diversas é complexa (1,2), e não raro é necessária maior confiabilidade tanto para a aceitação de resultados que se encontram fora da faixa da série histórica, quanto para a rejeição de valores que possam ser fruto de erro experimental, principalmente quando não há um histórico de valores para comparação. Para facilitar esse tipo de interpretação, é necessário avaliar quais variáveis estão correlacionadas, de maneira a segmentar a análise crítica, verificando a coerência de cada parâmetro em seu grupo. Nesse contexto, a Análise de Componentes Principais (PCA) é particularmente interessante como ferramenta de tratamento estatístico multidimensional (3), pois permite identificar de maneira prática e confiável as informações relevantes, a partir da organização do conjunto de dados original em grupos distintos. Esses grupos são chamados de componentes principais, e consistem da decomposição do conjunto de dados inicial (matriz principal) em matrizes elaboradas a partir do produto entre os vetores escores (scores) e pesos (loadings), não mais passíveis de redução. As variáveis de uma mesma componente principal encontram-se correlacionadas entre si, enquanto as variáveis em componentes principais diferentes não se correlacionam. Graficamente, os eixos das componentes principais coincidem com as direções de maior variabilidade, e são perpendiculares entre si. Pelo fato de determinar não apenas os grupos de variáveis correlacionadas, mas também os pesos de cada uma nas componentes principais, a PCA é um método que vai além da simples classificação(4), em comparação com os dendrogramas. A área de estudo foi restrita ao futuro ponto de captação de água para tratamento no Lago Paranoá (Brasília, DF), nas profundidades de 1, 5 e 10m da superfície, entre janeiro de 2012 e dezembro de 2014, tendo sido considerados os resultados das análises físicas, químicas e biológicas para composição da matriz principal. Portanto, o objetivo deste estudo é avaliar a aplicabilidade da Análise de Componentes Principais na análise crítica de dados de qualidade da água, de maneira a determinar o mínimo de componentes principais que possam explicar o máximo possível da variância, e avaliar a influência exercida pelas profundidades onde as amostras foram coletadas nos resultados obtidos.

Material e métodos

A primeira etapa do trabalho foi o seguinte tratamento dos dados brutos: Substituição dos resultados registrados como abaixo do limite de quantificação por zero; substituição dos resultados de “Densidade de Fitoplâncton” pelo seu logaritmo em base 10 (a correção por escalamento não se mostrou eficiente para esse caso); cálculo dos valores médios de cada parâmetro para cada ano (para evitar o descarte ou a complementação de dados faltantes, além da capacidade de complementação do software). Para a análise de componentes principais, utilizou-se o software THE UNSCRAMBLER ® versão 10.3.31813.89. Os parâmetros adotados foram: Matriz escalada por desvio-padrão; entradas do modelo: identificar outliers, centrar os dados na média; pesos: todos 1,00; validação: validação cruzada; rotação: nenhuma; algoritmo: SVD; número de amostras de calibração usadas: 9. As variáveis empregadas foram: Alumínio dissolvido, mg/L; Bário, mg/L; Cloretos, mg/L; Clorofila-A, ug/L; Condutividade, uS/cm; Cor verdadeira, uH; log DTFito: Logaritmo na base 10 da densidade de fitoplâncton (Indivíduos/L); Densidade de bactérias E. Coli, NMP/100mL; Ferro total, mg/L; Fluoreto, mg/L; Nitrato como nitrogênio, mg/L; Nitrito como nitrogênio, mg/L; Amônia como nitrogênio, mg/L; Concentração de oxigênio dissolvido, mg/L; pH; Sólidos dissolvidos totais, mg/L; Sulfato, mg/L; Temperatura da água, ºC; Turbidez, NTU; Dados pluviométricos da estação ETE Norte, código 01547009, mm; Dados pluviométricos da estação ETE Sul, código 01547008, mm.

Resultado e discussão

Após a configuração das condições, obteve-se os resultados utilizando-se inicialmente cinco componentes principais, plotando-se as componentes duas a duas, em gráficos bidimensionais. Embora a visão do gráfico em duas dimensões tenha ficado bastante interessante, inclusive com baixos resíduos e sem outliers, a variância total explicada foi de apenas 63%, considerando o somatório da variância em PC1 (45%) e PC2 (18%). Como o mínimo de confiabilidade estabelecido pelo software é de 70 a 80% da variância explicada, decidiu-se plotar o gráfico usando gráficos tridimensionais, com três componentes principais. Mesmo com uma visualização mais difícil, esse foi o gráfico escolhido para a interpretação, já que a variância explicada melhorou para 80%, apresentando um refinamento sensível das informações. Observou-se no gráfico de escores que houve a formação de três agrupamentos, dois deles formados pelas amostras de 2012, e um formado pelas amostras coletadas em 2013 e 2014. Ou seja, em 2012 houve uma grande variância entre o grupo de amostras coletadas nas profundidades 1 e 5m, e o grupo de amostras coletadas a 10m. Nesse contexto, as informações fornecidas pelas amostras de menor profundidade foram redundantes, enquanto as informações obtidas das amostras a 10m foram relevantes, com relação ao grupo de amostras coletadas em 1 e 5m. Essa informação coincide com a do gráfico bi-dimensional. Vale ressaltar que em 2012 a coleta de amostras para análise do maior número de parâmetros foi efetuada apenas no período chuvoso para as profundidades de 1 e 5m (outubro). Para a profundidade de 10m em 2012 essas coletas foram efetuadas no período seco e chuvoso (julho e outubro). Embora tenham sido classificadas no mesmo agrupamento, as amostras coletadas em 2013 e 2014 apresentaram comportamento digno de nota: Em 2013, as amostras coletadas em 1 e 5m apresentaram elevada correlação, o que indica redundância entre elas. As amostras a 10m apresentaram-se mais distantes, indicando maior relevância no tipo de informação fornecida a essa profundidade. Esse panorama também é condizente com o avaliado no gráfico bi-dimensional. As coletas de amostras para análise do maior número de parâmetros foram efetuadas no período seco e chuvoso (março e setembro); para 2014, verificou-se um comportamento diverso do apresentado no gráfico bi- dimensional, e também diverso dos demais períodos analisados: as amostras a 1 e 10m foram correlacionadas, enquanto as amostras a 5m apresentaram-se mais distantes. As coletas de amostras para análise do maior número de parâmetros foram efetuadas em março e agosto. De acordo com os dados pluviométricos, em agosto a chuva ainda não havia começado, daí a causa da distorção observada. Como esse grupo está relacionado ao grupo da pluviometria, a distorção é consistente com a correlação efetuada pelo programa; No gráfico de pesos observou-se a formação das componentes principais, com as seguintes características: PC1: explicou 45% da variância, correlacionando as variáveis diretamente relacionados com a chuva (pluviometria nas estações Norte e Sul, cor, turbidez, e oxigênio dissolvido), os parâmetros biológicos (densidade de fitoplâncton, clorofila-A, E.coli) e alguns elementos inorgânicos, passíveis de serem carreados para o corpo hídrico por meio dos sedimentos (alumínio, arsênio, chumbo e ferro). Esses parâmetros influenciaram significativamente o grupo de amostras coletado em 2013 e 2014; PC2: explicou 18% da variância, correlacionando o pH, a temperatura da água, a condutividade/ sólidos dissolvidos totais (SDT), e a concentração de alguns ânions, como cloreto, sulfato e fluoreto. Esses parâmetros influenciaram significativamente as amostras coletadas em 2012, nas profundidades de 1 e 5m; PC3: explicou 17% da variância, correlacionando a série nitrogenada (amônia, nitrito e nitrato) e o bário, parâmetros característicos do aporte de águas residuárias. As amostras coletadas na profundidade de 10m, em 2012, foram significativamente influenciadas por esses parâmetros.

Conclusões

O método de análise de componentes principais mostrou-se satisfatoriamente aplicável para a identificação de correlações em uma série histórica de dados físicos, químicos e biológicos, uma vez que: A partir dos 23 parâmetros iniciais, foram elaboradas 3 componentes principais, que explicam 80,0% da variância. As correlações entre parâmetros de naturezas diversas foram evidenciadas com consistência, ainda que a matriz original não apresentasse uma malha refinada de dados (uso de médias anuais), e que os dados para calibração fossem escassos (apenas 9 dados); Indicou que as profundidades de 1 e 10m fornecem informações relevantes para o monitoramento, e que as informações obtidas no ponto a 5m são redundantes, em relação ao ponto a 1m, nos anos de 2012 e 2013. A PCA efetuada detectou com precisão a anomalia de coleta em 2014, em que as duas principais campanhas foram efetuadas no período seco, registrando uma discrepância no comportamento em relação aos anos de 2012 e 2013 com relação à variância nas profundidades; Foi evidenciada a importância de se avaliar o número de componentes principais suficientes para a adequada confiabilidade no processo. Isto é, fundamentando-se a análise do gráfico em apenas duas dimensões (2 componentes principais, com 63% da variância), não foi possível detectar a discrepância das profundidades em 2014, e a componente principal parecia estar dividida em dois grupos (no gráfico biplot visualiza-se o grupo de profundidades de 2013 entre dois grupos de variáveis). Plotar o gráfico em 3 dimensões, aumentando a variância explicada para 80%, possibilitou a melhor organização tanto dos escores quanto dos pesos, levando a interpretações mais fundamentadas e coerentes; Os resíduos do modelo foram baixos, com relação à influência e aos residuais dos testes F e Q. Não foram detectados outliers, que pudessem influenciar na resposta do modelo.

Agradecimentos

Os autores agradecem à CAESB – Cia. de Saneamento Ambiental do Distrito Federal, pelos dados cedidos.

Referências

1. Portaria MS 2914/2011.
2. Resolução CONAMA 357/2005.
3. PARINET, B.; LHOTE, A.; LEGUBE, B.; Principal Components analysis: An appropriate tool for water quality evaluation and management application to a tropical lake system. Ecological Modelling, nº 178, 295-311, 2004.
4. NAPOLEÃO, D. C.; SOUZA, D. P.; SILVA, A. M. R. B; SILVA, P. T. S; SILVA, V. L.; Anais do 26º Congresso Brasileiro de Engenharia Sanitária e Ambiental 2013.
6. The Unscrambler® X Versão 10.3.31813.89; CAMO Software AS, Oslo, Noruega, 2013.

Patrocinadores

CAPES CNPQ Allcrom Perkin Elmer Proex Wiley

Apoio

CRQ GOIÁS UFG PUC GOIÁS Instituto Federal de Educação, Ciência e Tecnologia - Goiás UEG Centro Universitário de Goiás - Uni-ANHANGUERA SINDICATO DOS TRABALHADORES TÉCNICO-ADMINISTRATIVOS EM EDUCAÇÃO BIOCAP - Laboratório Instituto Federal Goiano

Realização

ABQ ABQ Goiás