SELEÇÃO DE AMOSTRA BASEADO NO ALGORITMO DAS PROJEÇÕES SUCESSIVAS

ISBN 978-85-85905-21-7

Área

Iniciação Científica

Autores

Araújo, A. (UNIFESSPA) ; Marinho, W. (UNIFESSPA) ; Gomes, A.A. (UNIFESSPA)

Resumo

O uso de um conjunto de amostras representativas na etapa de calibração é um ponto chave para obtenção de modelos com elevada capacidade preditiva. Neste contexto este trabalho reporta o desenvolvimento de uma nova estratégia de seleção de amostras baseada no algoritmo das projeções sucessivas para partição de conjuntos de amostras. O método proposto, denominado de SS-SPA, foi desenvolvido em ambiente MatLab e avaliado em um estudo de caso envolvendo a determinação do teor de biodiesel em diesel por espectrometria NIR e calibração por mínimos quadrados parciais (PLS). Em comparação com outras estratégias, o critério de seleção de amostras baseado em projeção de vetores, se mostrou eficaz, selecionando amostras representativas, levando resultados comparáveis a método consolidados.

Palavras chaves

seleção de amostras; modelos multivariados; biodiesel/diesel

Introdução

O sucesso de modelos multivariados passa, sem dúvida, pela qualidade das amostras que compões o conjunto de calibração/treinamento. O conjunto de amostras calibração/treinamento deve ser representativo o suficiente para garantir bons estimadores populacionais dos parâmetros do modelo e deve assegurar a modelagem de todo espaço amostral, afim de se evitar extrapolações na etapa de predição. Nos casos em que as amostras de calibração são misturas de padrões, é recorrente o uso de planejamentos experimentais para assegurar as caraterísticas citadas acima (BRERETON, 2017). Contudo, em muitas aplicações em calibração multivariada e em todos os casos que envolve classificações, amostras reais, que foram analisadas previamente por um método oficial e/ou de referência, são usadas para compor o conjunto de calibração. Neste contexto, assegurar representatividade das amostras não é uma tarefa trivial. Algumas alternativas são apresentadas na literatura para este propósito, como a seleção aleatória, algoritmo de Kernnard-Stone (KS), SPXY, DUPLEX (ZEAITER e RUTLEDGE, 2009). O Algoritmo das Projeções Sucessivas (SPA), proposto originalmente como estratégia de seleção de variáveis, foi usado na seleção de amostras para transferências de calibração via modelos de regressão linear múltipla (MLR). Neste trabalho, o SPA é caracterizado como método de partição de conjunto de amostras e comparado as principais estratégias descritas na literatura em um estudo de caso envolvendo a determinação do teor de biodiesel em diesel por espectrometria NIR e calibração por mínimos quadrados parciais (PLS).

Material e métodos

O algoritmo SPA para seleção de amostras, denominado de SS-SPA (Sample Selction – Successive Projetion Algorithm) foi implemento em ambiente MatLab. No método SS-SPA a vetor amostra de maior norma é usado como referência para as operações de projeções do SPA. Isto possibilita sequenciar as amostras conforme o valor das projeções no plano ortogonal a amostra de partida, possibilitando a partição do conjunto de amostras em calibração, validação e predição. A presente proposta foi avaliada em um estudo de caso envolvendo a determinação o teor de biodiesel em diesel empregando espectros registrados no infravermelho próximo. No total, 100 misturas BX foram preparadas, X variou de 5 a 50 (%v/v). Os espectros das misturas BX foram obtidos em triplicatas no intervalo de 750 a 2249 nm, com resolução de 1 nm, no entanto, o espectro médio foi utilizado na modelagem dos dados. A matriz de dados resultante é composta de 100 espectros registrados em 1500 de comprimento de onda. As medidas foram realizadas utilizando o espectrofotômetro modelo Perkin Elmer Lambda 750, equipado com célula de quartzo com 1 cm de caminho óptico, fonte de tungstênio, tubo fotomultiplicador R928 e Sistemas de detecção PbS. Os resultados referentes ao ajuste dos modelos PLS e a predição de um conjunto externo de amostras foram comparados a outros métodos de seleção de amostras (KS e seleção randômica).

Resultado e discussão

Na Figura 1a são apresentados os espectros brutos das cem amostras de BX, é possível observar uma variação sistemática de linha base e espalhamento. Estes inconvenientes presente nos dados foram corrigidos empregando a técnica SNV (Standard Normal Variate), os espectros resultantes são mostrados na Figura 1b. O conjunto de amostras foi particionado em calibração (50 amostras), validação (20 amostras) e predição (30 amostras) empregando seleção randômica, o algoritmo KS e o método propostos. Subsequente foram construídos modelos PLS para cada caso, sendo o número ótimo de variáveis latentes em cada modelo PLS, ajustado empregando o conjunto de validação externo. Na Tabela 1, é apresentado o resumo estatísticos do ajuste, validação e predição. Como pode ser observado pelos resultados do ajuste (RMSEC), todos os modelos PLS, baseados em diferentes estratégias de partição de conjuntos de amostras, mostraram ajuste satisfatórios (erro relativo menor que 5%). Sendo o maior valor de erro de ajuste associado ao método propostos, sugerindo que a estratégia de seleção de amostra proposta foi útil em selecionar um grupo de amostra mais complexo e representativo. Esta ideia é corroborada pelos erros da etapa de validação e predição. Em ambas as etapas os erros obtidos foram os menores, indicando que as amostras selecionadas pelo SS-SPA, para compor o conjunto de calibração, levam a um modelo PLS com maior capacidade preditiva.

Figura 1

Espectros NIR das misturas BX (a) bruto e corrigido (b) via SNV.

Tabela 1

Resumo estatístico ajuste/validação/predição

Conclusões

Neste trabalho foi apresentado uma nova proposta de algoritmo de seleção de amostra em calibração multivariada via algoritmo das projeções sucessivas. Quando comparados a estratégias consolidadas na literatura, o critério de seleção de amostras baseado em projeção de vetores se mostrou eficaz, selecionando amostras representativas levando resultados comparáveis ao KS e a seleção randômica.

Agradecimentos

PROPIT/Unifesspa e CNPq

Referências

BRERETON, R., Statistical experimental design. J. Chemom. v31,2017.

ZEAITERm M., RUTLEDGE, D., Preprocessing Methods - Comprehensive Chemometrics: Chemical and Biochemical Data Analysis. v3, p.123-179, 2009

Patrocinadores

Capes CNPQ Renner CRQ-V CFQ FAPERGS ADDITIVA SINDIQUIM LF EDITORIAL PERKIN ELMER PRÓ-ANÁLISE AGILENT NETZSCH FLORYBAL PROAMB WATERS UFRGS

Apoio

UNISC ULBRA UPF Instituto Federal Sul Rio Grandense Universidade FEEVALE PUC Universidade Federal de Pelotas UFPEL UFRGS SENAI TANAC FELLINI TURISMO Convention Visitors Bureau

Realização

ABQ ABQ Regional Rio Grande do Sul