Details

Multi-tier framework for the inferential measurement and data-driven modeling

by Rallo Moya, Robert

Abstract (Summary)
En esta tesis se propone un marco de trabajo multinivel para el modelado basado en datos y el desarrollo de sistemas inferenciales de medida. La arquitectura del marco de trabajo se organiza en capas con la finalidad de garantizar su extensibilidad así como la integración de nuevos componentes. Cada uno de los niveles propuestos ha sido evaluado de manera independiente para verificar su funcionalidad. El primer nivel, correspondiente al análisis exploratorio de datos, ha sido evaluado mediante la caracterización del espacio químico correspondiente a la biodegradación en diversos medios de ciertas familias de compuestos orgánicos. En el segundo nivel, correspondiente al pre-proceso de datos, se han propuesto y evaluado nuevas técnicas para la selección de variables mediante el uso de medidas de disimilitud entre mapas auto-organizados (SOM). También se ha explorado el uso del SOM como sistema de imputación de datos. El mecanismo de imputación ha sido evaluado con datos correspondientes a la operación de una planta de tratamiento de aguas residuales mediante el desarrollo de modelos de predicción de la calidad del efluente a partir de registros históricos incompletos de parámetros de operación. En el tercer nivel del marco de trabajo se incide en el desarrollo de modelos, tanto predictivos como de clasificación. Se propone una nueva técnica para el desarrollo de redes de funciones de base radial que permite ajustar dinámicamente el número de funciones, así como los centros y el radio. El componente de modelado se evalúa mediante el desarrollo de modelos cualitativos y cuantitativos de predicción de la biodegradación de compuestos orgánicos. Finalmente, el cuarto nivel se ocupa de la interpretación de la información contenida en los modelos. Se usan diagramas bayesianos de dependencia y sistemas de generación de reglas para extraer el conocimiento contenido en los modelos. Esta capa se evalúa mediante la caracterización y modelado de los Modos de Acción tóxica (MoA) para diversos compuestos. A partir de los MoA se extrapolan los efectos en la salud mediante el establecimiento de relaciones causa-efecto con las Frases de Riesgo de cada compuesto. El mecanismo propuesto se usa también para caracterizar ciertos escenarios relacionados con enfermedades respiratorias y cáncer. A modo de conclusión, se evalúa el marco de trabajo completo en tres ámbitos de aplicación. En primer lugar se aborda el desarrollo de un sensor virtual para estimar el índice de fluidez en polietileno de baja densidad. El segundo dominio de aplicación corresponde al desarrollo de un modelo cuantitativo de relaciones estructura-actividad (QSAR) para la predicción de las propiedades carcinogénicas de una familia de compuestos aromáticos con sustituyentes nitrogenados. El tercer dominio de aplicación corresponde a un problema de modelado ambiental en el que se aborda el análisis de riesgo de contaminación por nitratos en aguas subterráneas. Summary A framework for the inferential measurement and data-driven modeling has been proposed and assessed in several real-world application domains. The architecture of the framework has been structured in multiple tiers to facilitate extensibility and the integration of new components. Each of the proposed four tiers has been assessed in an uncoupled way to verify their suitability. The first tier, dealing with exploratory data analysis, has been assessed with the characterization of the chemical space related to the biodegradation of organic chemicals. This analysis has established relationships between physicochemical variables and biodegradation rates that have been used for model development. At the preprocessing level, a novel method for feature selection based on dissimilarity measures between Self-Organizing maps (SOM) has been developed and assessed. The proposed method selected more features than others published in literature but leads to models with improved predictive power. Single and multiple data imputation techniques based on the SOM have also been used to recover missing data in a Waste Water Treatment Plant benchmark. A new dynamic method to adjust the centers and widths of in Radial basis Function networks has been proposed to predict water quality. The proposed method outperformed other neural networks. The proposed modeling components have also been assessed in the development of prediction and classification models for biodegradation rates in different media. The results obtained proved the suitability of this approach to develop data-driven models when the complex dynamics of the process prevents the formulation of mechanistic models. The use of rule generation algorithms and Bayesian dependency models has been preliminary screened to provide the framework with interpretation capabilities. Preliminary results obtained from the classification of Modes of Toxic Action (MOA) indicate that this could be a promising approach to use MOAs as proxy indicators of human health effects of chemicals. Finally, the complete framework has been applied to three different modeling scenarios. A virtual sensor system, capable of inferring product quality indices from primary process variables has been developed and assessed. The system was integrated with the control system in a real chemical plant outperforming multi-linear correlation models usually adopted by chemical manufacturers. A model to predict carcinogenicity from molecular structure for a set of aromatic compounds has been developed and tested. Results obtained after the application of the SOM-dissimilarity feature selection method yielded better results than models published in the literature. Finally, the framework has been used to facilitate a new approach for environmental modeling and risk management within geographical information systems (GIS). The SOM has been successfully used to characterize exposure scenarios and to provide estimations of missing data through geographic interpolation. The combination of SOM and Gaussian Mixture models facilitated the formulation of a new probabilistic risk assessment approach. Resum Aquesta tesi proposa i avalua en diverses aplicacions reals, un marc general de treball per al desenvolupament de sistemes de mesurament inferencial i de modelat basats en dades. Larquitectura daquest marc de treball sorganitza en diverses capes que faciliten la seva extensibilitat així com la integració de nous components. Cadascun dels quatre nivells en que sestructura la proposta de marc de treball ha estat avaluat de forma independent per a verificar la seva funcionalitat. El primer que nivell socupa de lanàlisi exploratòria de dades ha esta avaluat a partir de la caracterització de lespai químic corresponent a la biodegradació de certs compostos orgànics. Fruit daquest anàlisi shan establert relacions entre diverses variables físico-químiques que han estat emprades posteriorment per al desenvolupament de models de biodegradació. A nivell del preprocés de les dades sha desenvolupat i avaluat una nova metodologia per a la selecció de variables basada en lús del Mapes Autoorganitzats (SOM). Tot i que el mètode proposat selecciona, en general, un major nombre de variables que altres mètodes proposats a la literatura, els models resultants mostren una millor capacitat predictiva. Shan avaluat també tot un conjunt de tècniques dimputació de dades basades en el SOM amb un conjunt de dades estàndard corresponent als paràmetres doperació duna planta de tractament daigües residuals. Es proposa i avalua en un problema de predicció de qualitat en aigua un nou model dinàmic per a ajustar el centre i la dispersió en xarxes de funcions de base radial. El mètode proposat millora els resultats obtinguts amb altres arquitectures neuronals. Els components de modelat proposat shan aplicat també al desenvolupament de models predictius i de classificació de les velocitats de biodegradació de compostos orgànics en diferents medis. Els resultats obtinguts demostren la viabilitat daquesta aproximació per a desenvolupar models basats en dades en aquells casos en els que la complexitat de dinàmica del procés impedeix formular models mecanicistes. Sha dut a terme un estudi preliminar de lús de algorismes de generació de regles i de grafs de dependència bayesiana per a introduir una nova capa que faciliti la interpretació dels models. Els resultats preliminars obtinguts a partir de la classificació dels Modes dacció Tòxica (MOA) apunten a que lús dels MOA com a indicadors intermediaris dels efectes dels compostos químics en la salut és una aproximació factible. Finalment, el marc de treball proposat sha aplicat en tres escenaris de modelat diferents. En primer lloc, sha desenvolupat i avaluat un sensor virtual capaç dinferir índexs de qualitat a partir de variables primàries de procés. El sensor resultant ha estat implementat en una planta química real millorant els resultats de les correlacions multilineals emprades habitualment. Sha desenvolupat i avaluat un model per a predir els efectes carcinògens dun grup de compostos aromàtics a partir de la seva estructura molecular. Els resultats obtinguts desprès daplicar el mètode de selecció de variables basat en el SOM milloren els resultats prèviament publicats. Aquest marc de treball sha usat també per a proporcionar una nova aproximació al modelat ambiental i lanàlisi de risc amb sistemes dinformació geogràfica (GIS). Sha usat el SOM per a caracteritzar escenaris dexposició i per a desenvolupar un nou mètode dinterpolació geogràfica. La combinació del SOM amb els models de mescla de gaussianes dona una nova formulació al problema de lanàlisi de risc des dun punt de vista probabilístic.
Bibliographical Information:

Advisor:Ferré-Giné; Joan M.; Giralt Prat; Francesc

School:Universitat Rovira i Virgili

School Location:Spain

Source Type:Master's Thesis

Keywords:departament d enginyeria química

ISBN:

Date of Publication:07/13/2007

© 2009 OpenThesis.org. All Rights Reserved.