Tecnologías inteligentes como el Text Mining, o minería de textos, suponen una importante innovación para sectores como la industria química y sus necesidades de extracción de información de la literatura científica.
La búsquedas de palabras clave tradicionales son a menudo limitadas, ya que sólo son capaces de recuperar documentos que contienen la palabra clave pre-especificada, siendo necesario que una persona revise los resultados y valore su relevancia. Esto hace que los científicos e investigadores actuales tengan un volumen exponencial de la información a su alcance, pero pueda ser muy difícil de extraer y analizar datos relevantes de la literatura científica.
Un software desarrollado por un consorcio de empresas húngaras y británicas utiliza algoritmos sofisticados para derivar información de alta calidad a partir de documentos y reconoce conceptos en lugar de palabras, patrones y correlaciones que destacan entre los grandes conjuntos de datos.
Aunque la minería de texto está bastante bien establecida en algunos campos como el desarrollo de fármacos, por ejemplo, no ha sido de mucha utilidad para el descubrimiento de nuevos compuestos. Esto se debe a que no puede entender cada parte independiente de los nombres químicos compuestos al analizarlos, lo que está previsto para estudios analíticos en profundidad. Esta brecha de conocimiento fue identificada hace algunos años por investigadores de Linguamatics en Cambridge y ChemAxon en Budapest. Las dos compañías ya habían integrado sus productos de software para permitir la minería de texto en los compuestos conocidos.
[youtube]https://www.youtube.com/watch?v=40QIW9Sr6Io[/youtube]
El proyecto ChiKEL se centró en el desarrollo de una plataforma de text mining interactiva dirigida a las necesidades específicas de los químicos, con la capacidad de comprender, analizar y tratar sistemáticamente los nombres químicos compuestos.
«Nuestro objetivo era combinar la búsqueda química y la minería de texto para que los usuarios puedan encontrar los productos químicos pertinentes y sus propiedades o relaciones de los textos no estructurados, como las patentes y artículos científicos», resume el Dr. David Milward, director de tecnología de Linguamatics.
Este enfoque totalmente automatizado permite a los usuarios extraer información sobre las entidades biológicas y químicas en una gama de documentos, allanando el camino para un análisis más profundo. Por otra parte, el software presenta los resultados de búsqueda en una forma mejorada de modo que los usuarios pueden ver las estructuras químicas, así como navegar a través de los grupos de estructuras que se encuentran dentro de los documentos. «El proyecto fue un éxito porque sabíamos desde el principio lo que queríamos lograr y teníamos un plan muy bien definido que describe las prestaciones alcanzables», afirma el Dr. Krisztian Niesz, un analista de negocios en ChemAxon que participaron en el proyecto. «Nos comunicamos con Linguamatics en cada dos semanas y trabajamos juntos en un marco ágil». El proyecto ha ayudado ChemAxon convertirse en un líder mundial en naming technology mientras que Linguamatics se ha beneficiado mediante la consecución de planes para proporcionar a sus clientes el software de minería de texto completo. De cara al futuro, cuando el uso de este nuevo software de minería de texto se haga más generalizado, se anticipa que va a proporcionar la herramienta de descubrimiento de nuevos medicamentos y fomentar el crecimiento de la industria farmacéutica.
[youtube]https://www.youtube.com/watch?v=SCDaE4VRzIM[/youtube]
Fuente: Eureka