Extracción de conocimiento útil de entre toda la información de Internet

El volumen de información existente en Internet es inmenso, y el 90% de los datos que se manejan en soporte digital actualmente han sido creados en los dos últimos años. Sólo en 2011 se crearon y replicaron 1,8 Zettabytes, lo que significa que harían falta 57.500 millones de iPADs de 32GB para almacenarlos. Sin embargo, esta información es poco accesible a los sistemas tradicionales de acceso y tratamiento. El 80% está en formato no estructurado, plano y en texto libre. 

Ibermática, a través de su Instituto de Innovación i3B, ha iniciado un proyecto de investigación subvencionado por el Gobierno Vasco con el que prevé encontrar una nueva técnica que facilite la extracción de conocimiento útil, de forma automática, de entre la ingente cantidad de datos que existen en Internet. Esta estrategia de búsqueda de información, basada en Big Data, podrá relacionar millones de conceptos dispersados por la red de forma eficiente, permitiendo adelantarse a los acontecimientos y prospectar decisiones correctas en cualquier ámbito de actuación.

La tecnología de Big Data trata de dar solución al análisis automático de toda esta información, por medio de la aplicación de Minería de Textos y Minería de Datos en entornos distribuidos. Pero estas técnicas de Inteligencia Artificial se están quedando obsoletas, con algoritmos basados en las mismas que hace 20 años, trabajando en memoria y extrayendo datos de ficheros o bases de datos.

Ante esta situación, y teniendo en cuenta que la información semántica en la red está tomando cada vez más relevancia en entornos de publicación de datos en Internet, se hace cada vez más necesario cambiar la estrategia de análisis de la información en la red, obligando a indagar nuevas formas de extracción, almacenamiento e inferencia sobre dichos volúmenes. La ventaja es que aquél que encuentre una manera óptima de relacionar millones de conceptos de forma eficiente, con el objetivo de “descubrir” nuevo conocimiento inserto en los datos, será el que posea el “poder” de adelantarse a los acontecimientos y prospectar decisiones correctas antes que la competencia.

 

Eskainet, un nuevo sistema inteligente de razonamiento con datos en red

En esta carrera se ha embarcado i3B, que con la ayuda del Gobierno Vasco ya ha comenzado a investigar el uso de nuevas técnicas de razonamiento aplicadas a los datos disponibles en Internet, con el objetivo de extraer, de forma automática, nueva información relacionada y relevante (conocimiento) entre conceptos no conectados directamente.

Y es que a juicio del líder del proyecto, el responsable de Ibermática en el ámbito de la Inteligencia Artificial, Aitor Moreno, “el conocimiento no depende de la cantidad de los datos, sino de cómo están relacionados”. “Encontrar las relaciones entre los conceptos, e inferir nuevas relaciones, permite adelantarse en las decisiones en tiempo real y tomar ventaja sobre entornos muy dinámicos”, asegura. Se trata de encontrar la herramienta adecuada para recabar información conocida, mezclarla, y extraer nueva información no conocida hasta el momento, y de manera automática.

i3B no busca un sistema de predicción en base a históricos y su ejecución sobre nuevos datos, que es el estado del arte actual en los sistemas expertos, sino la extracción de conclusiones sobre hechos no conectados a priori, pero que revelan nuevas fuentes de conocimiento. “Es decir, que estamos buscando la innovación pura en el conocimiento”, asevera Moreno.

 

El ejemplo de la predicción de terremotos

Con la nueva técnica se podría saber qué es lo que ocurrirá después de un terremoto de cierta magnitud en un determinado lugar si se pudiese extraer información relacionada con seísmos similares por todo el mundo y sus resultados. Pero además, se podrían extraer nuevas conclusiones, como que, por ejemplo, antes de los movimientos sísmicos existen unas variaciones determinadas en las señales GPS recogidas en las estaciones meteorológicas de la zona, efecto nunca anteriormente relacionado con los terremotos. Y esta información está en Internet, pero la extracción, tratamiento y el análisis avanzado sobre ella, hace la tarea imposible de acometer. 

Del mismo modo se podrían sacar conclusiones sobre inversiones, éxitos empresariales, comportamientos farmacéuticos, etcétera, con sólo tener dos tecnologías básicas al alcance: la normalización de la información en internet (LinkedData), y un sistema de inferencia de conocimiento sobre dicha información. El problema es que hoy en día no hay un vocabulario único de LinkedData, aunque se están haciendo grandes avances, y aún no existe un motor de razonamiento aplicable a tecnología semántica distribuida. Aquí entrará la investigación de i3B, que pretende dar un salto tecnológico desde la “minería” de datos hasta el “descubrimiento” de datos, basado en la propia minería, Big Data, semántica y las relaciones entre los distintos grafos y sus estructuras.

El proyecto EskaiNet (Expert systems of Knowledge with artificial intelligence on NET - Nuevos sistemas inteligentes de razonamiento con datos en Red) ha sido aprobado en el Programa Saiotek del Gobierno Vasco y va a establecer las bases para crear un sistema de razonamiento extendido sobre la enorme “base de datos” multidisciplinar que es la web semántica, lo que permitirá en última instancia mejorar las propuestas de OpenData de las distintas administraciones, la colaboración sobre datos publicados en entornos abiertos de investigación y periodismo, o la búsqueda de información concreta y resumida sobre consultas también muy específicas a la web, entre otras cosas. 

En definitiva, se trata de investigar el estado actual de las tecnologías y de las áreas de creación tecnológica que permitan futuros desarrollos para pasar de una consulta en lenguaje natural, hasta la generalización de conclusiones, de forma automática.

Última Edición

 

 

 

 

 

 

 

 

Versión para imprimir Versión para imprimir | Mapa del sitio
Revista TodoPyme. Contacto: 646 196 358