Primeros resultados de Proyecto Análisis de Textos

Nos encontramos realizando las primeras pruebas que permitirán dar solución al proyecto de un cliente. Este proyecto consiste en generar una herramienta que facilite el análisis de grandes volúmenes de textos para su organización.

El primer objetivo de nuestro cliente, es contar con una herramienta en línea, que sea capaz de encontrar los conceptos o palabras más utilizadas en cientos de archivos científicos. Esto le ayudará en el análisis y clasificación de los temas de interés, con el fin de encontrar la información que necesita en el menor tiempo posible.

Como el sistema aún está en desarrollo, estamos probando distintos tipos de gráficos y técnicas para determinar la mejor solución y cuál es la visualización que aporta más valor a las necesidades de nuestro cliente. Aún queda mucho por hacer, no obstante los primeros resultados son bastantes buenos.

Realizamos una prueba donde se analizaron 23 archivos PDF, en forma simultánea (1.5 segundos promedio por archivo), que contienen los discursos presidenciales del 21 de mayo desde 1990 hasta el 2016. No se pudo obtener información de archivos que fueron escaneados directamente de papel (OCR pendiente), por lo que el año 1996 y 1997 no están incluidos en estos ejemplos. De cada texto se extrae la frecuencia de los conceptos más utilizados, (aún no se considera el peso que tiene la palabra en relación al texto) luego se generan los de gráficos y herramientas de análisis.

Para lograr la selección de las palabras o conceptos frecuentes, primero es necesario limpiar los archivos de de la puntuaciones y palabras que carecen de un significado por si solas como son los artículos, preposiciones, conjunciones, pronombres, etc. Para esta operación el sistema cuenta con un corpus de palabras a eliminar del texto, no obstante el usuario puede incorporar nuevas o eliminar algunas existentes.

Es posible ver las primeras pruebas en este Link

graficos

 

Agregar un comentario

Su dirección de correo no se hará público. Los campos requeridos están marcados *