Siguiente: Trabajos relacionados Subir: Uso del punto de Anterior: Uso del punto de

Introducción

Los algoritmos de agrupamiento son utilizados principalmente con fines de clasificación. En la Recuperación de Información (RI) se tiene la finalidad de analizar grandes colecciones de documentos, subdividiéndolas en grupos que posean documentos similares. Un enfoque bien conocido para el Agrupamiento de Textos (AT), consiste en representar dichos textos por medio de un vector compuesto de un conjunto de términos (palabras clave) y, a partir de ellos, usar alguna función de similitud para generar grupos de textos similares [Manning y Schütze1999]. Es necesario emplear métodos de selección de términos índice para conseguir la representación de los textos. En los algoritmos de agrupamiento supervisado, el conjunto de términos se construye a partir de un conjunto de instancias de entrenamiento que pertenecen al mismo domino. En caso de que el dominio sea desconocido, pueden emplearse técnicas de agrupamiento no supervisado. En este caso, el conjunto se construye directamente a partir de la misma colección de textos. Se sigue, por ejemplo, el modelo de espacio vectorial para la representación de textos; esto es, la asignación de un peso a cada uno de los términos del conjunto u-sado en la representación de los documentos, por ejemplo con la ponderación clásica $tf\cdot idf$ [Salton y Buckley1988]; esto es, el peso de un término, para un determinado documento, está en función directa de su frecuencia de aparición en el documento (

), y en función inversa del número de documentos que lo utilizan (

El modelo de espacio vectorial no es solamente usado para agrupar documentos con un alto número de palabras, sino también para agrupar documentos cortos (alrededor de 50 a 100 palabras), por ejemplo, noticias, o información sobre publicidad, resúmenes de artículos científicos, patentes, etc. Los documentos de este tipo son los más interesantes, ya que la mayoría de bibliotecas digitales, y otros almacenes basados en el web que ponen a disposición documentos científicos y de información técnica, actualmente proporcionan acceso libre únicamente a los resúmenes y no al texto completo de los documentos. Sin embargo dichas colecciones de documentos imponen retos importantes. Si suponemos que la colección contiene textos pertenecientes a dominios diferentes, tales como deportes, política, etc; entonces éstos tendrán pocos o ningún término en común en sus vocabula-rios. En este caso, el tamaño de los documentos no es importante para los algoritmos de agrupamiento, ya que cualquier proce-dimiento de agrupamiento dividirá tales textos en grupos (considerados como domi-nios) bien definidos [Dhillon, Guan, y Kogan2002]; los documentos serán mapeados a subespacios de términos completamente disjuntos dentro del espacio total de la cole-cción. Cuando trabajamos con textos de un solo dominio, la situación es bastante diferen-te al caso anterior. Los grupos a identificar tienen una gran cantidad de términos en la intersección de sus vocabularios, y la diferencia entre estos grupos no solamente consiste del conjunto de términos índice sino también de su proporción.

En este trabajo abordamos el problema de agrupamiento de textos cortos, usando el concepto de punto de transición, una frecuencia intermedia del vocabulario de un texto. Teóricamente, alrededor de esta frecuencia se encuentran las frecuencias de palabras con mayor contenido semántico del texto. Por ello, se tiene confianza en que este enfoque permita elegir ``mejores'' términos que otros métodos de selección. Particularmente, la sencillez del método que será presentado, no supervisado y sin el apoyo de fuentes de conocimiento externas, ofrece ventajas sobre otros métodos, a la vez que reduce el número de términos.

En las secciones que restan en este do-cumento, se presentan algunos trabajos relacionados con el tema de agrupamiento de textos y selección de términos, una breve fundamentación del punto de transición, los métodos de selección de términos que serán utilizados, la descripción del experimento llevado a cabo, y las conclusiones.

Siguiente: Trabajos relacionados Subir: Uso del punto de Anterior: Uso del punto de

David Pinto 2006-05-25