next up previous
Siguiente: Experimento Subir: Elección de términos índice Anterior: Elección de términos índice

Enriquecimiento de términos índice

Es común enriquecer los términos índice, por ejemplo, incluyendo sus sinónimos. Esta idea se emplea en diversos contextos; por ejemplo, en RI se refiere a la expansión de consultas. La expansión de un término $ t$ añade términos relacionados con $ t$. El fin es detectar textos relevantes a la consulta mediante los términos relacionados [Voorhees1994]. La expansión habrá de apoyarse en una fuente que disponga los términos relacionados para cada término, un thesaurus. Aunque se dispone de ricas fuentes de información léxica, como WordNet, éstas son de carácter general y no abarcan dominios especializados.

Empleamos una técnica basada en la pro-puesta de Hindle [Hindle1990] que apoya los métodos de construcción de thesauri. Se dice que dos términos son vecinos cercanos cuando uno de ellos coocurre con el otro entre los de mayor frecuencia, y viceversa. En estos métodos es común utilizar una medida de asociación como la información mutua. Sin embargo, estas medidas se usan en textos grandes, y por ello nos limitamos a utilizar solamente la frecuencia de los términos.

A cada uno de los términos del vocabulario de una colección de textos se asocia una lista de términos que coocurren frecuentemente en las oraciones de la colección. Si consideramos que los términos índice representan a cada texto, entonces los términos asociados a los índice representarán de una manera más rica a los textos.

La lista de asociación para cada término índice se calcula como sigue. Para cada término, $ x$, en el vocabulario de la colección su lista es:

$\displaystyle L(x)=\{(y,k)\vert k=\char93 Ctx(x,y)\},
$

donde $ Ctx(x,y)$ es el conjunto:

$\displaystyle \{O\vert($existe $\displaystyle T_j\in D)\wedge(O\in T_j)\wedge(x,y\in O)\},
$

i.e. $ Ctx(x,y)$ es el conjunto de contextos (tomados como oraciones) en los que coocurren $ x$ e $ y$ para alguna oración de un texto de la colección.

Denotemos con $ T'$ los términos índice de $ T$. Consideramos para cada término índice $ t$ ($ t\in T'$) su lista de asociaciones, $ L(x)$, ordenada por la segunda componente de sus miembros: $ [(y_1,k_1),(y_2,k_2),\ldots]$, $ k_i\ge k_{i+1}$ ( $ 1\le i\le\char93 L(x)-1$). En ésta se realiza un recorte de las parejas con $ df_y=1$, debido a que son términos que no contribuyen al agrupamiento así como los términos con frecuencias muy altas2.

Sea $ L'(x)$ la lista de palabras asociadas al término $ x$ después de la eliminación de términos con frecuencias extremales. La expansión del conjunto de términos índice $ T'$ es:

$\displaystyle T''=\underset{x\in T'}\bigcup\{y\vert(y,k)\in L'(x)\}.
$

$ T''$ es, entonces, una manera alternativa de representar el texto $ T$.
next up previous
Siguiente: Experimento Subir: Elección de términos índice Anterior: Elección de términos índice
David Pinto 2006-05-25