viernes, 3 de mayo de 2013

Surcando la web con arañas



Aunque el título del artículo, malintencionadamente, lleve a pensar que las líneas siguientes van a versar sobre adorables artrópodos, no es así. En este post voy a hablar sobre lo que es una araña web. Tranquilos, seré breve y después me extenderé sobre los resultados obtenidos tras programar una araña   que se ha arrastrado por todos los posts de Mente Enjambre.

Una araña web es un programa informático el cual se encarga de navegar a lo largo de internet, de manera sistemática y organizada. Vamos, lo que viene a ser un programa que es capaz de leer páginas web, extraer información de las mismas y continuar su camino hacia otras páginas web. La utilidad de los arácnidos de la red es vital, por ejemplo, para que Google sea capaz de poblar los resultados de búsqueda. ¿Cómo os creeís que consigue saber qué palabras hay en una web? Pues mediante una cantidad enorme de arañas que se deslizan a través de los hiperenlaces.

Para ilustrar qué posibles usos puede tener un programa de estas características, he programado una araña para que explore todas las páginas de Mente Enjambre. En primer lugar se consiguen todos los enlaces a todos los posts, posteriormente se extrae el texto del mismo y quién es su autor. Ahora disponemos de todo el texto que hemos escrito mis compañeros y yo, pero ¿qué hacer con él?. Vamos a analizar la frecuencia con las que ciertas palabras aparecen en esta maravillosa bitácora.

Abajo podemos ver cuáles son las palabras cuya longitud es superior a dos caracteres que se repiten con mayor frecuencia. Cada una de las barras muestra en la parte superior la frecuencia media con la que aparece la palabra concreta en todos los posts. La araña ha recuperado 130 posts y concluye que, de media la palabra "que" se emplea casi 44 veces por artículo. Está claro que la redacción de Mente Enjambre apuesta por las oraciones suboordinadas relativas, pero dejando a un lado este hecho semigracioso, el resto de términos son demasiado genéricos como para describir cualquier tendencia a la hora de escribir. Para solucionar esto se eliminan aquellas palabras que tienen menos de siete caracteres. De esta manera nos cargamos la mayoría de las preposiciones, determinantes y conjunciones.






















Ahora, en la parte superior derecha, las palabras ya son lo suficientemente largas y pueden aportarnos algo más de información. Puede verse que este ranking lo encabezan dos palabras bastante curiosas: película e historia. Seamos sinceros, si analizamos el texto de manera general, se repiten un montón estos dos términos. Habría que esperar a sistema para que vuelva aparecer un término no tan genérico. Tengamos en cuenta que, como promedio, aparecen estas dos palabras en cada artículo. Pero claro, puede ser que uno de nosotros emplee esos términos con mayor frecuencia y esté desviando las medias. Por ello, a partir de ahora calcularemos la media con la que se emplea cada palabra en función del número de entradas escritas por cada uno de los cuatro autores que escribimos aquí. En concreto, Conde Chócula había escrito en el momento en el que la araña recogió los datos 44 posts, Monsieur Le Tupe 31 y Almaciguero Mayor 32. En mi caso, la araña sólo fue capaz de recuperar 23, básicamente porque algunos de los posts eran tan infumables que no pudo ni ser capaz de entender ni una palabra.


Nuestro querido Almaciguero, como es evidente, siempre suele hablar sobre cómo ciertos personajes se comportan en alguna película o durante algún período de la Historia. Curiosamente, sobre todo si lo comparamos con Monsieur Le Tupe, la frecuencia con la que usa sus palabras más frecuentes (valga la redundancia) es mucho mayor. Hecho que puede verse en que, de media, dice unas cuatro veces la palabra película y la palabra historia. Nada fuera del otro mundo, porque precisamente su sección lleva como título "Cine e Historia". Nuesto Tupé favorito, por el contrario usa un vocabulario más variado, pero también tiene derecho a hablar sobre los políticos y sus leyes. Nótese como tiene un especial apego a la palabra cualquier.

En el diagrama de barras de la parte superior derecha puede verse cómo nuestro Editor usa con mayor frecuencia canción y su plural, canciones. Curiosamente, la frecuencia media con la que emplea estas palabras es menor que la unidad, por lo que podemos afirmar que es el que emplea un vocabulario más variado. Esto tiene una explicación parcial, ya que todas las viñetas se publican bajo su nombre, forzándole a emplear términos que se salgan fuera de su sección habitual, la de música. Finalmente, servidor, sufre de los mismos problemas que el responsable de la sección de Historia y cine: mi vocabulario es reducido. Personalmente, no sabía la obsesión que tenia con la palabra ejemplo, ni que durante los posts de criptografía hubiese empleado tanto el término cifrado. He captado el mensaje , está claro que tengo un problema [redoble de tambor].

A falta de un análisis en mayor profundidad, aquí acaba el artículo. Parece ser que todos tenemos nuestras palabras favoritas. La semana que viene construiremos un post completamente artificial a partir de todas las palabras que la araña ha conseguido.

Pepe "Puertas de acero" Pérez

1 comentario:

Comparte este post

Related Posts Plugin for WordPress, Blogger...