Minería de datos en informática

Mensaje sin leerpor **Jomlop** » 22 Abr 2006, 20:40

Hay una cosa que me fascina y que por mucho que he querido averiguar no me explico:

¿Como se hacen las busquedas de datos en los buscadores de internet?

Se que se indexan los datos y que cada buscador usa una filosofía diferente, de hecho si veis nuestras estadísticas veréis que el dia 1 de este mes
http://www.asociacionhubble.org/modules ... s&op=Stats
un buscador debió revisar todas y cada una de las palabras que hay en el foro ya que hay cosa de 10 veces el numero normal de visitas (yo se lo he achacado a eso, si es otra cosa no lo se)

El caso es que por ejemplo: pongo un buscador, voy a ser original y pongo el google, escribo algo raro, por ejemplo "Jomlop" y pone:

Resultados 1 - 10 de aproximadamente 214 de Jomlop. (0,49 segundos)

en 0,49 segundos ha mirado en todas las páginas del mundo y ha decidido que hay 214 en las que sale mi nick ¿tiene un indice con todas las palabras que salen en internet? ¿tienen un indice de indices? cuando la búsqueda es mas compleja, con palabras forzadas y varias entradas ¿como diablos se las apañan para encontrarlo todo tan rápido?

¿donde almacenan esa ingente información?

muchas gradias.

PD: ¿la informática es una ciencia? jejeje

Pany · Mensaje sin leerpor **Pany** » 22 Abr 2006, 21:12

Esta claro no ???? Imagen

Arbacia · Mensaje sin leerpor **Arbacia** » 23 Abr 2006, 15:31

Pues yo estoy salvando internet en el servidor de AAHubble, por si las moscas...

Imagen

7Chakras · Mensaje sin leerpor **7Chakras** » 28 Abr 2006, 07:27

../..
¿donde almacenan esa ingente información?
../..

Lei en una ocasión que Google utiliza (si no recuerdo mal) 8000 máquinas linux. El titulo del artículo era algo como "8000 pinguinos para Google" y apareció en el Ciberpais hace un par de años.

Un saludo

Pazos75 · Mensaje sin leerpor **Pazos75** » 08 May 2006, 15:24

No lo se tampoco, pero tambien me lo he planteado, me imagino que se tratara de algun tipo de indexacion (se dice asi?) muy eficiente, para ejemplo, el Google desktop, creo que utiliza el mismo sistema de indexar que el buscador de internet, y basta comparar el tiempo que tarda en encontrar algo en tu ordenador con lo que tarda el chucho del güindos. Si alguien lo sabe y sobre todo lo sabe divulgar, yo me sumo al carro.

deeper_space · Mensaje sin leerpor **deeper_space** » 10 May 2006, 10:48

Voy a intentar explicar el funcionamiento tal cual lo tengo yo entendido.

Google se hace servir de un "bot" o de un programa que rastrea toda la WWW en busca de páginas. Cuando encuentra una, sólo almacena el texto y se la pasa a una máquina que la indexa. Bueno, de hecho son cientos de máquinas rastreando la WWW. Pero claro, lo que no puede hacer Google es almacenar todo el texto. Sería una burrada de Terabytes. Así que el "bot" envía al indexador la página entera pero sólo texto. Ojo porque hablo sólo de texto. Una página de solo texto ocupa muchíiiiisimo menos que una en formato http y con imágenes. Otro caso aparte merecen las imágenes. Evidentemente que no se guarda la imagen completa sino que la imagen que lee la reduce a 100x100 (como aparece en la misma página que busca) de forma que sólo ocupe unos 2K (o menos, la cifra me la he inventado como ejemplo).

Pero volvamos al texto. Ahora viene el trabajo del indexador que recibe el texto de la página de parte del "bot". Este indexador indexa las palabras que aparecen siguiendo un orden. En primer lugar, el indexador "pasa" de palabras que no son útiles. Por ejemplo, artículos (el, la, una, una), preposiciones (a, ante, bajo) y otras (de, desde, aquel, porque, como, así…). También pasa de comas, puntos, puntos y comas, y otros signos de puntuación. Evidentemente también pasa de los espacios en blanco. Así, una página de sólo texto que le ha pasado el "bot" y que ocuparía unos 2K (me lo vuelvo a inventar) pasa a ocupar menos de la mitad. De ahí la masiva información que pueden guardar los servidores de Google. A parte, creo haber leído en algún sitio que no indexan todas las páginas enteras sinó solamente los primeros X bytes, reduciendo así también el coste de almacenamiento y de indexación.

Para determinar qué páginas son las que apareceran primeras en una búsqueda se hace servir de, al menos, dos parámetros.
En primer lugar, cuando rastrea la WWW, va puntuando aquellas páginas que parecen como link en otras páginas. Por decirlo de otra manera. Cuanto más aparece una página en otras, más relevante parece ser.
Y por otro lado, hace servir su barra de navegación (la que se puede instalar gratuitamente) para saber qué páginas son las más visitadas y navegadas por el usuario. Por este último método establece una especie de ránking de páginas. Es decir, esa barra que tanto gusta a algunos (yo la tuve durante un tiempo) es de hecho una especie de espía. No un espía en plan "malware" sino un programita que estudia nuestros gustos y hábitos cuando navegamos. Google ha reiterado que esa información que recogen es confidencial, pero quien sabe…

A parte están, por supuesto, aquellas que pagan para aparecer primeras. Pero eso es otra historia.

Las páginas que obtienen mejor ránking son las que son rastreadas por el "bot" con más frecuencia. Así evitan que se produzcan búsquedas que arrojen resultados antiguos. Es más, aquellas páginas con más ránking serán posiblemente las páginas más canviantes, las más dinámicas. Y, por regla general, aquellas que son visitadas con poca frecuencia por los usuarios, acostumbraran a tener información estática, casi siempre la misma.

Espero os sirva de explicación.

Hasta pronto.

Arbacia · Mensaje sin leerpor **Arbacia** » 10 May 2006, 11:31

gracias Deeper_Space.

Quería ampliar un poquito el mensaje de Deeper_Space

No solo se indizan las palabras significaticas, lo que se indizan son las cedenas de palabras significativa, por eso las busquedas de framentos de oración entrecomillados son más efectivos. (los documentalistas usan indizar en vez de indexar, a los informáticos les tira más indexar)

Hay otra parte oculta de especial interés para los Bots: las metaetiquetas. las metaetiquetas son palabras clave de indización directa. Google fué uno de los primeros buscadores especializados en metaetiquetas, por eso desbancó a Altavista. Las meytaetiquetas ayudan a los buscadore para organizar el resto de la página

Por otro lado recordaros que hay muchisimos buscadores de internet. cada uno con sus peculiaridades. Muchos son específicos para determinados campos tecnico-científicos. Yo suelo usar google, pero no es el único. Echad un vistazo a esto por ejemplo:

http://www.compendio.com/

deeper_space · Mensaje sin leerpor **deeper_space** » 10 May 2006, 11:53

Es que el tema del funcionamiento del Google es más amplio y complicado de lo que nos podemos pensar. Aunque el resultado es tan simple que no le damos la suficiente importancia y tal vez explicarlo en profundidad sería algo cansino. Por añadir algo… En el momento de indexar o indizar, el programa o servidor encargado de ello hace servir diccionarios de léxico en los cuales también indizan grupos de palabras que son bastante usuales y que son muy probables que aparezcan en un escrito. Creo que contiene 14 ó 15 millones de palabras. Por ahí andará.

Y ojo porque cuando he hablado de “servidor” realmente no es uno, sino varios servidores que indexan, otros tantos que guardan la información en los “repository’s”, otros tantos que guardan las URL o direcciones de Internet, otros tantos que rastrean la WWW, otros que comprimen y estudian los documentos a almacenar, otros que guardan información sobre el documentos almacenado (tamaño, estado, referencia en el Respository), otros que guardan las ocurrencias de una página como link en otras, etc…