Hay una cosa que me fascina y que por mucho que he querido averiguar no me explico:
¿Como se hacen las busquedas de datos en los buscadores de internet?
Se que se indexan los datos y que cada buscador usa una filosofía diferente, de hecho si veis nuestras estadísticas veréis que el dia 1 de este mes
http://www.asociacionhubble.org/modules ... s&op=Stats
un buscador debió revisar todas y cada una de las palabras que hay en el foro ya que hay cosa de 10 veces el numero normal de visitas (yo se lo he achacado a eso, si es otra cosa no lo se)
El caso es que por ejemplo: pongo un buscador, voy a ser original y pongo el google, escribo algo raro, por ejemplo "Jomlop" y pone:
Resultados 1 - 10 de aproximadamente 214 de Jomlop. (0,49 segundos)
en 0,49 segundos ha mirado en todas las páginas del mundo y ha decidido que hay 214 en las que sale mi nick ¿tiene un indice con todas las palabras que salen en internet? ¿tienen un indice de indices? cuando la búsqueda es mas compleja, con palabras forzadas y varias entradas ¿como diablos se las apañan para encontrarlo todo tan rápido?
¿donde almacenan esa ingente información?
muchas gradias.
PD: ¿la informática es una ciencia? jejeje
Minería de datos en informática
- Jomlop
- Administrador
- Mensajes: 1149
- Registrado: 24 May 2004, 23:00
- Ubicación: Martos (Jaén)
- Contactar:
Minería de datos en informática
Mensajepor Jomlop » 22 Abr 2006, 20:40
"Una vez hayas probado el vuelo siempre caminarás por la Tierra con la vista mirando al cielo, porque ya has estado allí y allí siempre desearás volver" Leonardo da Vinci ¡Lo dijo 400 años antes de alguien volase!
Re: Minería de datos en informática
Mensajepor 7Chakras » 28 Abr 2006, 07:27
Jomlop escribió:../..
¿donde almacenan esa ingente información?
../..
Lei en una ocasión que Google utiliza (si no recuerdo mal) 8000 máquinas linux. El titulo del artículo era algo como "8000 pinguinos para Google" y apareció en el Ciberpais hace un par de años.
Un saludo
- Pazos75
- Mensajes: 553
- Registrado: 25 Dic 2005, 00:00
- Ubicación: un poco al sur del noroeste
- Contactar:
Mensajepor Pazos75 » 08 May 2006, 15:24
No lo se tampoco, pero tambien me lo he planteado, me imagino que se tratara de algun tipo de indexacion (se dice asi?) muy eficiente, para ejemplo, el Google desktop, creo que utiliza el mismo sistema de indexar que el buscador de internet, y basta comparar el tiempo que tarda en encontrar algo en tu ordenador con lo que tarda el chucho del güindos. Si alguien lo sabe y sobre todo lo sabe divulgar, yo me sumo al carro.
"Aunque no comparta tus ideas, defendere con mi vida tu derecho a expresarlas" Voltaire
"Uno se alegra de resultar útil"

"Uno se alegra de resultar útil"

- deeper_space
- Mensajes: 2144
- Registrado: 20 Dic 2004, 00:00
- Ubicación: Brazo de Orión
Mensajepor deeper_space » 10 May 2006, 10:48
Voy a intentar explicar el funcionamiento tal cual lo tengo yo entendido.
Google se hace servir de un "bot" o de un programa que rastrea toda la WWW en busca de páginas. Cuando encuentra una, sólo almacena el texto y se la pasa a una máquina que la indexa. Bueno, de hecho son cientos de máquinas rastreando la WWW. Pero claro, lo que no puede hacer Google es almacenar todo el texto. Sería una burrada de Terabytes. Así que el "bot" envía al indexador la página entera pero sólo texto. Ojo porque hablo sólo de texto. Una página de solo texto ocupa muchíiiiisimo menos que una en formato http y con imágenes. Otro caso aparte merecen las imágenes. Evidentemente que no se guarda la imagen completa sino que la imagen que lee la reduce a 100x100 (como aparece en la misma página que busca) de forma que sólo ocupe unos 2K (o menos, la cifra me la he inventado como ejemplo).
Pero volvamos al texto. Ahora viene el trabajo del indexador que recibe el texto de la página de parte del "bot". Este indexador indexa las palabras que aparecen siguiendo un orden. En primer lugar, el indexador "pasa" de palabras que no son útiles. Por ejemplo, artículos (el, la, una, una), preposiciones (a, ante, bajo) y otras (de, desde, aquel, porque, como, así…). También pasa de comas, puntos, puntos y comas, y otros signos de puntuación. Evidentemente también pasa de los espacios en blanco. Así, una página de sólo texto que le ha pasado el "bot" y que ocuparía unos 2K (me lo vuelvo a inventar) pasa a ocupar menos de la mitad. De ahí la masiva información que pueden guardar los servidores de Google. A parte, creo haber leído en algún sitio que no indexan todas las páginas enteras sinó solamente los primeros X bytes, reduciendo así también el coste de almacenamiento y de indexación.
Para determinar qué páginas son las que apareceran primeras en una búsqueda se hace servir de, al menos, dos parámetros.
En primer lugar, cuando rastrea la WWW, va puntuando aquellas páginas que parecen como link en otras páginas. Por decirlo de otra manera. Cuanto más aparece una página en otras, más relevante parece ser.
Y por otro lado, hace servir su barra de navegación (la que se puede instalar gratuitamente) para saber qué páginas son las más visitadas y navegadas por el usuario. Por este último método establece una especie de ránking de páginas. Es decir, esa barra que tanto gusta a algunos (yo la tuve durante un tiempo) es de hecho una especie de espía. No un espía en plan "malware" sino un programita que estudia nuestros gustos y hábitos cuando navegamos. Google ha reiterado que esa información que recogen es confidencial, pero quien sabe…
A parte están, por supuesto, aquellas que pagan para aparecer primeras. Pero eso es otra historia.
Las páginas que obtienen mejor ránking son las que son rastreadas por el "bot" con más frecuencia. Así evitan que se produzcan búsquedas que arrojen resultados antiguos. Es más, aquellas páginas con más ránking serán posiblemente las páginas más canviantes, las más dinámicas. Y, por regla general, aquellas que son visitadas con poca frecuencia por los usuarios, acostumbraran a tener información estática, casi siempre la misma.
Espero os sirva de explicación.
Hasta pronto.
Google se hace servir de un "bot" o de un programa que rastrea toda la WWW en busca de páginas. Cuando encuentra una, sólo almacena el texto y se la pasa a una máquina que la indexa. Bueno, de hecho son cientos de máquinas rastreando la WWW. Pero claro, lo que no puede hacer Google es almacenar todo el texto. Sería una burrada de Terabytes. Así que el "bot" envía al indexador la página entera pero sólo texto. Ojo porque hablo sólo de texto. Una página de solo texto ocupa muchíiiiisimo menos que una en formato http y con imágenes. Otro caso aparte merecen las imágenes. Evidentemente que no se guarda la imagen completa sino que la imagen que lee la reduce a 100x100 (como aparece en la misma página que busca) de forma que sólo ocupe unos 2K (o menos, la cifra me la he inventado como ejemplo).
Pero volvamos al texto. Ahora viene el trabajo del indexador que recibe el texto de la página de parte del "bot". Este indexador indexa las palabras que aparecen siguiendo un orden. En primer lugar, el indexador "pasa" de palabras que no son útiles. Por ejemplo, artículos (el, la, una, una), preposiciones (a, ante, bajo) y otras (de, desde, aquel, porque, como, así…). También pasa de comas, puntos, puntos y comas, y otros signos de puntuación. Evidentemente también pasa de los espacios en blanco. Así, una página de sólo texto que le ha pasado el "bot" y que ocuparía unos 2K (me lo vuelvo a inventar) pasa a ocupar menos de la mitad. De ahí la masiva información que pueden guardar los servidores de Google. A parte, creo haber leído en algún sitio que no indexan todas las páginas enteras sinó solamente los primeros X bytes, reduciendo así también el coste de almacenamiento y de indexación.
Para determinar qué páginas son las que apareceran primeras en una búsqueda se hace servir de, al menos, dos parámetros.
En primer lugar, cuando rastrea la WWW, va puntuando aquellas páginas que parecen como link en otras páginas. Por decirlo de otra manera. Cuanto más aparece una página en otras, más relevante parece ser.
Y por otro lado, hace servir su barra de navegación (la que se puede instalar gratuitamente) para saber qué páginas son las más visitadas y navegadas por el usuario. Por este último método establece una especie de ránking de páginas. Es decir, esa barra que tanto gusta a algunos (yo la tuve durante un tiempo) es de hecho una especie de espía. No un espía en plan "malware" sino un programita que estudia nuestros gustos y hábitos cuando navegamos. Google ha reiterado que esa información que recogen es confidencial, pero quien sabe…
A parte están, por supuesto, aquellas que pagan para aparecer primeras. Pero eso es otra historia.
Las páginas que obtienen mejor ránking son las que son rastreadas por el "bot" con más frecuencia. Así evitan que se produzcan búsquedas que arrojen resultados antiguos. Es más, aquellas páginas con más ránking serán posiblemente las páginas más canviantes, las más dinámicas. Y, por regla general, aquellas que son visitadas con poca frecuencia por los usuarios, acostumbraran a tener información estática, casi siempre la misma.
Espero os sirva de explicación.
Hasta pronto.
Mensajepor Arbacia » 10 May 2006, 11:31
gracias Deeper_Space.
Quería ampliar un poquito el mensaje de Deeper_Space
No solo se indizan las palabras significaticas, lo que se indizan son las cedenas de palabras significativa, por eso las busquedas de framentos de oración entrecomillados son más efectivos. (los documentalistas usan indizar en vez de indexar, a los informáticos les tira más indexar)
Hay otra parte oculta de especial interés para los Bots: las metaetiquetas. las metaetiquetas son palabras clave de indización directa. Google fué uno de los primeros buscadores especializados en metaetiquetas, por eso desbancó a Altavista. Las meytaetiquetas ayudan a los buscadore para organizar el resto de la página
Por otro lado recordaros que hay muchisimos buscadores de internet. cada uno con sus peculiaridades. Muchos son específicos para determinados campos tecnico-científicos. Yo suelo usar google, pero no es el único. Echad un vistazo a esto por ejemplo:
http://www.compendio.com/
Quería ampliar un poquito el mensaje de Deeper_Space
No solo se indizan las palabras significaticas, lo que se indizan son las cedenas de palabras significativa, por eso las busquedas de framentos de oración entrecomillados son más efectivos. (los documentalistas usan indizar en vez de indexar, a los informáticos les tira más indexar)
Hay otra parte oculta de especial interés para los Bots: las metaetiquetas. las metaetiquetas son palabras clave de indización directa. Google fué uno de los primeros buscadores especializados en metaetiquetas, por eso desbancó a Altavista. Las meytaetiquetas ayudan a los buscadore para organizar el resto de la página
Por otro lado recordaros que hay muchisimos buscadores de internet. cada uno con sus peculiaridades. Muchos son específicos para determinados campos tecnico-científicos. Yo suelo usar google, pero no es el único. Echad un vistazo a esto por ejemplo:
http://www.compendio.com/
LightBridge 12" y 16"; Celestron C8 (1978) y CGE C11
http://www.astrosurf.com/patricio/
Observatorio Tres Juncos
http://www.astrosurf.com/patricio/
Observatorio Tres Juncos
- deeper_space
- Mensajes: 2144
- Registrado: 20 Dic 2004, 00:00
- Ubicación: Brazo de Orión
Mensajepor deeper_space » 10 May 2006, 11:53
Es que el tema del funcionamiento del Google es más amplio y complicado de lo que nos podemos pensar. Aunque el resultado es tan simple que no le damos la suficiente importancia y tal vez explicarlo en profundidad sería algo cansino. Por añadir algo… En el momento de indexar o indizar, el programa o servidor encargado de ello hace servir diccionarios de léxico en los cuales también indizan grupos de palabras que son bastante usuales y que son muy probables que aparezcan en un escrito. Creo que contiene 14 ó 15 millones de palabras. Por ahí andará.
Y ojo porque cuando he hablado de “servidor” realmente no es uno, sino varios servidores que indexan, otros tantos que guardan la información en los “repository’s”, otros tantos que guardan las URL o direcciones de Internet, otros tantos que rastrean la WWW, otros que comprimen y estudian los documentos a almacenar, otros que guardan información sobre el documentos almacenado (tamaño, estado, referencia en el Respository), otros que guardan las ocurrencias de una página como link en otras, etc…
Y ojo porque cuando he hablado de “servidor” realmente no es uno, sino varios servidores que indexan, otros tantos que guardan la información en los “repository’s”, otros tantos que guardan las URL o direcciones de Internet, otros tantos que rastrean la WWW, otros que comprimen y estudian los documentos a almacenar, otros que guardan información sobre el documentos almacenado (tamaño, estado, referencia en el Respository), otros que guardan las ocurrencias de una página como link en otras, etc…
8 mensajes
• Página 1 de 1
Volver a “Ciencias en General”
Ir a
- FUNDAMENTOS DE ASTRONOMÍA
- Principiantes
- Astronaútica y Misiones Espaciales
- Sol, Luna y Planetas
- Cuerpos Menores (Cometas, Asteroides y Meteoros)
- Astronomía extrasolar (Galaxias, Nebulosas, Cúmulos,...)
- Historia de la Astronomía
- ASTRONOMÍA TEÓRICA Y COSMOLOGÍA
- Física Clásica o Newtoniana
- Física Cuántica y Relatividad
- Cosmología y Universo
- ASTRONOMÍA PRÁCTICA Y OBSERVACIÓN
- Telescopios e Instrumentos Ópticos
- Prismáticos
- Monturas y Accesorios no Ópticos
- Astrobricolaje
- Técnicas de Astrofotografía
- Escaparate Astrofotográfico
- Estrellas dobles
- Observación
- Eventos y efemérides
- Astronomía CCD
- Cielo oscuro
- Lugares de observación
- RECURSOS ASTRONÓMICOS
- Didáctica de la Astronomía
- Software e internet
- Astronomia y Medios de Comunicación
- OTRAS CIENCIAS & ARTES AFINES
- Ciencias en General
- Películas y Libros
- EVENTOS, ACTIVIDADES Y ASOCIACIONISMO
- Tablón de Anuncios y Salidas
- Andalucía, Ceuta y Melilla
- Aragón
- Cantabria
- Castilla y León
- Castilla-La Mancha
- Cataluña
- Comunidad de Madrid
- Comunidad Valenciana
- Extremadura
- Galicia
- Islas Baleares
- Islas Canarias
- La Rioja
- Navarra
- País Vasco
- Principado de Asturias
- Región de Murcia
- Ediciones Históricas de ASTROMARTOS
- AstroMartos 2015
- AstroMartos 2014
- AstroMartos 2013
- AstroMartos 2011 - DÉCIMO ANIVERSARIO
- AstroMartos 2010
- AstroMartos 2009
- AstroMartos 2008
- AstroMartos 2007
- AstroMartos 2006
- AstroMartos 2005
- AstroMartos 2004
- Foro de e-socios
- MERCADILLO
- Material de Observación
- Compra
- Venta
- Intercambio
- Otro tipo de material
- PÁGINA WEB
- Preguntas, Respuestas, Sugerencias, ....
Identificarse
Suscríbete como E-SOCIO/A
DONACIONES

IN MEMORIAM
El legado de Arbacia
13.791 mensajes de nuestro usuario más activo. Te invitamos a descubrir la base documental y de ayuda que nos dejó en este ENLACE

(Foto: Wikipedia)
¿ Quién fue nuestro usuario Arbacia ?
Patricio Domínguez Alonso fue un paleontólogo español, gran amante de la Astronomía y Divulgador Científico.
Doctor en Ciencias Biológicas (1999) y especialista en Biología Evolutiva fue profesor de Paleontología en la Facultad de Ciencias Geológicas de la UCM. Miembro del Instituto de Geociencias (CSIC-UCM) desde su creación, estaba integrado en la línea de Investigación del Centro “Episodios críticos en la historia de la Tierra”.
Su trabajo de investigación se centró en el origen de los vertebrados, evolución temprana de aves y estudios sobre el cuaternario en el Caúcaso. Para ello desarrolló estancias de investigación en Reino Unido, Estados Unidos, Brasil, Armenia, China y Honduras (Fte. Wikipedia)
Como aficionado a la Astronomía, desde 2008 fue Presidente de la Asociación Astronómica AstroHenares y socio destacado de la Asociación Astronómica Hubble. Desde 2005 y durante 8 años fue moderador activo y permanente de este foro, convirtiéndose en el usuario más prolífico del mismo y en uno de los garantes de su buen funcionamiento.
Con el apoyo de la Asociación Hubble y la difusión del foro, organizó algunas de las reuniones de aficionados a la Astronomía más importantes de España, como la de Navas de Estena en los Montes de Toledo, conocida como “AstroArbacia”.
Podemos afirmar sin temor a equivocarnos que su pérdida inició el declive del foro allá por 2013. Por eso, tras su renovación queremos rendir homenaje desde la Asociación Hubble a su figura como aficionado a la Astronomía, como persona y como gran amigo de los administradores, moderadores y muchos de los usuarios del foro, a los que siempre ayudaba con agrado y sabiduría en multitud de temas.
Nos vemos en las estrellas, amigo

¿ Quién fue nuestro usuario Arbacia ?
Patricio Domínguez Alonso fue un paleontólogo español, gran amante de la Astronomía y Divulgador Científico.
Doctor en Ciencias Biológicas (1999) y especialista en Biología Evolutiva fue profesor de Paleontología en la Facultad de Ciencias Geológicas de la UCM. Miembro del Instituto de Geociencias (CSIC-UCM) desde su creación, estaba integrado en la línea de Investigación del Centro “Episodios críticos en la historia de la Tierra”.
Su trabajo de investigación se centró en el origen de los vertebrados, evolución temprana de aves y estudios sobre el cuaternario en el Caúcaso. Para ello desarrolló estancias de investigación en Reino Unido, Estados Unidos, Brasil, Armenia, China y Honduras (Fte. Wikipedia)
Como aficionado a la Astronomía, desde 2008 fue Presidente de la Asociación Astronómica AstroHenares y socio destacado de la Asociación Astronómica Hubble. Desde 2005 y durante 8 años fue moderador activo y permanente de este foro, convirtiéndose en el usuario más prolífico del mismo y en uno de los garantes de su buen funcionamiento.
Con el apoyo de la Asociación Hubble y la difusión del foro, organizó algunas de las reuniones de aficionados a la Astronomía más importantes de España, como la de Navas de Estena en los Montes de Toledo, conocida como “AstroArbacia”.
Podemos afirmar sin temor a equivocarnos que su pérdida inició el declive del foro allá por 2013. Por eso, tras su renovación queremos rendir homenaje desde la Asociación Hubble a su figura como aficionado a la Astronomía, como persona y como gran amigo de los administradores, moderadores y muchos de los usuarios del foro, a los que siempre ayudaba con agrado y sabiduría en multitud de temas.
Nos vemos en las estrellas, amigo
Bienvenidos al nuevo Foro HUBBLE
Hemos tardado un poco... pero ya estamos on-line con una nueva imagen, software actualizado y base de datos optimizada
Desde Hubble os damos las gracias por vuestra paciencia y os deseamos que lo disfruteis.
Desde Hubble os damos las gracias por vuestra paciencia y os deseamos que lo disfruteis.
- Todos los horarios son UTC+01:00
- Arriba
- Borrar todas las cookies del Sitio
Asociación Astronómica HUBBLE | Martos (Jaén)
Foro de Astronomía y Astrofotografía. Desde 2004 en Internet
Todos los Derechos Reservados
Enlaces
Powered by phpBB ® | © 2017 Asociación Astronómica HUBBLE