Como funciona… Un motor de búsqueda

Posted by: David Alayón

A raíz del artículo que hice para TechTear: Hacking ético, aprende hackeando (que ha sido plagiado en diversas ocasiones), se me ocurrió la idea de abrir una nueva categoría llamada “Como funciona…” donde intentaré explicar lo mejor que pueda e informándome muy bien de cómo funcionan las cosas. Empezaré con: un motor de búsqueda… vamos un buscador!
Introducción

Se suele decir que en Internet está TODO. La verdad es que Internet es una fuente de información inagotable e inmensa, aunque no todo esté bien o comprobado. Para poder encontrar esa información necesitamos usar un motor de búsqueda.

Ahora mismo hay miles de buscadores (Google, Yahoo!, MSN Live…) y metabuscadores (Whonu, CrossEngine, Allth.at…) pero antes de Google, y quitando el caso de Altavista, los buscadores eran directorios de “tags” de páginas web. Estos tags los incluías en buscadores los cuáles definían tu contenido. Los buscadores realizaban una búsqueda entre esas palabras.

En la actualidad los buscadores funcionan con unos índices automáticos que se actualizan continuamente mediante arañas. Una araña o spider es un programa cuya función es la de recorrer la web y recolectar información que posteriomente será indexada. La araña más conocida y que más tiempo lleva rastreando la red es el Googlebot, encargado de recoger los links que después se encontrarán en Google.


Las arañas o robots

El nombre de araña viene por su funcionamiento: recorrer la red (web). Hay muchísimas arañas recorriendo la red. De hecho cualquiera puede programar una araña y enviarla a que recopile información. Aquí tienen dos enlaces de cómo programar arañas en Java y una a un foro donde se habla de cómo programarlas en diversos lenguajes.

Las principales arañas son Google Bot (Google), Slurp (Yahoo), MSNBot (Microsoft) y Teoma (Ask). El proceso de recopilación de una araña es el siguiente:

  1. Una araña visita tu página web, entrando por el root, lee TODO el contenido y crea una lista de lo que ha encontrado.
  2. La información es indexada según los algoritmos internos usados por el buscador
  3. Esta información es llevada a una central donde se almacena.
  4. Cuando alguien realiza una búsqueda, y el sistema muestra todas las webs que contienen la palabra o frase buscada.

El orden en que muestra los resultados depende de los algoritmos internos en los que se tienen en cuenta “la importancia” de una página web.

Las arañas al recorrer nuestra web van dejando un rastro de logs (bitácoras). De esta forma podrás saber con un programa de estadísticas que arañas que te han visitado entre otras cosas. Para conseguir que una araña visite nuestra web basta con indicarlo al adquirir el dominio o si es un Gestor de Contenidos (CMS) indicándolo en la instalación… Si apareces en otra página que es ratreada por una araña automáticamente te rastreará la tuya.

Por cierto las arañas también tienen ciertas limitaciones ya que no pueden recorrer código JavaScript, enlaces en botones, pop ups, presentación en flash…

Robots.txt

Hay muchas veces que no querrás que las arañas recorran y sobretodo indexen muchas de las cosas de tu site. Para ello se usa el Protocolo de Exclusión de Robots. Deberemos crear un archivo llamado robots.txt y guardarlo en el root de nuestro site. Lo primero que harán las arañas al entrar en tu web será leer este archivo y peinar tu site según sus parámetros (si no existe o no hubiese ningún parámetro lo recorrerá entero)

Como crear un fichero Robots.txt

Cómo funciona Google

Tal y como he dicho antes, un motor de búsqueda funciona con arañas que recopilan la información de los websites. En el caso de Google utiliza su mitiquísima araña GoogleBot, la araña más antigua. Lo que diferencia a Google y lo ha hecho famosísimo, entre otras cosas, son sus algoritmos de ordenación: PageRank y Relevancia.

El PageRank es el más conocido. En la Wikipedia está definido de una forma sencilla y concreta:

PageRank confía en la naturaleza democrática de la web utilizando su vasta estructura de enlaces como un indicador del valor de una página en concreto. Google interpreta un enlace de una página A a una página B como un voto, de la página A, para la página B. Pero Google mira más allá del volumen de votos, o enlaces que una página recibe; también analiza la página que emite el voto. Los votos emitidos por las páginas consideradas “importantes” valen más, y ayudan a hacer a otras páginas “importantes”.

Por supuesto el PageRank es muy complejo, depende de muchísimas más variables pero como descripción general para que se entienda está bien. Para los interesados pueden echarle un vistazo a este artículo que explica el PageRank según su fórmula.

Ver tu PageRank

El segundo algoritmo usado por Google es mucho menos conocido y se le llama algoritmo de Relevancia. Su lógica es la siguiente: Google quiere saber si realmente tu página versa sobre el tema que el usuario está buscando.

Cada una de las palabras que forman nuestra página web es contada y divida por el número total de palabras. De esta manera se obtiene la densidad de esa palabra. Por otro lado a cada espacio de nuestra web se le asigna un valor que se le multiplicará a la densidad de esa palabra. El orden de importancia (aproximado) de cada una de las localizaciones es el siguiente:

  1. Densidad en la URL
  2. Densidad en el Titulo de la página (tag “title”)
  3. Densidad en la descripción (Google no lo tiene en cuenta, para buscadores que no son Google sí es importante)
  4. Densidad en cabeceras (H1,H2, etc…)
  5. Densidad en el nombre de enlaces
  6. Densidad en palabras en negrita
  7. Densidad en textos alternativos (ALT)

SiteMaps, el futuro de la indexación

Como hemos dicho antes, hasta ahora las arañas recorrían nuestra web desde el directorio raíz (buscaban el archivo robots.txt para ver los parámetros de indexación) y comenzaba a peinar el sitio indexando CASI todo el contenido. Al decir casi todo es que con esta indexación Google en muchísimas ocasiones no accede a todo el contenido y esto produce estragos en los resultados.

Google Sitemaps nos propone la creación del mapa de un sitio web en XML siguiendo unas especificaciones determinadas. De esta manera las arañas de Google tendrán una información muchísimo más completa de lo que debe indexar y lo que no, accediendo, ahora sí, a TODO el site.

Foro | Crea tu SiteMap

Web | Sitemap en Robots.txt

WordPress | Plugin para SiteMap

Oficial | SiteMap

Otra novedad es que las arañas detectarán las novedades que se han producido en el site sin tener que recorrerlo todo. Una vez tenemos el sitemap hecho podemos darlo de alta en Google SiteMaps y en de 4 horas, Google lo habrá indexado.

Wikipedia, MailxMail, HowStuffWorks

  1. meneame.net
    meneame.net
    at /
  2. Fresqui.com
    Fresqui.com
    at /
  3. Noticias: pagerank, hawking, hryptonita, cálico at Pisito en Madrid
    Noticias: pagerank, hawking, hryptonita, cálico at Pisito en Madrid
    at /
  4. Blisco
    Blisco
    at /

    Interesante y buen documento para tener en cuenta al buscar o publicar un site.. gracias por compartirlo amigo

  5. moniks
    moniks
    at /

    k padre pagina!

    klara , konsisa, y explikativa!

    grax x realizarla

  6. SEO: Incrementa el valor de tus páginas at Pisito en Madrid
    SEO: Incrementa el valor de tus páginas at Pisito en Madrid
    at /
  7. MIGUELHANCCOCCALLO ROJAS
    MIGUELHANCCOCCALLO ROJAS
    at /

    🙄 😆 hola me llamo cristian quiero saber el funcionamiento de un motor y partes del mortor y tambien aser una diapositiva sobre moteres

  8. Antonio
    Antonio
    at /

    Por fin me hago una idea de como discurre el dios Google.
    Muy bueno.

  9. pam3la
    pam3la
    at /

    quiero saber como funciona una pagina web el esquema de conexion 😳

  10. Alma yaneth sánchez sánchez
    Alma yaneth sánchez sánchez
    at /

    Que le hace falta más información,pero esta bien la poca información que tienenh bay saluditos a todos

  11. Arturo
    Arturo
    at /

    Sencillamente útil, 😆

  12. betacontinua » “aguamala y búcaro” en el tejido Google.
    betacontinua » “aguamala y búcaro” en el tejido Google.
    at /
  13. illas
    illas
    at /

    Interesante información, sencilla y comprensible.

  14. yadira
    yadira
    at /

    hola muy buena explicacion
    sabras donde encontrar documentos cientificos que respalden informacion sobre este teme “motores de busq”
    es para una investigacion, mi correo es [email protected]

  15. Introducción al SEO at Pisito en Madrid
    Introducción al SEO at Pisito en Madrid
    at /
  16. Compuanalisis
    Compuanalisis
    at /

    Fantastico, el documento esta bastante interesante.

  17. fires
    fires
    at /

    Muy buen articulo. Quisiera saber si tienes mas información sobre el tema porque estoy realizando un paper. Muchas gracia y espero una respuesta sea positiva o negativa
    saludos

  18. SAM H
    SAM H
    at /

    Excelente este artículo, si lo escribiste vos 10 puntos, solo agrandaría la segunda foto, saludos.

  19. joselo
    joselo
    at /

    saludos,
    puedes dar consejos para posicionar un blog o una web

  20. victor
    victor
    at /

    realmente es una buena informasion de la encontrada….

  21. Buscando al usuario que busca en un buscador | La Cooperativa Comunicativa
    Buscando al usuario que busca en un buscador | La Cooperativa Comunicativa
    at /
  22. Pastillas Rojas con Cianuro, 3ª parte: Seeks y Yacy
    Pastillas Rojas con Cianuro, 3ª parte: Seeks y Yacy
    at /
  23. Pastillas Rojas con Cianuro, 3ª parte: Seeks y Yacy | LFalcon
    Pastillas Rojas con Cianuro, 3ª parte: Seeks y Yacy | LFalcon
    at /

Los comentarios están cerrados.