A raíz del artículo que hice para TechTear: Hacking ético, aprende hackeando (que ha sido plagiado en diversas ocasiones), se me ocurrió la idea de abrir una nueva categoría llamada “Como funciona…” donde intentaré explicar lo mejor que pueda e informándome muy bien de cómo funcionan las cosas. Empezaré con: un motor de búsqueda… vamos un buscador!
Introducción
Se suele decir que en Internet está TODO. La verdad es que Internet es una fuente de información inagotable e inmensa, aunque no todo esté bien o comprobado. Para poder encontrar esa información necesitamos usar un motor de búsqueda.

Ahora mismo hay miles de buscadores (Google, Yahoo!, MSN Live…) y metabuscadores (Whonu, CrossEngine, Allth.at…) pero antes de Google, y quitando el caso de Altavista, los buscadores eran directorios de “tags” de páginas web. Estos tags los incluías en buscadores los cuáles definían tu contenido. Los buscadores realizaban una búsqueda entre esas palabras.
En la actualidad los buscadores funcionan con unos índices automáticos que se actualizan continuamente mediante arañas. Una araña o spider es un programa cuya función es la de recorrer la web y recolectar información que posteriomente será indexada. La araña más conocida y que más tiempo lleva rastreando la red es el Googlebot, encargado de recoger los links que después se encontrarán en Google.
El nombre de araña viene por su funcionamiento: recorrer la red (web). Hay muchísimas arañas recorriendo la red. De hecho cualquiera puede programar una araña y enviarla a que recopile información. Aquí tienen dos enlaces de cómo programar arañas en Java y una a un foro donde se habla de cómo programarlas en diversos lenguajes.
Las principales arañas son Google Bot (Google), Slurp (Yahoo), MSNBot (Microsoft) y Teoma (Ask). El proceso de recopilación de una araña es el siguiente:

- Una araña visita tu página web, entrando por el root, lee TODO el contenido y crea una lista de lo que ha encontrado.
- La información es indexada según los algoritmos internos usados por el buscador
- Esta información es llevada a una central donde se almacena.
- Cuando alguien realiza una búsqueda, y el sistema muestra todas las webs que contienen la palabra o frase buscada.
El orden en que muestra los resultados depende de los algoritmos internos en los que se tienen en cuenta “la importancia” de una página web.
Las arañas al recorrer nuestra web van dejando un rastro de logs (bitácoras). De esta forma podrás saber con un programa de estadísticas que arañas que te han visitado entre otras cosas. Para conseguir que una araña visite nuestra web basta con indicarlo al adquirir el dominio o si es un Gestor de Contenidos (CMS) indicándolo en la instalación… Si apareces en otra página que es ratreada por una araña automáticamente te rastreará la tuya.
Por cierto las arañas también tienen ciertas limitaciones ya que no pueden recorrer código JavaScript, enlaces en botones, pop ups, presentación en flash…
Robots.txt
Hay muchas veces que no querrás que las arañas recorran y sobretodo indexen muchas de las cosas de tu site. Para ello se usa el Protocolo de Exclusión de Robots. Deberemos crear un archivo llamado robots.txt y guardarlo en el root de nuestro site. Lo primero que harán las arañas al entrar en tu web será leer este archivo y peinar tu site según sus parámetros (si no existe o no hubiese ningún parámetro lo recorrerá entero)

Como crear un fichero Robots.txt
Cómo funciona Google
Tal y como he dicho antes, un motor de búsqueda funciona con arañas que recopilan la información de los websites. En el caso de Google utiliza su mitiquísima araña GoogleBot, la araña más antigua. Lo que diferencia a Google y lo ha hecho famosísimo, entre otras cosas, son sus algoritmos de ordenación: PageRank y Relevancia.
El PageRank es el más conocido. En la Wikipedia está definido de una forma sencilla y concreta:
PageRank confía en la naturaleza democrática de la web utilizando su vasta estructura de enlaces como un indicador del valor de una página en concreto. Google interpreta un enlace de una página A a una página B como un voto, de la página A, para la página B. Pero Google mira más allá del volumen de votos, o enlaces que una página recibe; también analiza la página que emite el voto. Los votos emitidos por las páginas consideradas “importantes” valen más, y ayudan a hacer a otras páginas “importantes”.
Por supuesto el PageRank es muy complejo, depende de muchísimas más variables pero como descripción general para que se entienda está bien. Para los interesados pueden echarle un vistazo a este artículo que explica el PageRank según su fórmula.

El segundo algoritmo usado por Google es mucho menos conocido y se le llama algoritmo de Relevancia. Su lógica es la siguiente: Google quiere saber si realmente tu página versa sobre el tema que el usuario está buscando.
Cada una de las palabras que forman nuestra página web es contada y divida por el número total de palabras. De esta manera se obtiene la densidad de esa palabra. Por otro lado a cada espacio de nuestra web se le asigna un valor que se le multiplicará a la densidad de esa palabra. El orden de importancia (aproximado) de cada una de las localizaciones es el siguiente:
- Densidad en la URL
- Densidad en el Titulo de la página (tag “title”)
- Densidad en la descripción (Google no lo tiene en cuenta, para buscadores que no son Google sí es importante)
- Densidad en cabeceras (H1,H2, etc…)
- Densidad en el nombre de enlaces
- Densidad en palabras en negrita
- Densidad en textos alternativos (ALT)
SiteMaps, el futuro de la indexación
Como hemos dicho antes, hasta ahora las arañas recorrían nuestra web desde el directorio raíz (buscaban el archivo robots.txt para ver los parámetros de indexación) y comenzaba a peinar el sitio indexando CASI todo el contenido. Al decir casi todo es que con esta indexación Google en muchísimas ocasiones no accede a todo el contenido y esto produce estragos en los resultados.

Google Sitemaps nos propone la creación del mapa de un sitio web en XML siguiendo unas especificaciones determinadas. De esta manera las arañas de Google tendrán una información muchísimo más completa de lo que debe indexar y lo que no, accediendo, ahora sí, a TODO el site.
Foro | Crea tu SiteMap
Web | Sitemap en Robots.txt
WordPress | Plugin para SiteMap
Oficial | SiteMap
Otra novedad es que las arañas detectarán las novedades que se han producido en el site sin tener que recorrerlo todo. Una vez tenemos el sitemap hecho podemos darlo de alta en Google SiteMaps y en de 4 horas, Google lo habrá indexado.
Wikipedia, MailxMail, HowStuffWorks











Utiliza el
Interesante y buen documento para tener en cuenta al buscar o publicar un site.. gracias por compartirlo amigo
Utiliza el
k padre pagina!
klara , konsisa, y explikativa!
grax x realizarla
Utiliza el
Utiliza el
Por fin me hago una idea de como discurre el dios Google.
Muy bueno.
Utiliza el
quiero saber como funciona una pagina web el esquema de conexion
Utiliza el
Que le hace falta más información,pero esta bien la poca información que tienenh bay saluditos a todos