¿Qué son los robots de Google?

Google sale constantemente a buscar páginas nuevas y/o actualizadas para añadirlas a su índice y hay un programa encargado de esto al que se llama Googlebot, los famosos robots o arañas (spiders). Entonces, Googlebots son la forma de llamar a los robots de búsqueda cuya única misión en esta vida es coleccionar documentos web para ir construyendo una base de datos que es la que utilizará el motor de búsqueda de su amo.

Los Googlebots emplean un proceso basado en algoritmos que determinan los sitios que deben rastrearse, la frecuencia y el número de páginas que hay que obtener de cada sitio. Estas listas de sitios webs se amplia al detectar vínculos a otras páginas.

¿Qué es la indexación?

La indexación es el procesamiento de esas páginas rastreada y es lo que crea el índice que usa Google para darnos resultados cuando hacemos una búsqueda.

De hecho, los robots no guardan nuestras páginas sino que las analizan y hacen un índice de todas las palabras que ven y de su ubicación. Además, procesan la información de la etiqueta TITLE y el contenido de los atributos ALT de las imágenes; tampoco lo hacen con todo lo que tiene una página, por ejemplo, no procesan el contenido de la mayoría de los archivos Flash o de las páginas dinámicas.

¿Sólo leen documentos HTML?

No, también extraen información o indexan otro tipo de archivos: PDF, PS (Adobe PostScript), hojas de Lotus (wk1, wk2, wk3, wk4, wk5, wki, wks, wku, lwp) y Excel (xls), documentos de texto MW, DOC, WRI, RTF, ANS, TXT; presentaciones de PowerPoint (ppt), archivos de Microsoft Works (wks, wps, wdb) y swf.

Esto lo hacen para dar más resultados, de hecho, podemos hacer una búsqueda indicando que nos muestre sólo determinado tipo de archivos, por ejemplo:

filetype:doc "texto a buscar"

En la mayoría de los casos, aún cuando no tengamos el software necesario para interpretarlos, se nos mostrará la opción de verlos como HTML o como texto plano.

De manera inversa, podemos eliminar cierto tipo de resultados de una búsqueda, usando un filtro, por ejemplo:

-filetype:pdf "texto a buscar"

¿Cada cuanto tiempo nos visitan?

Ellos dicen "con regularidad" pero no dan precisiones, hablan de muchos factores que pueden influir pero, lo cierto es que la frecuencia con la que acceden a un sitio depende casi exclusivamente del PageRank que tenga. Cuanto más alto sea, más asiduamente será visitado (la riqueza genera riqueza). Entonces, pueden hacerlo diariamente o tardar semanas.

Google está orgulloso del PageRank y nos hace saber que es el corazón de todo su sistema:

"The heart of our software is PageRank™, a system for ranking web pages developed by our founders Larry Page and Sergey Brin at Stanford University. And while we have dozens of engineers working to improve every aspect of Google on a daily basis, PageRank continues to play a central role in many of our web search tools."

De cualquier manera, si tenemos sitemaps, estos son descargados regularmente:

atom.xml?redirect=false&start-index=1&max-results=500 descargado hace 8 horas
atom.xml?redirect=false&start-index=501&max-results=500 descargado hace 7 horas
atom.xml?redirect=false&start-index=1001&max-results=500 descargado el 16/05/2008
atom.xml?redirect=false&start-index=1501&max-results=500 descargado hace 23 horas

¿Por qué Google no indexa todas las páginas de mi sitio?

No existen garantías de que se rastreen todas las páginas de un sitio. Como el PR se basa en enlaces y es la clave de todo el sistema, para asegurarse de ser indexados, hay que hacerse amigo de los poderosos y conseguir que algún otro sitio tenga un enlace al nuestro. No es chiste, ellos mismos lo dicen: "Consiga que otros sitios relevantes enlacen con el suyo."

Hay otras alternativas para pobres bloggers como nosotros:
De cualquier forma, el resultado jamás es un 100% efectivo:

Estadísticas del sitemap:
Total de URL: 1619
URL que se han indexado: 1482

¿Puedo hacer algo para que mi sitio sea indexado mejor?

Una vez que Googlebot ha rastreado nuestra página, seguirá los enlaces que en ella encuentre (los contenidos de los atributos HREF de los enlaces y SRC de las imágenes) así que los vínculos deben ser claros porque esos vínculos también son enlaces a otras páginas de nuestro sitio. Recordemos que ciertos menúes no son indexados (Flash, por ejemplo).

Algunas recomendaciones:
  • se debe poder acceder a todas las páginas desde al menos un vínculo de texto estático
  • tener mapas del sitio con vínculos que apunten a las secciones importantes
  • evitar las imágenes para mostrar nombres o vínculos ya que los robots no los leen
  • sacarle provecho al atributo ALT colocando textos precisos
¿Puedo verificar si mi sitio es "indexable"?

Es difícil, podemos usar un navegador de texto como Lynx aunque es complejo instalarlo. También podemos usar los navegadores que ya disponemos si logramos bloquear las funciones avanzadas (JavaScript, cookies, frames, DHTML, Flash).

Podemos ver lo que Google "ve" yendo a la página Estadísticas detectadas por Googlebot donde se nos mostrarán las palabras clave y las frases que otras páginas utilizan cuando enlazan con la nuestra.

¿Hay una lista de cosas que debo hacer y cosas que no debo hacer?

Para Google, hay una serie de directrices de calidad especificadas en el Centro de Asistencia para webmasters que dice algo así:
  • Cree páginas para usuarios y no para motores de búsqueda.
  • No engañe a sus usuarios ni presente a los motores de búsqueda contenido distinto al que les muestra a ellos; esta práctica se conoce como "encubrimiento".
  • Evite trucos destinados a mejorar los rankings en los motores de búsqueda
  • No participe en esquemas de vínculos diseñados para incrementar el ranking o el valor de PageRank de su sitio.
  • Evite vínculos que enlazan con los creadores de sitios fraudulentos o "vecindarios indeseables" de la web, ya que su propio ranking podría verse afectado negativamente por ellos.
  • No utilice programas informáticos no autorizados para enviar páginas, comprobar rankings, etc., ya que estos consumen recursos informáticos y vulneran nuestras Condiciones de servicio.
  • Google no recomienda el uso de productos como WebPosition Gold™ que envían consultas automáticas o de programación a Google.
  • Evite utilizar texto o vínculos ocultos.
  • No cree varias páginas, subdominios o dominios que presenten básicamente contenido duplicado.
  • No cree páginas que instalen virus, troyanos u otros tipos de software malicioso.
¿Puedo evitar que Googlebot siga los vínculos de mis páginas?

Los Googlebots intentarán acceder siempre a un archivo llamado robots.txt que puede indicar las zonas del sitio donde no queremos que entre pero, para Blogger esto no es una alternativa viable pero podemos usar alguna etiqueta META específica:

Para evitar que Googlebot rastree vínculos de sus páginas que enlazan con otras páginas o documentos:
<META NAME="Googlebot" CONTENT="nofollow" />

Para evitar que cualquier robot indexe una determinada página:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW" />

Para que todos los robots, excepto los de Google, indexen una página:
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW" />

Para que los robots indexen una determinada página pero no rastreen los enlaces salientes:
<META NAME="ROBOTS" CONTENT="NOFOLLOW" />

Para que los robots indexen una determinada página pero no las imágenes:
<META NAME="ROBOTS" CONTENT="NOIMAGEINDEX" />

¿Entonces estamos en manos de Googlebot y sus berrinches?

Si, pero peor; Googlebot viene en dos versiones, Deepbot y Freshbot.

El llamado Deepbot es el que hace el trabajo fino, el que se mete en todos lados y trata de seguir cualquier enlace, el que pone las páginas en la caché y las deja allí para que Google las procece. Se dice que este trabajo es completado en un mes y luego, comienza otra vez.

El Freshbot es el que hace la tarea rápida, el que sólo busca contenido nuevo. Visita sitios que cambian frecuentemente y podrá hacerlo todos los días o una vez cada 15 días, dependiendo de la frecuencia con que actualicemos nuestro contenido.

También podemos solicitarle a Google que aumente la frecuencia de rastreo pero, lo hará sólo temporalmente:

La velocidad de rastreo actual de este sitio es Más rápido. La velocidad volverá al estado Normal el 23/05/2008.

¿Por qué no puedo ver mi sitio en los resultados de búsqueda?

A veces, la fluctuación en los resultados de las búsquedas tiene que ver con discrepancias entre los diferentes centros de datos que consulta Google. Como no todos se actualizan simultáneamente, puede haber diferencias entre los resultados de búsqueda dependiendo del centro que se encargue de procesar la consulta.

Los resultados también cambian a medida que se va agregando y modificando la red. El ranking puede hacer que algunos sitios cambien de posición en los resultados e incluso, eventualmente, que desaparezcan.

Google dice que, si nuestro sitio no aparece en los resultados de búsqueda o su posición es inferior a la que tenía, primero que nada, deberíamos comprobar que se encuentra en el índice realizando una búsqueda con el parámetro site: (teniendo en cuenta que no debe haber espacios entre ese parámetro y el nombre del sitio):

site:vagabundia.blogspot.com

Resultados 1 - 10 de aproximadamente 1.840 de vagabundia.blogspot.com (0,12 segundos)

El Asistente informativo sobre el estado del sitio permite comprobar el estado de indexación de un sitio web y además, nos informa de la última vez que Google accedió a la página principal.

Rastreo de la página principal: Googlebot accedió correctamente a su página principal por última vez el 14/05/2008.
Estado del índice: Algunas páginas de su sitio están incluidas en el índice de Google.

Si el sitio figura entre los resultados cuando se realiza una búsqueda de la dirección, eso indica que está incluido en el índice. Por el contrario, si el sitio ya no aparece en el índice, cuando antes sí que lo hacía, es posible que haya sido eliminado debido a una infracción.

También es importante asegúrarse que Google pueda encontrar el sitio, que no existan errores de rastreo, que su contenido se basa en texto y que ese texto es legible.

¿Qué es un SEO? ¿Google los recomienda?

Un SEO (Search Engine Optimizer) es un optimizador de motores de búsqueda. Son empresas consultoras que ofrecen servicios a los propietarios de sitios web y, al igual que en el resto de la ida, hay de todo, útiles e inútiles, serios y tramposos. Sobre ese tema, lo único que hace Google es advertir:
  • Desconfíe de compañías de SEO y consultorías o agencias web que le envíen mensajes de correo no solicitado.
  • Nadie puede garantizarle el primer puesto en el ranking de Google.
  • Desconfíe de una compañía con secretos o que no explica claramente sus intenciones.
  • No debería tener nunca un enlace a un SEO.
  • Puede que algunos SEO intenten venderle la capacidad de escribir palabras clave directamente en la barra de direcciones del navegador.
  • Elija con cuidado y asegúrese de que ha entendido a dónde va su dinero.

¿Y todo esto me servirá para algo?

¡Vaya pregunta!


REFERENCIAS:
  • Página principal del Centro de Asistencia de Google Webmasters
  • 14 comentarios:

    Turko  

    Excelente análisis de los extraños bichos de Google

    Responder
    Anónimo  

    Bien gran Jmiur muy buen post, sumamente interesante, felicitaciones maestraso.

    Responder
    Anónimo  

    Otra cosa interesante Gran Jmiur que he observado es que por decir en el caso de mi blog, cuando escribo mundo libre en Opera aparece en la cuarta o sexta posicion, en firefox primero pero en internet explorer 1 o segundo.

    Mejor dicho al parecer tambien influye hasta el navegador que uno utiliza.

    Y yo utilizó Opera el 85% de las veces.

    Interesante verdad ¿?¿?

    Responder
    Anónimo  

    exelente articulo como siempre!!

    Responder
    JMiur  

    En realidad, no se trata de otra cosa que una recopilación de la información que proporciona el mismo Google en sus diferentes páginas de ayuda pero, imagino que, muchos nunca las habían leido. Yo tampoco, por cierto :$

    Lo de las diferencias entre navegadores me sorprende, nunca escuché nada así pero, lo cierto es que todo es demasiado misterioso. Probablemente, porque no quieren que sepamos su metodología o, por que no tienen ninguna y todo termina siendo un poco aleatorio y el azar influye demasiado ¿quién sabe? :D

    Responder
    Anónimo  

    Hace mucho que deje de ver los resultados de las visitas de google, es como leer el horoscopo todos los dias. Buen analisis de tu parte.

    A mi entender para que google te indexe un poca mas parido, yo puse un link de otra pagina que tengo ya indexada hace ufff y lo hizo rapido y me sirve, luego me adiciono al http://www.dmoz.org/ y me agregan varios buscadores, el resto es de poco a poco.

    Como haces para que tu busqueda en google aparezca con varias opciones debajo, ya muchas veces aceptan tus paginas de tu menu.?

    Saludos amigo.

    Responder
    JMiur  

    Buen método ;)

    La pregunta vas a tener que aclarármela un poco porque no la comprendí.

    Responder
    Anónimo  

    Google hace lo que quiere con nosotros.

    Muchos critican el monopolio y las practicas abusivas de Microsoft, pero me parece que Google viene haciendo lo mismo hace rato.

    Nos mete el dedo "ahì" y parece que nos gusta.

    Para muestra basta el escasamente importante PageRank, las miserias de Adense, el inestable Blogger, el poco original Picasa, el monótono Earth, el... ya canso, mejor me voy a dormir. Mañana debo levantarme temprano, y aún sin siquiera tomar el primer mate matutino, controlar si los 20 clicks que me hicieron en mi pub, bastaron para llegar a los 0,50 USD en Adsense. :P

    Responder
    JMiur  

    Nada que agregar excepto que, y bueh, tiene razón, amigo Rasa :)

    Responder
    La Blogueria  

    Me asombra lo que comenta MundoLibre sobre los navegadores. Extraño. En cuanto a la indexación de Google, recuerdo un caso anonadante, estaba escribiendo un post sobre aquellos problemas de no poder cerrar la plantilla si había en la cabecera etiquetas "div"... lo publiqué, me fumé un cigarrillo, y dcidí que haría un poco más de investigación para agregar a la entrada. Cuando fui a Google (o sea, apenas 7 minutos después de publicar el post), hice mi búsqueda sobre "your template is invalid because..." y mi recientísimo publicado post aparecía en primer lugar.

    Y ojo, que nunca he sabido configurar un sitemap de esos, por mas que leo aquí y allí cómo hacerlo, no me entero de nada. Acerté a enviar mi URL (gracias, Gema) y listo.

    Sí es verdad que Google es una gran multinacional de ésas que a todos nos revientan pero en este caso, caen bien. A mí me caen bien la mayor parte del tiempo. Creo que es una incongruencia y una inteligente manipulación. ¡Pero concho! me caen bien.

    Además, tengo un par de blogs gratis gratis gratis, entre otras cosas que agradecerles, y si alguien ha de hacer todo esto, ¿por qué no ellos? me caen mucho mejor que Bill.

    Saludos.

    Responder
    Anónimo  

    Estimado J.Muir,

    Aca pongo el enlace de la imagen para que comprendas mi consulta, solo para conocimiento, jejeje

    "enlace"

    Responder
    JMiur  

    La Bloguería:
    Lo de los navegadores es realmente curioso, a mi también me extraña.

    Lo de la indexación ultra-rápida, no tanto, suele pasar y también pasa lo contrario, que tarde horas y horas. Todo parece bastante aleatorio a menos que influyan los horarios, no lo sé.

    PocaTinta:
    Ya comprendo.
    Eso no es algo que yo haga sino que hace Goggle.

    Si vas a las herramientas para webmasters, en ENLACES, ENLACES DE SITOS, los mostrará, si es que Google los ha creado. Dice:

    "Los enlaces de sitio son enlaces adicionales que Google genera en ocasiones a partir de los contenidos de los sitios para ayudar a los usuarios a navegar por el sitio de los propietarios de sitios web."

    "Debido a que generamos enlaces de sitio de manera dinámica, esta lista puede cambiar periódicamente."

    Responder
    Anónimo  

    Muy útil, practica y sencilla explicación.

    Responder
    Unknown  

    Caballero exelente su post, yo bueno me gano la vida de SEO charralero, con mucho esfuerzo e logrado colocar mi pagina en los primeros lugares de busqueda de diseño web costa rica y mercadeo web costa rica... y todo lo que he aprendido es leyendo exelentes post como este... hay tres cosas para tener tu pagina en primero en top ten, contenido original, dejar el nombre de tu web en todo lado (links, foros, blogs, directorios)y tercero hacer esto todos los dias... jeje el compañero poca tinta escribio que como se hace para que tu pagina aparezcan otras secciones incluidas, pues bien google bot incluye otras paginas cuando estas son importantes tambien, asi que si sigues los tres pasos no solo en el index sino en esas otras secciones de tu página tambien apareceran... todo es cuestion de no hacer SEO solo en la principal sino tambien en las diferentes secciones jeje, y como les decia que el paso dos era intercambiar links o dejar el nombre de tu web por todo lado pues les dejo mi link a cambio del tip www.credipaginas.com luego me doy la vuelta a ver como va este articulo que esta muy interesante!
    psdta: dejen su link o intercambien solo con sitios buenos...
    atte Kris

    Responder

    ¿Quiere dejar un comentario?

    recuerde que los comentarios están siendo moderados y serán publicados a la brevedad ...

    Nota: sólo los miembros de este blog pueden publicar comentarios.

    Si le gusta ir a lo seguro utilice este botón para abrir los comentarios en una ventana modal en esta misma pagina.

    Si añora tiempos idos, use este enlace para agregar un comentario al viejo estilo ...

     
    CERRAR