No creo poder dar explicaciones técnicas al respecto pero, por lo menos intentaré mostrar un resumen de la información disponible y, más que nada, pensar en voz alta a ver si puede sacarse alguna conclusión razonable.
Primero que nada, un problema de simple aritmética. En el post se dice:
Con Indexrank podemos saber cuál es la cantidad de páginas de un sito que han sido indexadas por Google a lo largo del tiempo ... el ranking final varía del 1 (mejor resultado) a 10 (peor resultado) ...
En muchos sentidos, esto es similar al PageRank que simplifica billones de páginas o sitios web y los "divide" en diez partes. Pero, desde la lógica, la distancia o rango entre los extremos de esa división es tan monstruosamente alto que parece irracional que un número entre 1 y 10 signifique algo.
Veamos. Para saber la cantidad de páginas indexadas por Google basta ir al buscador y escribir site:URL sin el prefijo http:// y, eventualmente, sin www. Haciendo esto, en tres sitios que imagino importantes aparecen estos resultados:
site:microsoft.com 31.100.000 de páginas indexadas
site:google.com 17.500.000 de páginas indexadas
site:yahoo.com 295.000.000 de páginas indexadas
Cualquier otro blog conocido que coloque da resultados que varían entre 200 y 4.000 páginas indexadas.
Entre 200/4000 y 295.000.000 la distancia es astronómica. Si Yahoo tuviera un ranking de 1 y nosotros de 10 podríamos aplaudir y hacer una fiesta; sólo nos separarían nueve escalones. El problema es que esos escalones tienen diferentes alturas y algunos son tan altos como el Everest.
Pero eso no es todo. El valor del "ranking" es absurdo. Esta es una captura de pantalla tomada hace unos minutos:
¡Este blog tiene el mismo ranking que Google!.
Alguien está consumiendo lo que no debe.
¿Y entonces para que nos sirve la herramienta? Es una forma de simplificar la búsqueda que podemos hacer desde el mismo Google y comparar promedios con otros sitios y con muestra propia indexación a lo largo del tiempo.
Aquí viene el segundo punto, la cantidad de páginas indexadas parece "baja" comparada con otros sitios ¿por qué?
Los robots que usa Google son llamados Googlebots, lo que hacen es recorrer la web y cuando encuentran una página, la guardan en el índice. En realidad, son computadoras que funcionan como los navegadores, hacen un pedido a un servidor, descargan la página y la guardan. Claro que miles de veces más rápido y de manera discreta, para evitar saturar los servidores ¿Y cómo encuentran esas páginas? Por un lado, porque nosotros les decimos que lo hagan agregando nuestra URL en www.google.com/addurl.html o porque tenemos marcada la opción SI de la Configuración Básica de Blogger:
¿Deseas añadir tu blog a nuestras listas?
o en Opciones Privacidad de WodPress:
Blog visibility: I would like my blog to be visible to everyone, including search engines (like Google, Sphere, Technorati) and archivers
Imagino que en cualquier otro servicio habrá opciones similares.
Pero, también lo hacen siguiendo los enlaces de cada página, tomando nota de ellos y agregándolos a su lista.
Para mantener ese índice actualizado, Google revisa las páginas y si evalua que sufren cambios constantes, las marca para "visitarlas" más seguido. Esto, en los servicios de blogs carece de importancia porque es el mismo servicio el que envía ese aviso cada vez que publicamos algo. Pero, allí no termina el trabajo.
Los Googlebots guardan el contenido de las páginas como textos y las desmenuzan hasta convertirlas en una lista de palabras ordenadas alfabéticamente lo que permite que encontremos términos específicos cuando buscamos algo. Y, por supuesto, pasa por alto ciertas palabras de uso común (stop words) así como dígitos, caracteres sueltos, dobles espacios, signos de puntuación y para evitar conflictos, convierte todo a minúsculas.
Cuando se habla de páginas indexadas no estamos hablando de enlaces sino de cuántas páginas dispone nuestro blog. En Blogger, siempre que usemos varios sitemaps, es aproximadamente igual a la suma de posts más la cantidad de meses que tengamos online sin importar si usamos blogspot o tenemos un dominio propio:
site:gemablog-.blogspot.com 414 páginas indexadas
site:spamloco.net 806 páginas indexadas
Otros servicios como WordPress tienen una indexación más eficiente porque se pueden crear páginas individuales, las páginas de archivos y las de categorías se indexan una por una, etc, etc.
El resultado final es sustancialmente distinto:
site:zonafirefox.net 3300 páginas indexadas
site:cosassencillas.com 2030 páginas indexadas
En mi caso particular, como conozco los datos, puedo compararlos con exactitud ya que uso ambos servicios.
site:vagabundia.blogspot.com
1530 páginas indexadas - 1.439 entradas - online desde el 30 de agosto del 2006
1250 páginas indexadas - 637 entradas - online desde el 10 de febrero del 2007
¿Se nota la diferencia?
Por último, algunos mitos:
- Google sólo indexa sitios que tengan colocado el código de Google Analytics: FALSO
- Google sólo indexa sitios que usen Google AdWords: FALSO
- Google sólo indexa sitios que usen Google AdSense: FALSO
- Google sólo indexa páginas si se utiliza el atributo nofollow: FALSO
- Google indexa páginas que no están en el sitemap: ES POSIBLE
- Google indexa páginas que no tienen enlaces de otros sitios: CIERTO
- Google indexa páginas visitadas a través de Google Toolbar: CIERTO
- Google indexa mejor los sitios que usan sitemaps: CIERTO
REFERENCIAS:
5 comentarios:
Antes si no me equivoco para Blogger también indexaba los comentarios, o sea figuraban en el site:URL. Ahora muestra más o menos los mismos post.
Ah, por cierto, en el sitemaps de las Herramientas para Webmaster, sigo con tu truco y de unas 800 url enviadas, me marca 790 indexadas.
:-)
Es cierto, me parece que es así como decís, tengo la impresión que antes se indexaban.
Diez no es nada, en mi caso, faltan 34 :D
¿Hiciste este post en febrero de 2008 y dijiste que vagabundia.bolsanegra.net tenía 637 entradas en ese mismo mes y año?
Acá el que consume lo que no debe sos vos, jajajaja.
Google también es un poco así, tengo un post que si lo busco con site:nombredemiblog.blogspot.com título no sale, pero si lo busco por la URL en Google sí se ve.
Hola
ultimamente estoy teniendo muchos problemas con la indexacion de los blogs.Lo mismo me aparecen unos con una indexacion de un 80% o 90% y otros 0% indexacion.En herramientas para webmasters, en el acceso de rastreadores me da el codigo 200, que es correcto. Pero la indexacion sigue siendo 0%.En errores de rastreo aparece esto--En sitemaps (1)
Inaccesible (3)
No se ha encontrado (59)
Restringida por robots.txt (72)
Esto creo que es normal, porque lo vengo viendo en todos los blogs.
Podrias hacerme alguna sugerencia, para solucionar este descontrol que tengo con la indexacion en los blogs.
Saludos
Pepo
Las advertencias "Inaccesibles" como "Restringida por robots.txt" son normales.
"No se ha encontrado" depende de lo que no se haya encontrado; pueden ser enlaces de tu mismo sitio y que pueden ser corregiods o de sitios externos que no pueden ser corregidos.
De lo otro nada puedo decirte; si el sitemap está enviado correctamente y no muestra errores, no sé que puede ocurrir; puede probar de enviar el sitemap nuevamente.
¿Quiere dejar un comentario?
recuerde que los comentarios están siendo moderados y serán publicados a la brevedad ...
Nota: sólo los miembros de este blog pueden publicar comentarios.
Si le gusta ir a lo seguro utilice este botón para abrir los comentarios en una ventana modal en esta misma pagina.
Si añora tiempos idos, use este enlace para agregar un comentario al viejo estilo ...