JMiur [E]

Cuando se habla de indexar, estamos refiriéndonos a agregar una página web a la lista de resultados que mostrará un buscador. Quienes usan Blogger, no necesitan hacer nada para que esto ocurra; el servicio lo hace de modo automático a menos que indiquemos lo contrario en Configuración | Básico:

¿Deseas permitir que los motores de búsqueda encuentren tu blog?

Si seleccionas "Sí" incluiremos tu blog en la búsqueda de blogs de Google y haremos ping en Weblogs.com. Si seleccionas "No", todo el mundo podrá seguir viendo tu blog, pero los motores de búsqueda recibirán instrucciones de no rastrearlo. Si existen enlaces a tu blog en otros sitios web, es posible que los motores de búsqueda sigan sugiriéndolo en respuesta a una consulta.

También puede hacerse manualmente, ingresando en los distintos buscadores y siguiendo los pasos que ellos indican. Por lo general, basta completar un formulario indicando la URL del home del sitio y nada más. En el caso de Google, eso se hace en esta página.

Como dije al principio, en Blogger, nada de esto es necesario y además, podemos ayudar a esa indexación, agregando un sitemap a las Herramientas para Desarrolladores de Google ya que está integrado al servicio. Sin embargo, pese a que esa indexación automática nos facilita la tarea, también tiene su contrapartida negativa ya que nos vemos lógicamente limitados por una sencilla razón: no es cierto que TODAS las páginas de un sitio deben ser indexadas; hacer eso, es un error.

En términos generales, en un blog, sólo deberían indexarse la página principal, las entradas individuales y, eventualmente, alguna página estática que contenga información que consideremos importante; todo lo demás, debe ser ignorado y deberíamos evitar que sea indexado.

¿Que es todo lo demás?

En cualquier blog, se crean páginas dinámicas de distinto tipo. Si observamos la dirección URL del navegador, veremos cosas como estas:

http://vagabundia.blogspot.com/search/label/Blogger
http://vagabundia.blogspot.com/search?updated-max=2011-08-31T00%3A00%3A00-03%3A00
http://vagabundia.blogspot.com/2011_09_01_archive.html

Son páginas que se generan de manera automática y muestran las entradas de cierta etiqueta, las entradas anteriores o posteriores o las de cierta fecha. Todo ese tipo de página, no debería ser indexada.

¿Por qué? Porque es información irrelevante, son páginas duplicadas que contienen lo mismo que contienen las entradas individuales y por lo tanto, de alguna manera, "compiten" con ellas, restándoles importancia y haciendo que su posición "baje" en los resultados que muestra un buscador.

En el artículo donde se habla del efecto Google Panda, Alejandro, de SpamLoco, comparte algunas ideas interesantes sobre la forma en que podemos hacer pequeñas mejoras en nuestro blog y, por lo menos, saber que hemos hecho todo lo técnicamente posible; obviamente, el resto dependerá del contenido y ... la suerte.

La primera sugerencia es poner un noindex a las páginas generadas por el sistema de Archivos:

http://vagabundia.blogspot.com/2011_09_01_archive.html

Para eso, bastaría usar los condicionales de Blogger y poner en alguna parte del HEAD, lo siguiente:
<b:if cond='data:blog.pageType == &quot;archive&quot;'>
  <meta content='noindex' name='robots'/>
</b:if>
A esto, se le podría sumar algo que parecería un poco absurdo ya que, en teoría las páginas que poseen la palabra /search/ no son indexadas porque están bloqueadas; sin embargo, aún así, suelen aparecer en los resultados. Entonces, podríamos hacer lo mismo, será redundante pero, bien dicen que lo que abunda no sobra.

A este tipo de página se la reconoce como index pero, acá hay que tener cuidado ya que el home del sitio también es una página de tipo index así que el condicional debe contemplar ambas cosas:
<b:if cond='data:blog.pageType == &quot;index&quot;'>
  <b:if cond='data:blog.homepageUrl != data:blog.url'>
    <meta content='noindex' name='robots'/>
  </b:if>
</b:if>
Hay que recordar que las etiquetas META no son órdenes que se les da a los buscadores sino sugerencias y por lo tanto, que sean o no sean tenidas en cuenta, depende de su buena voluntad.

Indicar que la página se indexe es innecesario pero, de todos modos, podemos hacerlo y si se quiere resumir todo lo anterior, el código sería algo así:
<b:if cond='data:blog.pageType == &quot;archive&quot;'>
  <!-- las páginas de tipo Archivo no serán indexadas -->
  <meta content='noindex' name='robots'/>
<b:else/>
  <b:if cond='data:blog.pageType == &quot;index&quot;'>
    <b:if cond='data:blog.homepageUrl != data:blog.url'>
      <!-- las páginas de Etiquetas y Navegación no serán indexadas -->
      <meta content='noindex' name='robots'/>
    <b:else/>
      <!-- el home será indexado -->
      <meta content='all,index,follow' name='robots'/>
    </b:if>
  <b:else/>
     <!-- las páginas individuales y las páginas estáticas serán indexadas -->
    <meta content='all,index,follow' name='robots'/>
  </b:if>
</b:if>

19 comentarios:

Erwin  

Hola jMiur también tenemos otra opción de evitar la indexación de archivos esta vez sin metas -> Tips para Google Panda

Responder
Felipe  

Gracias por ponerlo tan clarito :)
Una cosilla, los comentarios "" y "" no están cambiadas?

Responder
Carlos Soler  

JMiur en el código que has resumido debe haber algún error, pues no me deja guardarlo en la plantilla. Gracias.

Responder
JMiur  

Erwin:
Eso que comentas no evita la indexación sino que impide que se creen esas páginas lo cual no es lo mismo ya que, en muchos casos, la existencia de ese tipo de navegación es fundamental.

Felipe:
Creo que si había algo de eso, espero que ahora este bien.

Carlos Soler:
Efectivamente, sobraban unas & ... se ve que, como acá falta poco para la primavera, andan floreciendo :D

Ya está arreglado. Garcias por el aviso.

Responder
Carlos Soler  

Muchas gracias JMiur a ver si a Google le gusta ;)

Responder
Adrián J. Messina  

Gracias por esta información caballero.
Una consulta novata antes de implementarlo.

¿Este debería de agregarse a la plantilla o además de agregarlo modificar las meta actuales?

Es decir yo tengo:
meta content='1 days' name='Revisit-After'
meta content='all' name='robots'
meta content='all, index, follow' name='robots'
meta content='all' name='googlebot'
meta content='all, index, follow' name='googlebot
meta content='all' name='yahoo-slurp'
meta content='all, index, follow' name='yahoo-slurp'
meta content='index, follow' name='msnbot'
meta content='all' name='googlebot-image'

¿Esto debe ser reemplazado por estas mejoras o agregarse?

Gracias por todo.

Responder
Erwin  

@jMiur es para evitar la generación de archivos. Esos que generan el 2011_09_01_archive.html

Responder
Jabba  

Houston, we have a problem.

Ante todo, saludos maestro. Tengo varios lectores que ya me han advertido en varias ocasiones que no pueden publicar comentarios usando su cuenta de Google. En el mejor de los casos llegan a publicar el comentario, me llega el mismo en la alerta que recibo en el email, pero el comentario desaparece del post por arte de magia sin que sea borrado ni por mi ni por ellos (y ya ha ocurrido varias veces). ¿Alguna idea del motivo? ¿Puede que tengan problemas con su cuenta de Google? ¿Blogger banea o restringe IPs o directamente a usuarios? Demasiadas preguntas para un miércoles por la tarde jeje. Todo cuanto usted sepa al respecto será bien recibido. Muchas gracias! :P

Responder
JMiur  

Adrián J. Messina:
Lo que dice esta entrada es que algunas de esas etiquetas META que enumeras, deberían quitarse y condicionarse de tal modo que varien según el tipo de página; sería el caso de todas estas que son las que controlan la indexación:

meta content='all' name='robots'
meta content='all, index, follow' name='robots'
meta content='all' name='googlebot'
meta content='all, index, follow' name='googlebot
meta content='all' name='yahoo-slurp'
meta content='all, index, follow' name='yahoo-slurp'
meta content='index, follow' name='msnbot'
meta content='all' name='googlebot-image'

aunque están repetidas, bastaría poner solo una o ninguna ya que, por defecto, las páginas siempre se indexan y lo único que debemos hacer, si queremos, es indicar cuales NO se quieren indexar.

Si empleas este método, debes eliminar todo eso y dejar el condicional, sino, no servirá de nada.

Erwin:
Si, lo sé. Justamente de eso hablo, no quiero que no se generen esos archivos, quiero que se se sigan generando; sólo quiero que no se indexen.

Jabba:
Es poco lo que puedo decirte, da la impresión de ser un problema de los usuarios en si mismo aunque es verdad que de tanto en tanto, se publica un comentario, se recibe la alerta y no se lo ve porque ha desaparecido. No es habitual pero ocurre.

¿Blogger banea o restringe IPs o directamente a usuarios?

Blogger elimina comentarios cuando considera que contienen enlaces peligrosos aunque en esos casos, deja una advertencia.

También es posible que banee usuarios cuando han sido reportados como spam y se haya comprobado que lo son. No creo que banee IPs ya que es algo bastante más complicado y poco efectivo. Si los usuarios con problemas son siempre los mismos, buscaría la respuesta por ese lado.

Si por el contrario, es algo aleatorio que pasa en cualquier momento y con cualquier persona, las cosas se complican y no veo forma de resolverlas ya que no tenemos herramientas para eso. Toda esa parte está controlada por Blogger mismo.

Responder
Jabba  

Pues por fortuna no parece aleatorio, he estado revisando los correos y si no se me escapa alguno sólo ha ocurrido hasta el momento con 2 lectores, solo que a estos sí les ha sucedido en varias ocasiones (la semana pasada llegué a recibir 4 alertas de comentarios de uno de estos lectores en un intervalo de 10 minutos de los cuales ninguno de ellos llegó a ser publicado en el blog, aunque aparentemente sí lo hizo porque me llegó al correo). Posiblemente el problema venga por ese lado y tal y como dices éstos tengan algún problema por haber sido reportados o algo similar.

Muchas gracias ;)

Responder
Adrián J. Messina  

¡Muchas gracias caballero!
A ver si Google nos guiña el ojo con esto =).

Responder
JMiur  

Jabba:
Sí, por el comentario, parece que el problema es del usuario en si mismo.

Responder
Viktor  

Esto está muy bien, pero además hay algo que me molesta... y es la indexación de los links de Blogger desde la versión paa movil, ya aparecen en Google, primero sale el nombre de la página y luego el título del post, ¿existe alguna forma de solucionar eso?, y si no... ¿como se hace para no indexarlo?, por cierto... ya regresé ahora si, estoy al aire nuevamente, :D :D :D :D

Responder
JMiur  

Con los títulos, no sé si te refieres a esto que es la forma de establecer la etiqueta TITLE del sitio..

Responder
Viktor  

Si, supongo que abarcará a todo el sitio, incluido los links que tienen el ?m=1 (versión móvil) y que ya aparecen indexados por Google.

Responder
Xaime  

Hola JMiur

Una consulta al hilo de esta entrada.

¿Sería posible evitar que Google indexara el contenido de un slider (elemento html) situado encima de las entradas?

Cuando, por ejemplo, alguna de las entradas es citada por el sistema de alertas de Google, después del título de la entrada el resumen incluye precisamente el texto de alguno de los apartados del slider, que nada tienen que ver con el contenido de la entrada.

¿Cuál sería el código a aplicar?

Un saludo y enhorabuena por tu blog, de gran utilidad para los que nos gusta personalizar nuestras publicaciones.

Xaime

Responder
JMiur  

Puedes intentar usar las etiqeutas indicadas en esta entrada o agregar un atributo nofollow a los enlaces de ese slider.

Responder
MenteNatural De Moda  

Hola Jmiur
En mi blog las imágenes ya no aparecen en google imágenes desde hace unos días, ¿qué puede estar pasando?
Hace un año le coloqué dominio .com y al dejar de ser blogspot.com se perdieron las visitas desde google, el blog tenía muchas vistas y se perdió al ponerle .com el 70 % u 80% de visitas que tenía. Lo que por experiencia colocar el .com de dominio fue un gran error. He continuado con el blog a ver si recuperaba, por lo menos el 50% de visitas que tenía y nada. Ha pasado un año y ahora le pasa que pierde las imágenes de google imágenes. Y es un blog con muchas imágenes, publicadas con contenido y (alt"",title"")...
Además cuando se publica algo nuevo, si buscamos por google el título de lo publicado (marcando en herramienta última hora, últimas 24 horas), no aparece nada de nada y la url si aparece indexada. He realizado la prueba en otro blog de prueba (con platillas de las normales) que ni tiene contenido (ya que esta en latín la prueba de los post) y he publicado algo y sí aparece en google al instante buscando por herramienta última hora, incluso aparecen imágenes. Demasiado extraño.
Y si no fuera poco, al enviar un ping de lo que se publica, las páginas a las que se envía el ping si aparecen posicionadas con el título de los los post. Pero mi blog ni rastro. Y tener visitas desde estas páginas es imposible ya que suelen tener el título del post y el poquito de contenido rodeado de publicidad...
He pensado cambiar la plantilla por si estuviera afectando, pero lo normal sería que no, es una platilla que se colocó a los dos meses después del cambio de dominio y tiene optimizado los encabezados, títulos (h1,h2 h3)...
No se que puede estar pasando. La solución será un blog nuevo. Pero el problema es perder el nombre de este y seguir haciendo cosas sin sentido en este, porque evidentemente algo no funciona porque no llegan visitas desde google y ahora ya ni desde imágenes, y no se si se puede recuperar...
A ver si me puedes decir algo que me pueda ayudar a solucionar estos problemas.
Un saludo
Muchas gracias

JMiur  

No es mucho lo que puedo decir. Efectivamnete, al cambiar el dominio, se pierden visitas ya que el sitio debe re-indexarse. Eso lleva más o menos tiempo; no hay un plazo exacto; un año es demasiado tiempo. .

Del resto, imposible decir nada excepto que la plantilla nada tiene que ver en el asunto.

Responder

¿Quiere dejar un comentario?

recuerde que los comentarios están siendo moderados y serán publicados a la brevedad ...

Todos los archivos y demos alojados en Fileden han sido redireccionados y deberían estar funcionando correctamente.
De todos modos, también puede accederse a ellos a través de SkyDrive

Nota: sólo los miembros de este blog pueden publicar comentarios.

Si le gusta ir a lo seguro utilice este botón para abrir los comentarios en una ventana modal en esta misma pagina.

Si añora tiempos idos, use este enlace para agregar un comentario al viejo estilo ...

 
CERRAR