Sitemaps, robots y METAs

JMiur [E]

El buscador de Google sin duda es el más usado. Según dicen, 2 de cada 3 búsquedas se hacen a través de él y muchos otros buscadores utilizan sus motores. De alli que tratar que Google note nuestra existencia es una de las preocupaciones de cualquier sitio y, en mayor o menor medida, es lógico que nos ocupemos del tema.

Las herramientas de Google para Desarrolladores (Google Webmaster Tools) son un paso casi obligado en la vida de un blog sobre todo ahora que Blogger las ha integrado.

Pará qué sirven o cómo las usamos es más difícil de contestar pero, lo elemental es agregar un sitemap de nuestro sitio para mejorar la indexación; es decir, para que nuestras entradas aparezcan en los buscadores (más información).

Google nos explica que un sitemap es un archivo en formato XML que les proporciona información sobre un sitio web y lo que contiene es, básicamente, una lista de las páginas de ese sitio. Esa lista cubre las posible omisiones o errores de los robots que, de todas maneras, rastrean la web en búsqueda de contenido. Su utilidad aumenta si el sitio es dinámico, es decir, si cambia con cierta regularidad (un blog, por ejemplo) o si es nuevo y no tiene muchos enlaces externos.

Eventualmente, esos sitemaps también agregan otro tipo de información: la frecuencia con la que se modifican las páginas; las fechas de esas modificaciones; la importancia relativa de las páginas dentro del sitio; etc.

Hay que tener claro que, la existencia o no de esos sitemaps no garantiza nada, sólo son un complemento (más información).

Un sitemap estándar funcionará en la mayoría de los sitios aunque hay ciertas variantes que pueden incluirse y que son específicas de cada buscador.

Este es un contenido típico:

<url>
  <loc>http://misitio.com/</loc>
  <lastmod>2008-09-02T03:00:13+00:00</lastmod>
  <changefreq>daily</changefreq>
  <priority>1.0</priority>
</url>
<url>
  <loc>http://misitio.com/carpeta/unaentrada..html/</loc>
  <lastmod>2008-08-26T05:56:47+00:00</lastmod>
  <changefreq>monthly</changefreq>
  <priority>0.7</priority>
</url>

En resumen, un sitemap es un archivo XML que se genera con alguna aplicación y que luego, podemos editar pero, en el caso especial de Blogger esto no es así ya que, simplemente, no nos lo permite y debemos utilizar feeds para crear algo similar.

Del mismo modo, hay otro archivo de texto llamado robots.txt que también (si nos dejaran) podríamos utilizar.

Ese archivo es el que nos permitiría controlar la forma en que los rastreadores (crawlers) como los Googlebots de Google deben interpretar nuestro sitio aunque, en realidad, su contenido sólo son "sugerencias" y esos rastreadores pueden aceptarlas o no. Por ejemplo, podría impedirse el accesos a algunos de ellos (los que "roban" contenido), limitar la frecuencia de rastreo, eliminar páginas o contenido irrelevante o duplicado, etc.

Cuando un crawler visita una página, lo primero que busca en el servidor es el archivo robots.txt y si lo encuentra, lo analiza para ver si le está permitido acceder al contenido y, dentro de ciertos límite, sigue las directivas establecidas en él (más información).

Como ya sabemos, los blogs de Blogger no tienen acceso a ese archivo, es el servicio quien lo crea y lo maneja a su antojo. En el menú Herramientas de Google Webmaster Tools nos vamos a encontrar con la posibilidad de analizarlo o verlo con la opción Análisis de robots.txt:

URL de robots.txt http://vagabundia.blogspot.com/robots.txt
Descargado por última vez Hace 47 minutos
Estado 200 (Correcta)

El texto de ese archivo dirá esto:

User-agent: Mediapartners-Google
Disallow:

User-agent: *
Disallow: /search
Noindex: /feedReaderJson

Sitemap: http://nombre.blogspot.com/feeds/posts/default?orderby=updated

Todos los robots.txt de Blogger dirán exactamente lo mismo.

User-agent es el nombre del rastreador al que se le dan instrucciones:

Mediapartners-Google es el que se encarga de los anuncios de Google Adsense
Googlebot-Image es el que indexa las imágenes de Google
Slurp es el de Yahoo
Googlebot el de Google
msnbot el de MSN

Disallow se usa para indicar las rutas prohibidas, aquellas que no queremos que se indexen.

Disallow: # sin valor, indica que no hay restricciones
Disallow: /search # impide la indexacion de las paginas que son resultados de búsquedas internas

Podría haber otras y, por ejemplo, usar un asterisco para especificar a todos los robots:

User-Agent: *
Disallow: / # impide la indexacion de todas las paginas
Disallow: /contacto.html # no indexar esa página
Disallow: /privado/ # no indexar el contenido de ese directorio
Disallow: /*.css$ # impide la indexacion de los archivos con extensión CSS

Cuando vamos a la parte de Diagnóstico, nos muestra errores. Algunos son culpa nuestra (Errores de HTTP) y son el resultado de enlaces equivocados. Esos deberíamos tratar de corregirlos; lo mismo ocurre con los listados como No se ha encontrado.

Otros tipo de error que nos muestra es el que suele causar dudas: URL restringidas por robots.txt y allí veremos, por ejemplo:

http://misitio.blogspot.com/feedReaderJson
http://misitio.blogspot.com/search/label/

Esos, no son errores sino que es lo que dice nuestro archivo robots.txt, las páginas de búsqueda no serán indexadas, están bloqueadas y eso, no es malo sino bueno.

Noindex: /feedReaderJson es una nueva restricción que se ha agregado recientemente y que impide que los enlaces generados via los scripts de Json sean indexados (más información).

Las Herramientas para Webmasters también permiten generar un archivo robots.txt, verificarlo, probarlo, etc pero, de nada nos servirá en Blogger ya que no tenemos ninguna posibilidad de alojarlo.

Ahora bien, si no podemos crear ese archivo pero queremos personalizar algunas instrucciones, podemos utilizar las etiquetas META para comunicarnos con esos robots.

<META name="robots" content="INDEX,FOLLOW" />
indica que se indexe la página y todos sus enlaces (es el valor por defecto)

<META name="robots" content="INDEX,NOFOLLOW" />
indica que se indexe la página pero no los enlaces

<META name="robots" content="NOINDEX,FOLLOW" />
indica que NO se indexe la página pero si los enlaces

<META name="robots" content="NOINDEX,NOFOLLOW" />
indica que no se indexe la página ni sus enlaces

33 comentarios:

Blog nuevo: Aunque su uso se algo un poco avanzado, ojalá algún día nos dejen meter mano en esos archivitos.
Anahí: ¡¡Gracias, gracias, JMiur, gracias!! Me das pie para preguntarte (hace dos meses más o menos que dejé un par de preguntas en el grupo de ayuda de Blogger, ¿y qué pasóoooooo? nadie contestóooooo) La primera es por las "Advertencias" tipo esta: "línea 307 XML no válido: demasiados códigos": ¿hay que darles bola? Las otras son por las "Metadescripciones duplicadas" y "Etiquetas de título duplicadas", lo mismo, ¿hay que darles bola, y si es sí, cómo?
Salú2.
Anónimo: Sabes J, me caes bien, pareces un buen tipo. Por millonésima vez, excelente blog, es una hermosa obra de HTML.
JMiur: Alejandro:
Sí, es complejo de manejar, habría que estudiar muy bien el asunto pero, cuanto más cosas nos permitan manejar a nosotros, mejor :D

Anahi:
"XML no válido: demasiados códigos" Ese error lo desconozco y no logro ver referencias en Google.

"Metadescripciones duplicadas" y "Etiquetas de título duplicadas" eso es algo a lo que no hay que prestarle atención. Dice que las páginas poseen METAS iguales y es cierto; son páginas dinámicas creadas por Bloger. Es lo normal con cualquier blog.

Si el sitemap es aceptado y se muestra la cantidad de páginas indexadas, los únicos errores importantes y que podemos rsolver son los que se refieren a URLs no encontradas que son errores nuestros, al escribir enlaces; el resto, no importa o simplemente no podemos hacer nada.
Anahí: Gracias, JMiur. Y en el link de Vagabundia en MiYahoo reapareció el emoticoncito, esta vez diciéndome que no... ja, ja, ja. Es de un post de hace varios días creo.
Salú2.
Anónimo: ¡pn|ɐs¡ .ɹәƃƃo|q uә dɐɯәʇ!s |ә ɹɐәɹɔ oɯoɔ әp ɐpɐɹʇuә nʇ opuә!ɯoɔәɹ 'әɹdɯә!s oɯoɔ 'o|nɔ!ʇɹɐ әʇuɐsәɹәʇu! un
Gem@: Una información muy completa que me viene de perlas ;)
Bonzu Pipinpadaloxicopolis III: Hola

Google sacó su Google Chrome que es su nuevo navegador web

este es el link http://www.google.com/chrome/index.html?hl=es&brand=CHMG&utm_source=es-hpp&utm_medium=hpp&utm_campaign=es
Anónimo: Ya amo este blog !! :D

bueno bueno donde tengo que poner los meta, perdon sé que soy malo en esto pero bueno preguntando :D
La Blogueria: Robots.txt
JMiur: Protegon: Las etiquetas META se colcocan después de <head>

LA Bloguería: Muy bueno !!!!!!!!! ¿Servirá en Blogger? No, seguro que no, lo Googlebots no siguen las tres leyes de la robótica :D
La Blogueria: Evidentemente, no, no las siguen, o no seríamos torturados de aquellas maneras :D
El fichero haría explotar a Blogger; estas leyes entran en conflicto con su ley ÚNICA: dar por saco a los humanos y violar todas las leyes de la robótica... ¡a la vez! Así andamos.
Anónimo: Gracias ya las coloqué, esperemos que haya algún robot que disfrute de los libros de Asimov y desee ser un "Ciudadano Ideal". Y si por casualidad existiera aquí te dejo la invitación a mi blog:

100010101001010111010010101010100101010101001

Aunque pues no me quejo, ya que hay una forma de crear los sitemap sin necesidad de los archivos robots.txt. Sobre todo porque blogger es de google. Y tampoco mi weblog está entre las últimas, todo lo contrario.

mmm que no habia una ley extra que decia que un robot no debe hacer daño "a la humanidad"? hojala asimov hubiera estado en esta epoca asi existiria la de "un robot debe favorecer alos blogeros de blogspot" :D
AYUDA AL REFUGIADO: Hola JMIUR, Veo que tu buscador que creo es igual al que tengo yo, habré en la pagina principal del blog, pero el tuyo tiene nombre, y es mas fácil que la gente sepa que significa. como hago para que el buscador que tengo también diga : Buscador o traslate
JMiur: Podrías poner un título en el elemento. Sino, también es posible agregar código directamente en el elemento de la plantilla; debes buscar CustomSearch1; incluso allí, deberías ver algunas definiciones de estilo agregadas.

Lo que veo es que hay algunas propiedades CSS en la plantilla que están influenciando la forma en que lo ves. Hay una serie de definiciones para un buscador anterior que deberías quitar.
shicshi: hola podrias decirme como soluciono esto :

Etiquetas de título duplicadas 7

y resulta que da la casualidad que siempre se duplican los comentarios y las entradas de mi blog alojado en blogger. me podrias decir donde los coloco el codigo META que no me indexe las paginas de los comentarios. desde adelantado muchas gracias :D
JMiur: No hay nada que pueda hacerse al respecto ya que, al carecer de un archivo robots.txt que uno pueda editar, todo depende de lo que resuelva Blogger. Lo más que puedes hacer es agregarle el parámetro rel=nofollow" a los enlaces.
Constantino Vargas C.: Amigo tienes mucha información en tu blog, para los que recién estamos empezando en blogger nos sirve de mucha ayuda, tengo una duda cual de los cuatro codigo meta se inserta en la plantilla o los cuatro.

gracias
JMiur: En Blogger, lo normal sería:

<meta content='index,follow' name='robots'/>

No se colocan los cuatro ya que son contradictorios entre si. Tampoco es obligatorio colocar ese ya que si no hay ninguno, es el valor por defecto.
Paramatma: JMiur pues yo he colocado la META name="robots" content="INDEX,FOLLOW" ojala me funcione un poco para que me indexen mejor, igual solo es cuestion de paciencia!!!

No tengo afan pero ire a decirle a google algunas cosas en la cara. Ah eso si, me pusieron la exigencia que solo recibian quejas y sugerencias de blogeros mayores de 80 años que vayan acompañados por sus abuelos. Algun dia, algun dia decia el de los pitufos!!! :o
JMiur: Es la etiqueta por defecto. Esa sola no cambiará nada. Te veo recorriendo entradas sobre el tema pero no sé cuál es el problema.

Tu blog es muy reciente, aún tiene pocas entradas y eso hace que Google lo "visite menos" pero igual lo hace y está indexado. El resto, es un tema de paciencia (en grandes cantidades) y tiempo (no tantas cantidades pero casi casi).
Paramatma: JMiur no tengo problema como tal, te confieso lo que paso, sali de mi trabajo a eso de las 12 de la noche y pues sin sueño y con preocupaciones no se porque me sumergi en tu blog y termine en estas entradas, a la final me dormi como a las 3 de la mañana pensando en blogger (si puede llegar a ser una enfermedad te lo confieso).

Gracias por trasnocharme!!! jejeje :D
JMiur: Perfecto. Si sólo se trata de imsomnio, adelante :D
JMiur: Hay decenas de etiquetas META. Las dos META elementales son description y keywords, eventualmente, language y http-equiv; el resto es muy relativo y la mayoría de ellas sólo son informativas y no influyen en absoluto. Más importante que eso es optimizar el sitio

Los sitemaps son importantes para ayudar a la indexación que redundadrá en una mejor posición en los resultados de los buscadores pero en Blogger tienen restricciones así que revisa esta entrada.

Tanto METAs como sitemaps son importantes pero ninguna de estas cosas garantiza nada y muchos de los efectos sólo pueden evaluarse a largo plazo.
JMiur: En teoría si. Siempre es mejor que los archivos estén en el mismo servidor que la página.
Anónimo: Es normal que en un Sitemap te aparezca una sola url enviada?

Nose que hacer..
JMiur: No, no es lo normal salvo que en realidad sólo haya una entrada publicada o indexada.
Adrián J. Messina: Jmiur, en definitva me puedo quedar tranquilo cuando aparece "errores de rastreo por robots = 30" ? Lo mismo que con las metadescripciones duplicadas?

Por otro lado quisiera compartir con la comunidad un tip de hellogoogle.com.
Para los que deseen posicionamiento web les recomiendo bajar una herramienta online para hacer un recorrido exhaustivo de nuestro sitio, es decir, ver la manera en la que un buscador nos ve nuestro sitio:
http://home.snafu.de/tilman/xenulink.html

alli se bajan el programa y luego, una vez abierto abran la aplicación. En "file" "Check URL" coloquen la direccion de su sitio y esperen (menos de 10 minutos) a que el programa recorra cada estructura.
Allí verán parte por parte y a prestarle atención a los que marca algún tipo de error, para que si página se visualice correctamente.

Espero que les sirva y espero respuestas Jmiur!

Un gran saludo!
JMiur: Errores de rastreo no implican errores en si mismo, pueden ser accesos denegados y si son eso, está bien porque así debe ser en el caso de páginas de etiquetas o de busquedas.

Lo de las etiquetas META ... y bueno, allí, por ahora no hay solución posible, salvo que escribas manualmente cada una de ellas y las condiciones. Yo no me preocuparía por el tema.
Adrián J. Messina: Seguiremos sus concejos entonces.!
No había leído este comentario y sin darme cuenta repetí la pregunta.

Ojala les halla servido el tip.

Gracias!!
Felipe Calvo Cepeda: Hola Jorge.
No se si sea una novedad, yo lo acabo de notar, pero el archivo robots.txt cambió

Ahora han incluido otros 2 parámetros:

Disallow: /related-content.g
Disallow: /related_content_helper.html

Y supongo por el 'related' que tiene que ver con la nueva función de descubrimiento que será lanzada este año, y de la cual, por cierto, ya veo algun código en la navbar. Puedo estar equivocado, o no se.
Como siempre, si ya sabes disculpas. :)
Saludos.
JMiur: No tengo la menor idea, Felipe.
Felipe Calvo Cepeda: Bueno, esos dos últimos parámetros que te había mencionado hace 2 meses (que bonitas se ven esas fechas relativas) ya no están, han vuelto al tradicional
Disallow: /search
:D

¿Quiere dejar un comentario?

recuerde que los comentarios están siendo moderados y serán publicados a la brevedad ...

Nota: sólo los miembros de este blog pueden publicar comentarios.

Si le gusta ir a lo seguro utilice este botón para abrir los comentarios en una ventana modal en esta misma pagina.

Si añora tiempos idos, use este enlace para agregar un comentario al viejo estilo ...

Suscribirse a los comentarios

Vagabundia

Sitemaps, robots y METAs

33 comentarios:

¿Quiere dejar un comentario?

entradas relacionadas

la puerta abierta

las etiquetas

Páginas