Pero hay algunas aplicaciones web que no quieren salir en Google. No quieren que el robot de Google los encuentre, o que si los encuentra los ignore y no los liste.
Por ejemplo, si estoy desarrollando una intranet web con áginas .aspx o php para una empresa, no me interesaría que Google me liste en los resultados de una búsqueda... mejor dicho:
NO QUIERO QUE GOOGLE ME INDEXE!!
Pero, hay forma de evitar que me indexen??
Sí que la hay.
Gogle tiene algo que denomina "Protocolo de Exclusión del robot", las cuales son un conjunto de instrucciones
que tú debes poner en tu sitio web, para que cuando el robot de Google husmee por tu site, comprenda que es prohibido para Google... y de esta manera ignorará tu site o las páginas marcadas como prohibidas.
y cómo lo haces?? cuál es el negocio??
Páginas específicas
------------------------
1.- Si tú quieres bloquearle sólo algunas de tus páginas a Google, entonces debes modificar el tag META dentro de cada una de esas páginas:
2.- Si no quieres que Google muestre extractos de algunas páginas, entonces de similar manera, ubica en tu cabecera de página, osea entre los tag HEAD lo sgte:
3.- Si no quieres que Google archive en sus grandes bases de datos la información de tus páginas, igual, pon en la cabecera de tu página web lo sgte:
Sitio web completo
-----------------------
4.- Para remover tu sitio completo de múltiple motores de búsqueda Debes ubicar un archivo con nombre robots.txt, en la raiz de tu sitio web, indicando:
User-agent: *
Disallow: /
5.-Para remover tu sitio web de Google Debes ubicar un archivo con nombre robots.txt, en la raiz de tu sitio web, indicando:
User-agent: Googlebot
Disallow: /
Cada puerto debe tener su propio archivo robots.txt, es decir, si tú sirves contenido tanto con http como con https, entonces usa un archivo para cada uno.
Por ejemplo: Si quieres que Google indexe tus páginas http, pero no las https, entonces usa:
Para tu protocolo http (http://yourserver.com/robots.txt):
User-agent: *
Allow: /
Para tu protocolo https (https://yourserver.com/robots.txt):
User-agent: *
Disallow: /
6.-Para evitar que un particular directorio sea indexado (ejemplo: Security)
User-agent: Googlebot
Disallow: /Security
7.-Para evitar que Google muestre archivos de un tipo específico (ejemplo: .gif)
User-agent: Googlebot
Disallow: /*.gif$
8.-Para evitar que tus páginas con contenido dinámico sean indexadas:
User-agent: Googlebot
Disallow: /*?
Si quieres profundizar mucho más en el tema, te dejo un link: http://www.robotstxt.org/
Google Images
------------------
La base de datos de imágenes de Google es separada de la base de datos de texto de Google.
Entonces, todo lo que expliqué previamente no aplica a imágenes.
Si no quieres que Google indexe tus imágenes, nuevamente debes usar robots.txt, y debes especificar que la oruga buscadora de Google que no debe tocar tus imágenes, entonces añade estas instrucciones a tu archivo robots.txt:
User-agent: Googlebot-Image
Disallow: /
3.- Si no quieres que Google archive en sus grandes bases de datos la información de tus páginas, igual, pon en la cabecera de tu página web lo sgte:
Sitio web completo
-----------------------
4.- Para remover tu sitio completo de múltiple motores de búsqueda Debes ubicar un archivo con nombre robots.txt, en la raiz de tu sitio web, indicando:
User-agent: *
Disallow: /
5.-Para remover tu sitio web de Google Debes ubicar un archivo con nombre robots.txt, en la raiz de tu sitio web, indicando:
User-agent: Googlebot
Disallow: /
Cada puerto debe tener su propio archivo robots.txt, es decir, si tú sirves contenido tanto con http como con https, entonces usa un archivo para cada uno.
Por ejemplo: Si quieres que Google indexe tus páginas http, pero no las https, entonces usa:
Para tu protocolo http (http://yourserver.com/robots.txt):
User-agent: *
Allow: /
Para tu protocolo https (https://yourserver.com/robots.txt):
User-agent: *
Disallow: /
6.-Para evitar que un particular directorio sea indexado (ejemplo: Security)
User-agent: Googlebot
Disallow: /Security
7.-Para evitar que Google muestre archivos de un tipo específico (ejemplo: .gif)
User-agent: Googlebot
Disallow: /*.gif$
8.-Para evitar que tus páginas con contenido dinámico sean indexadas:
User-agent: Googlebot
Disallow: /*?
Si quieres profundizar mucho más en el tema, te dejo un link: http://www.robotstxt.org/
Google Images
------------------
La base de datos de imágenes de Google es separada de la base de datos de texto de Google.
Entonces, todo lo que expliqué previamente no aplica a imágenes.
Si no quieres que Google indexe tus imágenes, nuevamente debes usar robots.txt, y debes especificar que la oruga buscadora de Google que no debe tocar tus imágenes, entonces añade estas instrucciones a tu archivo robots.txt:
User-agent: Googlebot-Image
Disallow: /
No te parece todo esto interesante?
1 comentario:
yo no quiero que mi blog de google salga en la busqueda de google, wa! xD
Publicar un comentario