93 318 54 36

Robots.txt para SEO: tu guía completa

28/01/2022
Elizabeth De León

¿Qué es robots.txt y por qué es importante para la optimización de motores de búsqueda (SEO) ? Robots.txt es un conjunto de directivas opcionales que le indican a los rastreadores web a qué partes de su sitio web pueden acceder. La mayoría de los motores de búsqueda, incluidos Google, Bing, Yahoo y Yandex, admiten y usan texto de robot para identificar qué páginas web rastrear, indexar y mostrar en los resultados de búsqueda.

Si tiene problemas para que los motores de búsqueda indexen su sitio web, su archivo robots.txt puede ser el problema. Los errores de Robot.txt se encuentran entre los problemas técnicos de SEO más comunes que aparecen en los informes de auditoría de SEO y causan una caída masiva en las clasificaciones de búsqueda. Incluso los proveedores de servicios técnicos de SEO y los desarrolladores web son susceptibles de cometer errores de robot.txt.

Como tal, es importante que comprenda dos cosas: 1) qué es robots.txt y 2) cómo usar robots.txt en WordPress y otros sistemas de administración de contenido (CMS). Esto lo ayudará a crear un archivo robots.txt que esté optimizado para SEO y facilitará que las arañas web rastreen e indexen sus páginas web.

Profundicemos en los conceptos básicos de robots.txt. Siga leyendo y descubra cómo puede aprovechar el archivo robots.txt para mejorar la capacidad de rastreo e indexación de su sitio web.

¿Qué es Robots.txt?

Robots txt, también conocido como estándar o protocolo de exclusión de robots , es un archivo de texto ubicado en el directorio raíz o principal de su sitio web. Sirve como una instrucción para las arañas SEO sobre qué partes de su sitio web pueden y no rastrear.

Línea de tiempo de Robots.Text

El archivo robot txt es un estándar propuesto por el creador de Allweb, Martijn Koster, para regular cómo los diferentes robots de motores de búsqueda y rastreadores web acceden al contenido web. Aquí hay una descripción general del desarrollo del archivo txt de robots a lo largo de los años:

En 1994, Koster creó una araña web que provocó ataques maliciosos en sus servidores. Para proteger los sitios web de los malos rastreadores de SEO, Koster desarrolló robot.text para guiar a los robots de búsqueda a las páginas correctas y evitar que lleguen a ciertas áreas de un sitio web.

En 1997, se creó un borrador de Internet para especificar métodos de control de robots web utilizando un archivo txt de robot. Desde entonces, robot.txt se ha utilizado para restringir o canalizar un robot araña para seleccionar partes de un sitio web.

El 1 de julio de 2019, Google anunció que está trabajando para formalizar las especificaciones del protocolo de exclusión de robots (REP) y convertirlo en un estándar web, 25 años después de que los motores de búsqueda crearan y adoptaran el archivo txt de robots.

El objetivo era detallar escenarios no especificados para el análisis y la comparación de txt de robots para adaptarse a los estándares web modernos. Este borrador de Internet indica que:

1.  Cualquier protocolo de transferencia basado en un identificador uniforme de recursos (URI), como HTTP , Protocolo de aplicación restringida (CoAP) y Protocolo de transferencia de archivos (FTP), puede usar robots txt.
2.  Los desarrolladores web deben analizar al menos los primeros 500 kibibytes de un robot.text para aliviar la tensión innecesaria en los servidores.
3.  El contenido de SEO de Robots.txt generalmente se almacena en caché durante un máximo de 24 horas para proporcionar a los propietarios y desarrolladores de sitios web el tiempo suficiente para actualizar su archivo txt de robot.
4.  Las páginas no permitidas no se rastrean durante un período razonablemente largo cuando un archivo txt de robots se vuelve inaccesible debido a problemas del servidor.

Se han realizado varios esfuerzos de la industria a lo largo del tiempo para extender los mecanismos de exclusión de robots. Sin embargo, no todos los rastreadores web pueden admitir estos nuevos protocolos de texto de robot. Para comprender claramente cómo funciona robots.text, primero definamos el rastreador web y respondamos una pregunta importante: ¿Cómo funcionan los rastreadores web?

¿Qué es un rastreador web y cómo funciona?

Un rastreador de sitios web , también llamado robot araña , rastreador de sitios o robot de búsqueda , es un robot de Internet normalmente operado por motores de búsqueda como Google y Bing. Una araña web rastrea la web para analizar las páginas web y garantizar que los usuarios puedan recuperar la información en cualquier momento que la necesiten.

¿Qué son los rastreadores web y cuál es su función en el SEO técnico? Para definir el rastreador web, es vital que se familiarice con los diferentes tipos de rastreadores de sitios en la web. Cada robot araña tiene un propósito diferente:

1. Robots de motores de búsqueda

¿Qué es una araña de motor de búsqueda? Un bot de motor de búsqueda de araña es uno de los rastreadores de SEO más comunes utilizados por los motores de búsqueda para rastrear y rastrear Internet. Los bots de los motores de búsqueda utilizan los protocolos SEO de robots.txt para comprender sus preferencias de rastreo web. ¿Saber la respuesta a qué es una araña de motor de búsqueda? le da una ventaja para optimizar su archivo robots.text y asegurarse de que funcione.

2. Araña de tela comercial

Un rastreador de sitios comerciales es una herramienta desarrollada por empresas de soluciones de software para ayudar a los propietarios de sitios web a recopilar datos de sus propias plataformas o sitios públicos. Varias empresas brindan pautas sobre cómo construir un rastreador web para este propósito. Asegúrese de asociarse con una empresa comercial de rastreo web que maximice la eficiencia de un rastreador SEO para satisfacer sus necesidades específicas.

3. Robot rastreador personal

Un rastreador de sitios web personales está diseñado para ayudar a las empresas y a las personas a recopilar datos de los resultados de búsqueda y/o monitorear el rendimiento de su sitio web. A diferencia de un bot de motor de búsqueda de araña, un bot de rastreo personal tiene una escalabilidad y funcionalidad limitadas. Si tiene curiosidad acerca de cómo hacer un rastreador de sitios web que realice trabajos específicos para respaldar sus esfuerzos técnicos de SEO, consulte una de las muchas guías en Internet que le muestran cómo construir un rastreador web que se ejecuta desde su dispositivo local.

4. Rastreador de sitios de escritorio

Un robot rastreador de escritorio se ejecuta localmente desde su computadora y es útil para analizar sitios web pequeños. Sin embargo, no se recomiendan los rastreadores de sitios de escritorio si está analizando decenas o cientos de miles de páginas web. Esto se debe a que el rastreo de datos de sitios grandes requiere una configuración personalizada o servidores proxy que un bot rastreador de escritorio no admite.

5. Bots de rastreo de derechos de autor

Un rastreador de sitios web con derechos de autor busca contenido que infrinja la ley de derechos de autor. Este tipo de bot de búsqueda puede ser operado por cualquier empresa o persona que posea material protegido por derechos de autor, independientemente de si sabe cómo construir un rastreador web o no.

6. Robot sobre orugas basado en la nube

Los bots de rastreo basados ​​en la nube se utilizan como una herramienta técnica de servicios de SEO. Un robot rastreador basado en la nube, también conocido como software como servicio (SaaS), se ejecuta en cualquier dispositivo con conexión a Internet. Esta araña de Internet se ha vuelto cada vez más popular porque rastrea sitios web de cualquier tamaño y no requiere múltiples licencias para usar en diferentes dispositivos.

Por qué es importante saber: ¿Qué son los rastreadores web?

Los bots de búsqueda generalmente están programados para buscar robot.text y seguir sus directivas. Sin embargo, algunos bots de rastreo, como los robots de spam , los recolectores de correo electrónico y los robots de malware , a menudo ignoran el protocolo SEO de robots.txt y no tienen las mejores intenciones al acceder al contenido de su sitio.

¿Qué es el comportamiento de un rastreador web sino una medida proactiva para mejorar su presencia en línea y mejorar su experiencia de usuario? Al hacer un esfuerzo por entender la respuesta a ¿qué es una araña de motor de búsqueda? y en qué se diferencia de los rastreadores de sitios malos, puede asegurarse de que la araña de un buen motor de búsqueda pueda acceder a su sitio web y evitar que los rastreadores SEO no deseados arruinen su experiencia de usuario (UX) y clasificaciones de búsqueda.

El 8.º informe anual de bots malos de Imperva muestra que los bots de rastreo web malos generaron el 25,6 % de todo el tráfico del sitio en 2020, mientras que las buenas arañas de SEO generaron solo el 15,2 % del tráfico . Con las muchas actividades desastrosas de las que son capaces los bots de rastreo de arañas malas, como el fraude de clics, la apropiación de cuentas, el raspado de contenido y el envío de spam, vale la pena saber 1) ¿Qué es un rastreador web que es beneficioso para su sitio? y 2) ¿Qué bots necesita bloquear cuando crea texto de robot?

¿Deberían los especialistas en marketing aprender a hacer un rastreador de sitios web?

No necesariamente necesita aprender a hacer un rastreador de sitios web. Deje los aspectos técnicos del desarrollo de un rastreador SEO a las empresas de soluciones de software y céntrese en su lugar en la optimización de txt de sus robots SEO.

Nadie crea su propio rastreador web a menos que esté extrayendo específicamente datos de un sitio. “Desde el punto de vista del SEO técnico, las herramientas para el rastreo de sitios web ya existen. Solo si extrae decenas de GB de datos constantemente, sería rentable construir y alojar su propio rastreador de Internet”.

¿Cómo funcionan los rastreadores web?

En este panorama digital vertiginoso, simplemente saber qué es un rastreador web no es suficiente para guiar la optimización de txt de sus robots SEO. Además de «¿qué son los rastreadores web?» también debe responder «¿cómo funcionan los rastreadores web?» para asegurarse de crear texto de robot que contenga las directivas adecuadas.

Las arañas de búsqueda están programadas principalmente para realizar búsquedas automáticas y repetitivas en la web para crear un índice. El índice es donde los motores de búsqueda almacenan la información web para recuperarla y mostrarla en los resultados de búsqueda relevantes a la consulta del usuario.

Un rastreador de Internet sigue ciertos procesos y políticas para mejorar el proceso de rastreo de su sitio web y lograr su objetivo de telaraña.

Entonces, ¿Cómo funciona exactamente un rastreador web? Vamos a ver.

Descubrir URL Las arañas web comienzan a rastrear la web a partir de una lista de URL, luego pasan entre los enlaces de la página para rastrear los sitios web. Para aumentar la capacidad de rastreo e indexación de su sitio, asegúrese de priorizar la navegabilidad de su sitio web, cree un mapa del sitio de robots.txt claro y envíe robots.txt a Google.
Explore una lista de semillas Los motores de búsqueda proporcionan a sus arañas de motores de búsqueda una lista de semillas o URL para verificar. Las arañas de los motores de búsqueda luego visitan cada URL en la lista, identifican todos los enlaces en cada página y los agregan a la lista de semillas para visitar. Las arañas web usan mapas de sitios y bases de datos de URL previamente rastreadas para explorar más páginas web en la web.
Añadir al índice Una vez que la araña de un motor de búsqueda visita las URL de la lista, localiza y presenta el contenido, incluidos el texto, los archivos, los videos y las imágenes, en cada página web y lo agrega al índice.
Actualizar el Índice Las arañas de los motores de búsqueda consideran señales clave, como palabras clave y relevancia y frescura del contenido, al analizar una página web. Una vez que un rastreador de Internet localiza cualquier cambio en su sitio web, actualiza su índice de búsqueda en consecuencia para garantizar que refleje la última versión de la página web.

Según Google, los programas informáticos determinan cómo rastrear un sitio web. Observan la importancia y relevancia percibidas, la demanda de rastreo y el nivel de interés que los motores de búsqueda y los usuarios en línea tienen en su sitio web. Estos factores afectan la frecuencia con la que una araña de Internet rastreará sus páginas web.

¿Cómo funciona un rastreador web y garantiza que se cumplan todas las políticas de rastreo web de Google y las solicitudes de rastreo de araña?

Para comunicarse mejor con una araña de motores de búsqueda sobre cómo rastrear un sitio web, los proveedores de servicios técnicos de SEO y los expertos en diseño web de WordPress le aconsejan que cree robots.txt que indique claramente sus preferencias de rastreo de datos. El txt de robots de SEO es uno de los protocolos que utilizan las arañas web para guiar su proceso de rastreo web y rastreo de datos de Google a través de Internet.

Puede personalizar su archivo robots.txt para aplicarlo a arañas de búsqueda específicas, prohibir el acceso a archivos o páginas web particulares o controlar su retraso de rastreo de robots.txt.

Agente de usuario

La directiva de agente de usuario  se refiere al nombre del rastreador de SEO para el que estaba destinado el comando. Es la primera línea para cualquier formato o grupo de reglas de robots.txt.

El comando de agente de usuario utiliza un comodín o el símbolo * . Significa que la directiva se aplica a todos los robots de búsqueda. Las directivas también pueden aplicarse a agentes de usuario específicos.

Cada rastreador SEO tiene un nombre diferente. Los rastreadores web de Google se llaman Googlebot , el rastreador SEO de Bing se identifica como BingBot y la araña de Internet de Yahoo se llama Slurp . Puede encontrar la lista de todos los agentes de usuario aquí .

# Ejemplo 1
Agente de usuario: *
No permitir: /wp-admin/

En este ejemplo, dado que se usó , significa que robots.txt bloquea el acceso de todos los agentes de usuario a la URL.

# Ejemplo 2
Agente de usuario: Googlebot
Disallow: /wp-admin/

Googlebot se especificó como agente de usuario. Esto significa que todas las arañas de búsqueda pueden acceder a la URL excepto los rastreadores de Google.

# Ejemplo 3
Agente de usuario: Googlebot
Agente de usuario: Slurp
Disallow: /wp-admin/

El ejemplo n.º 3 indica que todos los agentes de usuario, excepto el rastreador de Google y la araña de Internet de Yahoo, pueden acceder a la URL.

Permitir

El comando allow de robots.txt indica qué contenido es accesible para el agente de usuario. La directiva de autorización de Robots.txt es compatible con Google y Bing.

Tenga en cuenta que el protocolo de autorización de robot.txt debe seguirse en la ruta a la que pueden acceder los rastreadores web de Google y otras arañas de SEO. Si no se indica ninguna ruta , los rastreadores de Google ignorarán la directiva de permiso robot.txt.

# Ejemplo 1
Agente de usuario: *
Permitir: /wp-admin/admin-ajax.php
: /wp-admin/

Para este ejemplo, la directiva allow de robots.txt se aplica a todos los agentes de usuario. Esto significa que los robots txt impiden que todos los motores de búsqueda accedan al directorio /wp-admin/ excepto a la página /wp-admin/admin-ajax.php .

# Ejemplo 2: Evite directivas conflictivas como esta
User-agent: *
Permitir: /ejemplo
: *.php

Cuando crea una directiva de robots txt como esta, los rastreadores de Google y las arañas de búsqueda se confundirán sobre qué hacer con la URL http://www.yourwebsite.com/example.php . No está claro qué protocolo seguir.

Para evitar problemas de rastreo web de Google, asegúrese de evitar el uso de comodines cuando utilice las directivas robot.txt allow y robots disallow juntas.

Rechazar

El comando disallow de robots.txt se usa para especificar a qué URL no deben acceder los robots de rastreo de Google y las arañas de rastreo de sitios web. Al igual que el comando robots.txt allow, la directiva robots.txt disallow también debe ir seguida de la ruta a la que no desea que accedan los rastreadores web de Google.

# Ejemplo 1
Agente de usuario: *
No permitir: /wp-admin/

Para este ejemplo, el comando robots disallow all evita que todos los agentes de usuario accedan al directorio /wp-admin/ .
El comando disallow de robots.txt se usa para especificar a qué URL no deben acceder los robots de rastreo de Google y las arañas de rastreo de sitios web. Al igual que el comando robots.txt allow, la directiva robots.txt disallow también debe ir seguida de la ruta a la que no desea que accedan los rastreadores web de Google.

# Ejemplo 2
Agente de usuario: *
No permitir:

Este comando de rechazo de robots.txt le dice a un rastreador web de Google y a otros robots de búsqueda que rastreen las páginas de Google del sitio web, todo el sitio web, porque nada está prohibido.

Nota: aunque esta directiva de rechazo de robots contiene solo dos líneas, asegúrese de seguir el formato de robots.txt correcto. No escriba agente de usuario: * Disallow: en una línea porque esto es incorrecto. Cuando creas robots.txt, cada directiva debe estar en una línea separada.

# Ejemplo 3
Agente de usuario: *
No permitir: /

El símbolo / representa la raíz en la jerarquía de un sitio web. Para este ejemplo, la directiva disallow de robot.txt es equivalente al comando robots disallow all. En pocas palabras, está ocultando todo su sitio web de las arañas de Google y otros robots de búsqueda.

Nota: Al igual que en el ejemplo anterior ( user-agent: * Disallow: ), evite usar una sintaxis de robots.txt de una línea ( user-agent: * Disallow: / ) para prohibir el acceso a su sitio web.

Un formato de robots.txt como este agente de usuario: * Disallow: / confundiría a un rastreador de Google y podría causar problemas de análisis de robot.txt de WordPress.

Mapa del sitio

El comando de mapa del sitio robots.txt se usa para apuntar a las arañas de Google y a los rastreadores web al mapa del sitio XML. El mapa del sitio robots.txt es compatible con Bing, Yahoo, Google y Ask.

¿En cuanto a cómo agregar un mapa del sitio a robots.txt? Saber la respuesta a estas preguntas es útil, especialmente si desea que tantos motores de búsqueda como sea posible accedan a su mapa del sitio.

# Ejemplo
de agente de usuario: *
No permitir: /wp-admin/
Mapa del sitio: https://yourwebsite.com/sitemap1.xml
Mapa del sitio: https://yourwebsite.com/sitemap2.xml

En este ejemplo, el comando robots disallow les dice a todos los robots de búsqueda que no accedan a /wp-admin/ . La sintaxis de robot.txt también indica que hay dos mapas de sitio que se pueden encontrar en el sitio web. Cuando sepa cómo agregar un mapa del sitio a robots.txt, puede colocar varios mapas del sitio XML en el archivo txt de su robot.

Demora de rastreo

La directiva de retraso de rastreo de robots.txt es compatible con los principales robots araña. Evita que un rastreador web de Google y otras arañas de búsqueda sobrecarguen un servidor. El comando de retraso de rastreo de robots txt permite a los administradores especificar cuánto tiempo deben esperar las arañas de Google y los rastreadores web entre cada solicitud de rastreo de Google, en milisegundos.

# Ejemplo
de agente de usuario: *
No permitir: /wp-admin/
No permitir: /calendario/
No permitir: /eventos/Agente de usuario: BingBot No permitir
: /calendario/ No permitir
: /eventos/
Crawl-delay: 10Mapa del sitio: https://yourwebsite.com/sitemap.xml

En este ejemplo, la directiva de retraso de rastreo de robots.txt le dice a los robots de búsqueda que esperen un mínimo de 10 segundos antes de solicitar otra URL.

Algunas arañas web, como el rastreador web de Google, no admiten los comandos de demora de rastreo de robots txt. Asegúrese de ejecutar su sintaxis de robots.txt en un verificador de robots txt antes de enviar robots.txt a Google y otros motores de búsqueda para evitar problemas de análisis.

Baidu, por ejemplo, no es compatible con las directivas de retraso de rastreo de robots txt, pero puede aprovechar las Herramientas para webmasters de Baidu para controlar la frecuencia de rastreo de su sitio web. También puede usar Google Search Console (GSC) para definir la frecuencia de rastreo del rastreador web.

Anfitrión

La directiva de host le dice a las arañas de búsqueda su dominio espejo preferido o la réplica de su sitio web alojado en un servidor diferente. El dominio espejo se utiliza para distribuir la carga de tráfico y evitar la latencia y la carga del servidor en su sitio web.

# Ejemplo
de agente de usuario: *
No permitir: /wp-admin/Anfitrión: susitioweb.com

La directiva de host robot.txt de WordPress le permite decidir si desea que los motores de búsqueda muestren yourwebsite.com o www.yourwebsite.com .

Operador de fin de cadena

El signo $ se usa para indicar el final de una URL y dirigir a un rastreador web de Google sobre cómo rastrear un sitio web con parámetros. Se coloca al final del camino .

# Ejemplo
de agente de usuario: *
No permitir: *.html$

En este ejemplo, la directiva robots txt nofollow le dice a un rastreador de Google y a otros agentes de usuario que no rastreen las URL de sitios web de Google que terminan en .html .

Esto significa URL con parámetros como este https://yourwebsite.com/page. html ?lang=en todavía estaría incluido en la solicitud de rastreo de Google, ya que la URL no termina después de .html .

Comentarios

Los comentarios sirven como guía para los especialistas en diseño y desarrollo web , y van precedidos del signo # . Se pueden colocar al comienzo de una línea robot.txt de WordPress o después de un comando. Si está colocando comentarios después de una directiva, asegúrese de que estén en la misma línea.

Todo lo que esté después del # será ignorado por los robots de rastreo y las arañas de búsqueda de Google.

# Ejemplo 1: bloquear el acceso al directorio /wp-admin/ para todos los robots de búsqueda.
Agente de usuario: *
No permitir: /wp-admin/
# Ejemplo 2
Agente de usuario: *#Se aplica a todas las arañas de búsqueda.
Disallow: /wp-admin/#Bloquea el acceso al directorio /wp-admin/.

¿Para qué se utiliza Robots.txt?

La sintaxis de Robot.txt se utiliza para administrar el tráfico de rastreo de araña a su sitio web. Desempeña un papel crucial para hacer que su sitio web sea más accesible para los motores de búsqueda y los visitantes en línea.

¿Quiere aprender a usar robots.txt y crear robots txt para su sitio web? Estas son las principales formas en que puede mejorar su rendimiento de SEO con robots.txt para WordPress y otros CMS:

1 . Evite sobrecargar su sitio web con el rastreo web de Google y las solicitudes de bots de búsqueda.
2 . Evite que los robots de rastreo de Google y las arañas de búsqueda rastreen secciones privadas en su sitio web usando directivas de robots txt nofollow .
3 . Proteja su sitio web de los bots maliciosos.
4 . Maximice su presupuesto de rastreo : la cantidad de páginas que los rastreadores web pueden rastrear e indexar en su sitio web dentro de un período de tiempo determinado.
5 . Aumente la rastreabilidad y la indexabilidad de su sitio web.
6 _ Evite el contenido duplicado en los resultados de búsqueda.
7 . Oculte las páginas sin terminar de los robots de rastreo web de Google y las arañas de búsqueda antes de que estén listas para su publicación.
8. Mejora tu experiencia de usuario.
9 _ Pase link equity o link juice a las páginas correctas.

Desperdiciar su presupuesto y recursos de rastreo en páginas con URL de bajo valor puede afectar negativamente su capacidad de rastreo e indexación. No espere hasta que su sitio experimente varios problemas técnicos de SEO y una caída significativa en las clasificaciones antes de priorizar finalmente el aprendizaje de cómo crear robots txt para SEO.

Domine la optimización de robots.txt de Google y protegerá su sitio web de bots dañinos y amenazas en línea.

¿Todos los sitios web necesitan crear texto de robot?

No todos los sitios web necesitan crear un archivo robots.txt. Los motores de búsqueda como Google tienen sistemas establecidos sobre cómo rastrear las páginas de Google del sitio web, y automáticamente ignoran las versiones duplicadas o sin importancia de una página.

Sin embargo, los especialistas técnicos en SEO recomiendan que cree un archivo robots.txt e implemente las mejores prácticas de robots txt para permitir un mejor y más rápido rastreo e indexación web por parte de los robots de rastreo y las arañas de búsqueda de Google.

Los nuevos sitios web no necesitan preocuparse por cómo usar robots.txt, ya que su objetivo es hacer que sus páginas web sean accesibles para la mayor cantidad posible de arañas de búsqueda. Por otro lado, si su sitio web tiene más de un año, podría comenzar a ganar tráfico y atraer solicitudes de rastreo de Google y problemas de solicitud de araña de búsqueda.

[Cuando esto suceda] deberá bloquear esas URL en el archivo robots.txt de WordPress para que su presupuesto de rastreo no se vea afectado”, dijo Dagohoy. «Tenga en cuenta que los bots de los motores de búsqueda rastrean menos los sitios web con muchas URL rotas, y no querrá eso para su sitio».

Como se mencionó anteriormente, saber cómo editar robots.txt para SEO le brinda una ventaja significativa. Más importante aún, le brinda la tranquilidad de saber que su sitio web está protegido contra ataques maliciosos de bots maliciosos.

Ubicación de WordPress Robots.txt

¿Listo para crear robots.txt? El primer paso para lograr su presupuesto objetivo de telaraña es aprender a encontrar robots.txt en su sitio web. Puede encontrar la ubicación de robots.txt de WordPress yendo a la URL de su sitio y agregando el parámetro /robots.txt .

Por ejemplo: susitioweb.com /robots.txt

Las directivas de rechazo y autorización de robot.txt, el directorio de robots de búsqueda y Google de robots.txt también incluye un mapa del sitio de robots.txt para dirigir a los rastreadores web al mapa del sitio XML y evitar desperdiciar el presupuesto de rastreo objetivo de la telaraña.

¿Dónde está Robots.txt en WordPress?

WordPress es considerado el CMS más popular y ampliamente utilizado del mundo, y funciona con aproximadamente el 40 por ciento de todos los sitios web en la web. No es de extrañar que muchos propietarios de sitios web quieran aprender a editar robots.txt en WordPress. Algunos incluso recurren a los profesionales del diseño web de WordPress para obtener ayuda con la optimización de robots.txt para WordPress.

¿Dónde está robots.txt en WordPress? Siga estos pasos para acceder a su archivo robots.txt de WordPress:

1 . Inicie sesión en su panel de WordPress como administrador.


2
 . Navega hasta «SEO». 

3 . Haga clic en «Yoast». Este es un complemento de WordPress que debe instalar en su sitio web para editar robots.txt WordPress y crear actualizaciones de robots txt en cualquier momento que lo necesite.

4 . Haz clic en «Editor de archivos». Esta herramienta le permite realizar cambios rápidos en sus directivas de Google robots.txt.

5 . Ahora puede ver su archivo robots.txt de WordPress y editar el directorio de WordPress robots.txt.

¿En cuanto a cómo acceder a robots.txt en WordPress y actualizar sus directivas de rechazo de robot.txt para mostrar la URL restringida por robots txt? Simplemente siga el mismo proceso que usó para determinar dónde se encuentra robots.txt en WordPress.

No olvide guardar todos los cambios que realice en su archivo robots.txt para WordPress para asegurarse de que sus comandos robots.txt no index y robot.txt allow estén actualizados.

Cómo encontrar Robots.txt en cPanel

cPanel es uno de los paneles de control basados ​​en Linux más populares, utilizado para administrar cuentas de alojamiento web con la máxima eficiencia. Los desarrolladores web también usan cPanel para crear un archivo robots.txt.

Cómo encontrar robots.txt en cPanel: siga estos pasos para acceder a sus rastreadores web y al archivo txt de robots de Google en cPanel.

1 . Inicie sesión en su cuenta de cPanel.
2 . Abra el » Administrador de archivos » y vaya al directorio raíz de su sitio.
3 . Debe poder acceder a los robots de búsqueda y al archivo txt de robots de Google en la misma ubicación que el índice o la primera página de su sitio web.

Cómo editar Robots.txt en cPanel

Si desea editar su directorio de rechazo de robots.txt o hacer los cambios necesarios en su sintaxis de robots.txt, simplemente:

1 . Resalte el archivo robots.txt sin índice.
2 . Haga clic en » Editor » o » Editar código » en el menú superior para editar sus comandos de robots txt nofollow.
3 . Haga clic en » Guardar cambios » para guardar las últimas modificaciones en su directorio de rechazo de robots.txt.

Cómo Crear Robots Txt en cPanel

Para crear un archivo robots.txt en cPanel, realice los siguientes pasos:

1 . Inicie sesión en su cuenta de cPanel.
2 . Vaya a la sección » Archivos » y haga clic en » Administrador de archivos «.
3 . Haga clic en » Nuevo archivo » y presione el botón » Crear nuevo archivo «. Ahora puede crear un archivo robots.txt.

Cómo encontrar Magento Robots.txt

 

Además de la pregunta común de cómo acceder a robots.txt en WordPress, muchos propietarios de sitios web también buscan aprender cómo acceder, editar y optimizar Magento robots.txt para comunicar mejor a las arañas de búsqueda la URL restringida por robots txt.

Magento es una plataforma de comercio electrónico con PHP incorporado diseñado para ayudar a los desarrolladores web a crear sitios web de comercio electrónico optimizados para SEO. ¿Y cómo encontrar Magento robots.txt?

1 . Inicie sesión en su tablero de Magento.
2 . Vaya al » Panel de administración» y luego haga clic en » Tiendas «.
3 . Vaya a » Configuración «, luego seleccione » Configuración «.
4 . Abra la sección » Robots de motores de búsqueda «. Ahora puede ver y editar su archivo robots.txt para determinar la URL restringida por robots txt.
5 . Cuando termine, haga clic en el botón » Guardar configuración «.

¿Qué hay de cómo crear robots txt en Magento? El mismo proceso se aplica cuando crea un archivo robots.txt para Magento. También puede hacer clic en el botón » Restablecer valores predeterminados » si necesita restaurar las instrucciones predeterminadas.

Mejores prácticas de texto de robots

Aprender cómo acceder a robots.txt en WordPress y cómo editar robots.txt en varias plataformas son solo los pasos iniciales para optimizar sus directivas robots.txt no index y robot.txt allow.

Para guiar su proceso de optimización de robots.txt, siga estos pasos:

1 . Ejecute auditorías regulares usando un verificador de txt de robots. Google ofrece un verificador de txt de robots gratuito para ayudarlo a determinar cualquier problema de robots.txt en su sitio web.

2 . Aprenda a agregar un mapa del sitio a robots.txt y aplíquelo a su archivo robots.txt.
3 . Aproveche las directivas de bloqueo de robots.txt para evitar que los robots de búsqueda accedan a archivos privados o páginas sin terminar en su sitio web.
4 . Verifique los registros de su servidor.
5 . Supervise su informe de rastreo en Google Search Console (GSC) para identificar cuántas arañas de búsqueda están rastreando su sitio web. El informe de GSC muestra sus solicitudes de rastreo totales por respuesta, tipo de archivo, propósito y tipo de Googlebot.

6 _ Compruebe si su sitio web está generando tráfico y solicitudes de bots maliciosos. Si es así, debe bloquearlos usando robots.txt bloquear todas las directivas.
7 . Si su sitio web tiene muchos errores 404 y 500 y están causando problemas de rastreo web, puede implementar redireccionamientos 301 . En el caso de que los errores aumenten rápidamente y alcancen millones de páginas 404 y errores 500, puede usar robots txt para bloquear todas las directivas para restringir el acceso de algunos agentes de usuario a sus páginas web y archivos. Asegúrese de optimizar su archivo robots.txt para resolver problemas recurrentes de rastreo web.
8 _ Solicite servicios técnicos profesionales de SEO y soluciones de desarrollo web para implementar correctamente robots txt block all, robot.txt allow y otras directivas en su sintaxis de robots.txt.

Errores comunes de Robots.txt que debe evitar

Tome nota de estos errores comunes al crear el archivo robots.txt y asegúrese de evitarlos para mejorar la capacidad de rastreo y el rendimiento en línea de su sitio:

❌ Colocar directivas de robots.txt en una sola línea. Cada directiva de robot txt siempre debe estar en una línea separada para proporcionar instrucciones claras a los rastreadores web sobre cómo rastrear un sitio web.
Incorrecto: Agente de usuario: * No permitir: /
Incorrecto: Agente de usuario: * No permitir:

❌Error al enviar robots.txt a Google. Envíe siempre su archivo robots.txt actualizado a Google. Ya sea que haya realizado pequeños cambios, como agregar robots.txt, denegar todos los comandos a agentes de usuario específicos o eliminar robots, no permitir todas las directivas, asegúrese de hacer clic en el botón Enviar. De esta forma, Google será notificado de cualquier cambio que haya realizado en su archivo robots.txt.

❌Colocar las directivas de índice de robots.txt incorrectas. Si lo hace, su sitio web corre el riesgo de no ser rastreado por los robots de búsqueda, perder tráfico valioso y, lo que es peor, una caída repentina en las clasificaciones de búsqueda.

❌No colocar el archivo de texto del robot en el directorio raíz. Poner su archivo robots.txt en subdirectorios podría hacer que los rastreadores web no lo detecten.
Incorrecto: https://www.yourwebsite.com/assets/robots.txt
Correcto: https://www.yourwebsite.com/robots.txt

❌El uso inadecuado de robots.txt deniega todos los comandos, comodines, barras diagonales y otras directivas. Ejecute siempre su archivo robot.text en un validador de robots.txt antes de guardarlo y enviarlo a Google y otros motores de búsqueda, para que no genere errores de robots.txt.

❌Confiar en el generador de archivos robots.txt para generar el archivo robots.txt. Aunque un generador de archivos robots.txt es una herramienta útil, confiar únicamente en él sin realizar verificaciones manuales en las directivas de denegación de robots.txt, permitir comandos y agentes de usuario de robot.txt en su archivo txt de robot es una mala práctica. tiene un sitio web pequeño, es aceptable usar un generador de archivos robots.txt para generar robots.txt. Pero si posee un sitio web de comercio electrónico u ofrece muchos servicios, asegúrese de obtener ayuda de expertos para crear y optimizar su archivo robots.txt.

❌Ignorar los informes del validador de robots.txt. Un validador de robots.txt está ahí por una razón. Por lo tanto, maximice su verificador de robots.txt y otras herramientas para asegurarse de que sus esfuerzos de optimización de robots.txt para SEO estén en el camino correcto.

Obtenga el control de su presupuesto de rastreo

Lidiar con la optimización de robots.txt y otros problemas técnicos de SEO puede ser agotador, especialmente si no tiene los recursos, la mano de obra y las capacidades adecuadas para realizar las tareas necesarias. No se estrese lidiando con problemas del sitio web que los profesionales podrían resolver rápidamente.

¿Necesitas poner al día tu web?

¿Necesitas alguno de nuestros servicios de diseño web? En IndianWebs contamos con una larga experiencia, y un equipo de programadores y diseñadores web en diferentes espcialidades, somos capaces de ofrecer un gran abanico de servicios en la realización de páginas web a medida. Sea cual sea tu proyecto, lo afrontaremos.