Safecont – Herramienta de análisis SEO y calidad de contenido

Safecont – Herramienta de análisis SEO y calidad de contenido
4.9 (98%) 10 votos

Muy buenas a todos. Hace muchísimo tiempo que no consigo ponerme a escribir y ha llegado un punto en el que he dicho ¡basta! y vamos a hacerlo para comentar una conferencia a la que tuve el placer de asistir el día 17 de noviembre sobre Inteligencia Artificial aplicada al SEO, en la que se presentó públicamente (yo ya tuve el gusto de conocerla en privado y poder charlar con sus creadores hace meses) Safecont, la herramienta más avanzada de análisis SEO y calidad de contenido, tal y como ellos la definen.

Safecont

Me gustaría comentar todos los puntos que a lo largo de casi hora y media de presentación (que ni mucho menos se hicieron largas) comentaron sus creadores:

  • César Aparicio
  • Carlos Redondo
  • Carlos Pérez

Los inicios de Safecont

Hasta el momento todo análisis de calidad de contenido se ha realizado por humanos, por todos esos SEOs o no SEOs que hemos analizado los problemas de una web, y gracias a Safecont también vamos a poder contar con la inestimable ayuda de las máquinas.

Cuando en Safecont empezaron a trabajar en la herramienta, su idea inicial era:

“Vamos a hacer un algoritmo en el que le des un contenido (texto, imágenes vídeos…) y vamos a conseguir gracias a la Inteligencia Artificial (Machine Learning) saber si es contenido de calidad o no.”

Rápidamente se encontraron con que en la comunidad académica, incluso científica, esto es algo así como el Santo Grial. Es casi imposible al tener un solo documento poder evaluar si tiene mucha o poca calidad, siempre es necesario la comparación, comparar entre un grupo de documentos para poder saber si uno es mejor que otro. Para un determinado tema, necesitas siempre tener varias fuentes para poder decidirlo.

Entonces al final acabaron trabajando en un enfoque completamente distinto, se centraron en detectar si tiene o no tiene esa calidad. Para eso, necesitaron irse un poco a los fundamentos de todo esto.

¿Qué es Machine Learning?

Machine Learning, aprendizaje automático o de máquinas es una de las ramas de la IA (Inteligencia Artificial) que se basa en el desarrollo de técnicas que permitan a los ordenadores aprender. La idea es proporcionar a una máquina ejemplos de algo, y el programa sea capaz de generar un determinado comportamiento.

Para explicar fácilmente el concepto de Machine Learning los chicos de Safecont se centraron en una serie de factores SEO con los que podría trabajar Google (no estaban todos los que ellos usan en ese ejemplo, y comentaron que había varios que probablemente Google no utilizara, pero servía para hacernos a la idea):

  • SSL
  • longitud de URL
  • a nivel de página los términos más frecuentes
  • número de palabras únicas
  • última fecha en la que crawleó ese documento
  • la frecuencia con la que se busca un determinado término
  • número de enlaces spam
  • factores de contenido como densidad de keyword
  • H1
  • el comportamiento de usuario como el CTR de usuario
  • etc…

Los factores lo que hacen para el buscador es formar parte de un algoritmo (Pagerank) y sacar un “score“, una puntuación para cada una de las URLs que hace que se ordenen de mejor a peor puntuación, y además implementa una mejora haciendo cada uno de estos análisis dependiendo de una temática, una especie de pagerank por cada keyword o tema, por decirlo de alguna manera.

Y todo esto era como funcionaba antes de la época Machine Learning.

Después de esto, dentro de Google todo fue a parar a un área que lo que hacía es aprender utilizando la información de los factores de forma independiente. Dentro de estos algoritmos que generaban sus propias puntuaciones era posible reutilizar esas puntuaciones como si fueran patrones, de modo que fueran capaces de utilizar la salida de un algoritmo como la entrada del suyo propio. Y todo esto lo analizaban dándole casos de error y entrenándose, para posteriormente ordenar la página de resultados, es decir, evaluar quién sale primero en las búsquedas de los usuarios.

¿Cómo funciona el sistema de Machine Learning de Google?

La parte humana del Machine Learning

Primero se requiere una parte humana para poder entrenar, es fundamental partir de un componente humano. En el caso de Google, una serie de raters (de personas que se dedica a valorar las páginas web indexadas en el buscador y que cogen un set de sitios para considerar si son relevantes o no, por ejemplo páginas grandes que tuvieron problemas con Panda) y entonces apoyadas también por algunas herramientas que eran válidas en su momento (como los +1 de Google o ese botoncito que estuvo saliendo durante un tiempo en el que los usuarios podían marcar qué resultados querían bloquear) servía para entrenar los algoritmos de Google.

Muchas veces el concepto se confunde, la idea no era que por darle a un rater una determinada página esa persona fuera a hacer que posicione peor, sino que servía para decirle a Google que esa página no era buena para los intereses del buscador y de los usuarios, y que a partir de ese momento evalúe los factores de esa página para que el algoritmo aprenda y los aplique cuando analiza otras opciones. De este modo, se sacaban listados buenos y malos, que es lo único que necesita el algoritmo.

El entrenamiento de los algoritmos

Tras el punto anterior, le metemos los datos manuales que hemos sacado al algoritmo y empieza a entrenarse con ellos. Con esa información sigue estos pasos:

  1. Extrae unos determinados parámetros.
  2. Decide qué factores de todos los que hay (200 o muchísimos más) debe de tener en cuenta y cuáles debe de ignorar porque no son relevantes.
  3. Decide qué puntuación tiene cada uno de ellos y el peso que le da dentro de su fórmula total.
  4. Tras este punto se ofrece al público ese algoritmo entrenado, se le otorgan datos para que empiece a trabajar con todos los dominios indexados en el buscador y empieza a ordenar resultados.
  5. El proceso proporciona una salida, que es lo que realmente consigue hacer el algoritmo.
  6. Esa información se vuelve a introducir, se vuelve a validar ya sea por procesos automáticos o manuales, y se va entrenando. Y cada vez que se le da más sitios web, el sistema se vuelve más inteligente, va aprendiendo y va depurando sus resultados.

¿Cómo se entrena un algoritmo en la vida real?

Vamos a ver con un ejemplo ficticio cómo sería, algo similar a cómo lo hace Safecont también.

Lo primero que se hace es comparar un montón de factores de la lista que hemos comentado antes (Safecont incluso cuenta con algún factor un poco especial como un Quality Score y un Panda Quality Score, puntuaciones de lo que los usuarios han considerado que son buenas o malas páginas, e incluso esto también se puede hacer con algún tipo de automatización).

Esto Google lo puede hacer con miles o cientos de miles de sitios web. El algoritmo evalúa que sitios coindicen y en qué valores, detecta posibles patrones y los otros los descarta. Dentro de estos ve que hay X que son positivos (por ejemplo que tienen un Quality Score bastante alto) y otros Y que son negativos (por ejemplo tienen un Quality Score muy bajo), y entonces saca parámetros de los buenos y de los malos.

El algoritmo revisa cuáles de ellos coinciden y cuáles son relevantes, y los otros los ignora. Dentro de ellos, con esta información ya sabe qué factores tiene que mirar y cuáles con los rangos correctos de cada uno de ellos.

Ejemplo: Si un determinado factor está entre este punto y este punto significa que es malo. Pero cuidado, si está fuera de ese rango no significa que sea bueno, simplemente es que no puede evaluarse, para eso mira los factores que evalúan la calidad.

Y con todo esto en proceso de aprendizaje… llegó Google Panda, cuando decidieron que estos desarrollos de Machine Learning tenían un resultado lo bastante bueno (febrero de 2011 en EEUU y se expandió a nivel mundial el 12 Agosto de 2011).

La llegada de Google Panda

Muchos vivimos esa época en vivo con nuestros proyectos y nunca hemos sabido determinar si se notó mucho o no se notó tanto en el mundo entero. A partir de esa primera fecha de Panda se han sucedido varias actualizaciones a lo largo del tiempo, pero se ha documentado que el Panda inicial afectó al 12% de todas las búsquedas, que no es que afectara al 12% de todos los sitios web, ha afectado a mucho más del 12% de todos los sitios. Este algoritmo o filtro, como lo queramos llamar, afectó al 12% de las consultas del buscador, donde en cada una de ellas se muestran muchísimos sites.

Muchos sitios web fueron perdiendo tráfico Panda a Panda sin saber qué hacer… muchos sites perdieron más del 90% de tráfico.

Cuando se lanzó el primer Panda fue una auténtica conmoción para mucha gente que trabajaba en Internet y tenía negocios con ese tipo de contenido que no le agradaba al algoritmo. Imaginaros una empresa como Hubpages (una de los ejemplos insignia del primer paso de Panda) que tenía cientos de trabajadores… mucha gente tuvo que ser despedida, no quedó otra solución. Al poco tiempo consiguieron remontar un poco al pasar ese “thin content” que tenían en las fichas de usuario (cada usuario podía escribir su contenido ahí y generaba el sistema una URL para él donde aparecía solo lo que ese usuario había publicado) a un subdominio. Esta una de las estrategias más clásicas que se han utilizado para salir de penalizaciones por contenido en el buscador. Pero luego fue refinándose el algoritmo y este tipo de sitios si no se hacía mucho por cambiar, seguían perdiendo tráfico orgánico actualización a actualización.

hubpages panda

El impacto fue grandísimo.

Otros afectados consiguieron recuperar algo de visibilidad cambiando un poco a qué se dedicaban y cómo trabajaban sus URLs o sus contenidos.

Safecont al rescate

Y entonces llega Safecont, al rescate, intentando ayudar tras más de 2 años en los que no habían dado con una posible solución a este problema.

Vamos a ver cómo nació Safecont y cómo funciona por dentro.

Safecont es un sistema de Machine Learning que analiza la información que está contenida en las páginas web que analizan mediante un sistema de Big Data. Esto les permite hacer crecer o decrecer la infraestructura con la que cuentan en función de la cantidad de trabajo que se requiera.

Tecnologías utilizadas por Safecont

Para realizar este trabajo, la herramienta emplea una serie de tecnología de Big Data que están siendo bastante utilizadas actualmente.

Mesos

El software más importate es Mesos, un scheduler de tareas que te permite gestionar los diversos nodos que tienes en un sistema y te permite ejecutar tareas de forma fiable, es decir, que si uno de esos nodos de entre todos los que tengas te falla el sistema se encarga de relanzar los procesos de ese nodo en otro sitio automáticamente, sin que te tengas que preocupar. Por este motivo las tareas que se ejecutan en Safecont siempre van a terminar, 100% garantizado.

mesos

Entonces esto es un esquema de cómo puede ser una estructura normal de un sistema con Mesos, donde tenemos un nodo maestro que se encarga de aceptar tareas que se piden en la web y va analizando en los diversos nodos clientes que tienen, los cuales ejecutan el software con el que funciona Safecont.

mesos esquema

Spark

El principal motor para el procesamiento de datos a gran escala en Safecont es Spark, una implementación de MapReduce que les proporciona diversos algoritmos de Machine Learning ya implementados además de un crawler que han optimizado ellos mismos y una base de datos no relacional que se encarga de almacenar toda la información después de procesarla.

spark

El proceso de Machine Learning en Safecont

Vamos a contar lo que los chicos de Safecont nos contaron acerca del proceso de Machine Learning que se esconde tras esos informes tan bonitos que nos presentan en su herramienta. Según ellos mismos, siguen los siguientes pasos iniciales:

  1. Lo primero y más importante es extraer la información tal y como está en la web que analizamos y convertirla en información fácilmente procesable por un sistema automático.
  2. Se eligen una serie de métricas interesantes como las que hemos comentado antes al explicar qué es Machine Learning.
  3. Se elige un algoritmo que dependerá de la función que se desee realizar y el objetivo que deseemos obtener del sistema.
  4. Se entrenan una serie de modelos de Inteligencia Artificial

Cuando han conseguido llegar a estar contentos con el resultado que se obtiene de esos modelos, es cuando lo han aplicado a datos reales. Los datos reales son los que han obtenido de los numerosos análisis de dominios que han realizado en el sistema.

Para extraer información usan un crawler que han modificado ellos mismos. Crawlean el dominio y procesan esos datos con un primer proceso de MapReduce y Spark para eliminar datos no interesantes, y mediante diversos procesos de MapReduce extraen una serie de métricas interesantes.

Esa información luego se la pasan a una serie de algoritmos de clasificación no supervisada (división de diversos elementos en grupos según un cierto interés, en el caso de Safecont lo hacen según la peligrosidad de penalización de dichos elementos o según el contenido de los mismos, dado que consideran que URLs peligrosas con contenidos parecidos estarán en los mismos grupos). A continuación aplican una serie de algoritmos de clasificación supervisada para los cuales se basan en información que han sacado de diversas páginas web que saben que han sufrido penalizaciones de Google.

De nuevo, toda esa información se la aportan a un clasificador que han implementado a partir de 4 clasificadores y esto les permite obtener una puntuación final para cada URL (lo que Safecont llama PageRisk, que determina la peligrosidad de que esa URL tenga una penalización) y un Score general similar pero para todo el dominio.

La complejidad computacional (el coste en número de operaciones) crece exponencialmente con el número de URLs a analizar. Por dar un ejemplo: con solo 100 URLs, el sistema ya hace más de 2 millones de cálculos. Para un dominio de 100K URLs, el número de cálculos que realizan es del orden de mil billones. Según aumenta, llegamos a un punto en el que el nivel de cálculo es tan grande que aboca en un cuello de botella, da lo mismo que metas más máquinas al sistema, el nivel de cálculo es irrealizable. Realmente es bastante complejo.

Clústers en Safecont

Vamos ahora a la parte práctica de la herramienta, a ver para lo que realmente nos puede servir. Hasta ahora hemos comentado un montón de conceptos. Los dos conceptos más extraños que vas a encontrar en la herramienta son:

  • PandaRisk: la probabilidad de tener una penalización en todo el dominio
  • PageRisk: la probabilidad que una URL tiene de ser penalizada

Vamos a ir con la parte de clústers, un término matemático que en probabilidad lo podríamos definir como grupos o agrupaciones.

¿Por qué Safecont trabaja con clústers? Porque trabajan con un montón de datos y deben agruparlos. Se hacen clústers de URLs que tienen un mismo patrón. Han introducido los algoritmos de Machine Learning, han detectado los patrones que pueden tener o no tener, los que puede considerar Google que son positivos, negativos o punibles y los han clasificado en la herramienta. Así trabaja Safecont para facilitar el trabajo a los que la usamos.

Safecont se encarga de coger toda la página web, sacar todos esos parámetros que en un Excel normal sería imposible de trabajar, y lo resumen fácilmente en su interfaz. Reparten las URLs en clústers y nos dice cosas como: hay 1212 URLs con una similaridad cercana al 100%. Si como SEO quiero arreglar el dominio de mi cliente, ¿a dónde voy? Voy directamente a las que sé que tienen una similaridad mayor, el resto sé que no me van a traer problemas, no las toco.

¿Que haya mucha similaridad semántica entre URLs significa que nos vaya a penalizar Google directamente como si fuera el único factor que va a tener en cuenta? No. Por eso, aunque tengamos una similaridad alta en muchas URLs, podríamos tener una peligrosidad en ese clúster de URLs no muy alta. En cualquier caso, sería algo que tendríamos que revisar más a fondo.

Clústers de Pagerisk

Esta es una funcionalidad bastante interesante. Coge todas las URLs que han encontrado en nuestro dominio y nos las organiza en grupos por probabilidad de ser penalizadas por Google.

pagerisk clusters safecont

Si yo analizo un dominio no voy a tener que ir URL a URL mirando todos los patrones y todo lo que pasa (siempre que sea capaz de hacerlo), sino que voy directamente a las 101 páginas que vemos en el ejemplo anterior que tienen mayor probabilidad de ser penalizadas. Luego al siguiente clúster, y así paso a paso voy corrigiendo mis problemas.

¿Qué podemos sacar de provecho de Safecont?

Detectar la similaridad

La similaridad no se refiere al contenido duplicado, es algo parecido.  La duplicación equivale a que detectara contenidos exactamente iguales, literales, pero no es el caso. Por poner un ejemplo: contenidos reescritos por un redactor el sistema de Safecont sería capaz de detectarlo. Esto es bastante importante porque en una web se mezclan textos de contenido con cabecera, footers y otras cosas variables que podrían hacer que no se pudiera detectar si fuera simplemente contenido duplicado.

Tenemos varias formas de estudiar la similaridad de contenido. Se puede estudiar mediante análisis de N-gramas, steaming, frecuencias de esa palabra respecto a la frecuencia que tiene esa palabra en todo el dominio, distancia de levenshtein… hay un montón de patrones.

Imaginemos que la imagen siguiente es un dominio. Un 50% de ese dominio es contenido original, no tiene nmingún tipo de duplicación ni similaridad con las otras páginas de ese dominio, y sin embargo la otra mitad tiene algún tipo de similaridad, igual es copia directa (cuanto más oscuro más copia de la parte original) o bien tiene algún índice de similaridad.

44-0¿Cómo se ve en Safecont? Así…

similaridad-safecont

Como se puede ver, la información está ordenada por clusters (agrupaciones de URLs). En este caso se agrupan por el nivel de similaridad, por el nivel de peligrosidad que tiene cada grupo de URLs. Aquí vamos del 90 al 100 es un cluster, del 80 al 90 es otro… y en el gráfico de la derecha el tamaño de la barra nos da fácilmente a entender qué de grande es ese grupo de URLs respecto del total del dominio. El color indica el nivel de peligrosidad, de verde a rojo como si de un semáforo se tratara.

Cuando quieres limpiar un dominio rápidamente puedes ver qué es más prioritario, en este caso los dos primeros cluster de 90-100 y 80-90. A su vez podemos ver dónde se concentra más número de URLs peligrosas. Por encima del 50% de similaridad lo ideal sería que lo corrijamos lo antes posible. Son páginas que a priori no sirven para nada, que ya tienen ese contenido dentro del dominio en otra parte. Le estamos haciendo a Google trabajar el doble, que en vez de una tenga que crawlear dos o N páginas iguales. Hemos de entender que a priori todo lo que sea trabajo para Google o complicarle las cosas es malo para SEO.

Si hacemos clic en cada cluster, vamos a tener no solo la información en más detalle, sino el listado de URLs concretas, con el porcentaje de similitud de cada una de ellas, la posibilidad de ver su información detallada, el % de duplicación externa, el PageRisk, y la capacidad de exportarlo todo a CSV para poderlo trabajar paso a paso de forma externa.

similar pages safecont

En cada URL veremos siempre dos iconos, uno azul para ir directamente a esa URL en el navegador y otro rojo para ir a la ficha de Safecont de esa URL concreta, y ver:

  • Gráfico de peligrosidad comparando los 4 factores principales de la herramienta: Similaridad, PageRisk, Thin content y contenido externo duplicado, con los datos concretos de cada uno de ellos en porcentaje.
  • Tamaño del contenido
  • Enlaces internos
  • Enlaces externos
  • Profundidad
  • Número de palabras del contenido
  • Fuerza de la página (algo similar a lo que sería su PageRank)
  • Texto / HTML ratio
  • Tiempo de respuesta
  • Número de páginas similares internas y externas
  • TFIDF del título y un análisis del mismo

página safecont

tfidf url safecont

Detectar duplicados externos

La herramienta dispone de otra pestaña en la que podremos revisar duplicados externos. Estos duplicados están a la orden del día en Internet, en resumen sería la copia de contenidos de otras fuentes. Por ejemplo, grandes universidades utilizan este tipo de tecnología para detectar plagios en las tesis doctorales de los alumnos. Empresas, editoriales, revistas… el contenido duplicado es muy común, y es la principal preocupación de muchas personas que se ganan el pan generándolos.

¿Cómo vemos esto en Safecont? Es parecido a la similaridad, con sus cluster de URLs correspondiente.

external duplicate safecont

Debajo tenemos de igual forma que en la similaridad, las URLs listadas, y podremos ver cuáles son las páginas que tienen ese contenido duplicado, ya sea porque tú les has copiado a ellos o porque ellos te han copiado a ti. En el ejemplo de arriba todo está en verde y no tenemos ni una sola URL en peligro.

Es importante saber si alguien te está plagiando el contenido, por si quieres denunciarlo o tomar cualquier otro tipo de acción, hay muchas personas interesadas en esto y Safecont te ofrece cada URL que te ha copiado, el estracto y dónde.

Detectar el Thin Content

¿Qué es el thin content? Es muy difícil de definir. A priori es contenido muy corto, en resumen si en una página tengo poco texto directamente podríamos estar hablando de thin content.

Puede ser… es posible… Pero hay ciertas páginas (por ejemplo si buscáis “alarma” veréis que los primeros resultados son páginas sin apenas contenido en texto, o si buscáis el tiempo es muy probable que sencillamente encontremos resultados que nos ofrecen iconos con lluvia, sol o nubes) que devuelven algo concreto, resolviendo una necesidad de los usuarios sin contenido escrito… y esto no es thin content, es el contenido que quiere ver el usuario cuando llega a esa página (quiere un sistema que le sirva de alarma o quiere conocer el tiempo que hará el fin de semana en su localidad).

¿Cómo detectar si un contenido es thin content? Safecont lo resumen en 6 puntos:

  • es trivial
  • es contenido redundante
  • es contenido escaso
  • no resuelve una necesidad
  • tiene mala calidad de escritura
  • está fuera del tema de la web
  • está desfasado

En la interfaz de Safecont siguen la misma estructura que los puntos anteriores para facilitar el uso de la herramienta en este apartado.

thin content safecont

Como podemos ver en la imagen, podemos pasar el ratón por cualquiera de las barras y observar que nos aparece información por cada clúster, con suporcentaje de similaridad, el número de urls y la peligrosidad de penalización. Como siempre, podemos hacer clic y ver debajo todas las URLs que lo componen para trabajar directamente sobre ellas.

thin content url

Análisis semántico

Safecont ha introducido un apartado de semántica donde poder saber de un simple vistazo cuáles son las palabras más relevantes dentro del sitio web, un contraste de la palabra clave con todas las URLs del resto del dominio.

Podemos ver en la interfaz una representación tridimensinal (aunque Safecont trabaja con 1000 dimensiones) para poder verlo fácil.similaridad semántica safecont

En esta caja en tres dimensiones, podemos ver puntitos que equivalen a temáticas. Cuanto más lejanos entre sí, menos tienen que ver. De esta manera podemos ver si las temáticas que trabaja un dominio están relacionadas unas con otras o no.

Como vemos, la temática de este sitio parece no estar muy relacionada entre sí, todos los temas de los que habla son bastante dispares (excepto los puntos azules). Un exceso de similaridad semántica también podría ser perjudicial, no en todos los casos, para ello hemos de analizarlo en profundidad.

También podemos encontrar rápidamente clúster temáticos que no tenemos ni idea de por qué se separan tanto del resto (como en este ejemplo el verde) y analizar si la estructura es incorrecta y no corresponde con lo habitual en mi sitio web. Puedo pasar el ratón por encima de él y me dirá a qué cluster de URLs pertenece (en el ejemplo al cluster 6), cuántas URLs tiene (88) y que clusterRisk supone (36,07%)

cluster similaridad semántica

Sabiendo el número de cluster, en la misma pantalla tenemos otro gráfico que nos permite verlo en profundidad. El ID nos permite reconocerlo, nos muestra el número de páginas y el clusterRisk resumidos para cada uno de ellos.

A su vez, aparece un gráfico que nos permite ver rápidamente el estado de mi sitio donde el tamaño de los cuadros y el color dan rápidamente a entender los problemas que pudiera tener y la situación en la que me encuentro. Rojo implica más peligro, naranja menos… En este ejemplo no tenemos ninguno verde que sería lo óptimo, lo que quiere decir que no tenemos agrupaciones semánticas que estén a salvo, a priori, de ser penalizadas.

cluster semánticos de safecont

Para seguir profundizando puedo hacer clic en el clúster 6 y comenzar a trabajar. Veremos todas las URLs que tenemos en ese clúster. Veremos el porcentaje de similaridad que tiene (lo similares que son esas 88 URLs que estaban incluídas en ese clúster que podría considerar peligroso), me va a decir el peligro que tiene de ser penalizado por Google o no ser penalizado y luego nos mostrará todas las URLs.

información cluster semántico safecont

Solo a golpe de clic vamos a conseguir ver qué patrones son los que me están perjudicando mi proyecto. Hacer esto a mano, sin que alguien te lo muestre así, podría ser trabajo de meses o de suerte… y en un mundo competido como este no podemos ya permitirnoslo.

Arquitectura web

A este apartado vamos a poder sacarle mucho partido como ahora veremos.

Hablemos de sitios grandes o pequeños sería indiferente, evidentemente cuanto más grande es el sitio y más factores queramos analizar, más complejo es el asunto.

Lo primero que nos aparece es el nivel de profundidad del sitio web, con la home como nivel 1, categorías, subcategorías, etc… Cuanto más tiempo suele tener una web, generalmente las estructuras van variando, van apareciendo nuevos niveles de profundidad, etc…

nivel profundidad safecont

PageRank calculado

El LevelStregth es lo que nos dice el “PageRank” que tiene cada nivel de profundidad. A modo de lectura de ejemplo, a la hora de posicionar esas 298 URLs que tenemos en nivel 3 nos va a resultar bastante más complicado que posicionar las otras 195 que tienen un 47,40 de LevelStrength.

Generamente, la home debería de tener un LevelStrength de 100, pero al ser un análisis parcial en la imagen anterior no me aparece como tal. Lo correcto además es que el segundo nivel tuviera también otro 100. Si el segundo nivel tiene menos de eso, quiere decir que mi enlazado interno está mal realizado, tengo problemas, no está llegando correctamente el link juice de la home hasta la siguiente URL de nuestro sitio, máxime cuando estamos hablando de nivel 1 a nivel 2.

En un supuesto nivel 10 de profundidad podríamos tener 0,0X, son cuestiones bastante complicadas de resolver pero Safecont es un facilitador claro de las mismas.

Como vemos en la imagen de antes, volvemos a tener colores para intuir rápidamente lo que está bien o debemos corregir. Podemos pinchar y acceder a la información de ese nivel y el listado de URLs que lo forman. Mirad:

nivel profundidad concreto safecont

El PageRisk de cada URL

Lo que yo debo de intentar optimizar es toda la estructura de enlaces dentro de mi sitio web.

¿Cómo lo vamos a hacer? Debemos analizar URL por URL.

Lo primero que vemos en la URL de ejemplo es que esa URL tiene un duplicado interno del 33,76%, lo que significa que ya tengo otras URLs con ese contenido duplicado o muy similar… Puedo pinchar en ella y ver qué tiene para corregirla:

ejercicio url safecont

Rápidamente vemos que tiene un alto índice de similaridad (pero dentro de la parte segura) y un alto pagerisk, por lo tanto, a corregir. Puede ser que no solo esté enviando enlaces a sitios que no son correctos, sino que además puede que lo esté haciendo a URLs que son contenido duplicado. A golpe de clic ya sé qué páginas de las que tengo en niveles inferiores están recibiendo enlaces de un nivel superior, enlaces que estoy perdiendo y que encima me están llevando a sitios con los que probablemente Google me pueda penalizar después. Además de que esas páginas a su vez tengan de nuevo enlaces a más páginas que están duplicadas, contenido no optimizado, etc…

La fiabilidad que los chicos de Safecont han conseguido está en torno al 82%… algo que de forma manual no podríamos conseguir a priori en ninguna de nuestras decisiones.

Hubs y Authorities

Por otro lado, podemos ver un gráfico dentro de la pestaña de arquitectura con Hubs y Authorities.

Hub: es un sitio bueno donde me tienen que poner un enlace para que a mí me llegue autoridad

Authority: es un sitio donde yo pondría contenido porque es muy relevante a los ojos de Google

hubs y authorities safecont

Este gráfico viene acompañado de una tabla de Hubs ordenadas de mayor a menor por su HubValue

hubs safecont

Si quiero poner un enlace en alguna URL concreta, a mayor valor Hub más potente va a ser ese enlace. Pero lo que me está diciendo el otro valor en este ejemplo es que esa URL no es un buen sitio para publicar contenido porque tiene poca Auhority a la hora de posicionar.

Los Anchors de los enlaces internos

En el último apartado de la pestaña de arquitectura vemos qué ocurre a nivel de Anchor con los enlaces follow internos de nuestra página.

anchor enlaces safecont

Igual que tenemos que optimizar la cantidad de enlaces que tenemos, también debemos de intentar optimizar el anchor apropiado para posicionar determinadas landing o categorías, subcategorías dentro de nuestro sitio web.

Vemos que lo más común es “Ver más información”. Esto no es lógico dado que no es nuestro negocio, pero tampoco ninguno de los siguientes en una web que se dedica a la venta de electrodomésticos. Estas keywords no son algo que nos interese posicionar.

Por otro lado, vemos que el anchor que más relevancia da a las páginas, también es “Ver más información”, 17 links… es el más común y encima no me vale absolutamente para nada. El anchor más común no tiene por qué ser el anchor más poderoso, dado que cada anchor y cada enlace tiene un nivel de PageRank, y Safecont lo calcula y nos dice: este anchor APPLE está en estas URLs concretas, tiene 0,259 de fuerza y se ha utilizado una vez.urls anchor safecont

A partir de aquí puedo determinar:

  • en qué Hub tengo que poner determinado enlace
  • en qué Authority tengo que poner determinado contenido
  • tengo “Ver más información” repetido en exceso 17 veces con un enlace follow que no estamos optimizando como debemos la relevancia de los anchor text
  • hemos visto que en muchas ocasiones estamos enviando enlaces a sitios que son contenido duplicado y son perjudiciales para nosotros.

Páginas en Safecont

Muy fácil, nos aparecerá un listado de todas las páginas que tenemos, indicando cuál es la más perjudicada y posiblemente penalizará nuestro sitio, hasta la que mejor está. Esto no quiere decir que la última esté bien ni que la primera sea mala, todo dependerá del dominio sobre el que estemos trabajando.

En la interfaz, esta pestaña nos ofrece los determinantes básicos que Safecont ha decidido mostrarnos. Tras esto hay un montón de cálculos sobre parámetros que no han incluído para resumirnos las características más llamativas.

páginas safecont

Vemos que rápidamente me puedo ir a aquellas que tengan más problemas, y corregir de forma ordenada los problemas del sitio web que desee optimizar.

La Página principal de Safecont

Como colofón de todo este análisis, quiero hablar de la página de inicio de Safecont. De una forma clara nos va a mostrar varios problemas tras el análisis:

  • Principales problemas de nuestro dominio

principales problemas safecont

  • Probabilidad de ser penalizados por Panda

página principal de safecont

Aquí como vemos el número es 61,57. No es un porcentaje de penalización, es un número de 0 a 100 puntos posibles. De 100 puntos que pudiera tener un dominio, ¿cuántos tengo yo? No es una probabilidad.

  • Un gráfico de la situación del dominio por los principales factores de la herramienta y su “área de tranquilidad”

penalizaciones dominio

  • Clústers de URLs y URLs concretas con mayor índice de peligrosidad

cluster urls peligrosidad safecont

visual cluster peligrosidad

En definitica, la idea es acabar con un 35% de probabilidad de que nos penalice Panda, y no con un 65% que suele ser la media habitual de lo que Safecont suele encontrar en sus análisis habitualmente.

Cómo arreglar una web con Safecont

Una vez hemos analizado la web con Safecont, hemos visto todo lo que está mal, los clúster, las URLs, etc… y ya sé lo que sucede, debemos ponernos manos a la obra.

¿Cómo arreglo todos los problemas de mi web?

El contenido de baja calidad en algunas partes de mi sitio web puede impactar sobre el ranking de toda la web, y por lo tanto la eliminación de páginas de baja calidad, la fusión, mejora de contenido en páginas individuales, o mover las páginas que no tienen calidad suficiente a un dominio a parte, te puede ayudar a que Google clasifique y valore mucho mejor el contenido de tu site.

Metodología de trabajo con Safecont

En su presentación, Safecont presentó esta metodología para trabajar con su herramienta:

  1. Primero separamos la basura, las URLs que Safecont nos está diciendo que no son buenas, que no tienen un grado de calidad bueno, que pueden ser penalizables, y las separamos por tipología de página: si son categorías, sin son fichas o si son consultas…
  2. Estudiamos qué porcentaje representan cada uno de esos grupos en el total de todas las páginas malas. Ejemplo: el dominio tiene 50K y tengo 10K malas, y dentro de esas malas las categorías son 1K. Vemos qué porcentaje representa dentro de ese total de malas, y sacamos a su vez el porcentaje sobre el total de páginas del dominio, en el ejemplo de las 50K.
  3. Sacamos el tráfico orgánico de esos tipos de páginas. Ejemplo: cuánto tráfico orgánico llega a categorías, o a fichas de producto o a la home, etc…
  4. Comparamos el riesgo de penalización del dominio en un supuesto eje X imaginario y en el eje Y el número de URLs que tenemos. Tendríamos una línea imaginaria que determinaría la penalización Panda, pero si reduzco el número de URLs malas, el riesgo se reduce.
  5. Evaluamos los cambios que se vayan a realizar. ¿Cuánto tráfico voy a perder por la limpia? Por ejemplo si vas a eliminar URLs, vas a redireccionar, lo que consideres… probablemente te suponga una pequeña o una gran pérdida de tráfico.
  6. Evaluar cuánto tráfico has perdido ya por Panda Update si es un dominio antiguo y ha sufrido penalización. Si es nuevo, realmente no sabes cuánto estás perdiendo por esa penalización por culpa del algoritmo de calidad de Google. Si el tráfico que vas a perder es inferior al que ya has perdido o estás perdiendo, adelante con limpiar.

Lo siguiente que debemos hacer si vamos a continuar es seleccionar las diferentes tipologías de página y decidir qué hacer con ellas.

Soluciones a los problemas detectados

Posibles soluciones (cada una apropiada a un tipo de página o problema):

  • Redireccionamiento 301: si tenemos varias páginas que son iguales. Eliges la que tu decides que quieres posicionar y el resto las redireccionas a ella.
  • Meta noindex: por ejemplo si alguna página pese a que tenga un contenido que Google pueda considerar de mala calidad… puede ser importante para el usuario, y es importante que aparezca en la navegación de tu site y el usuario llegue a ella.
  • Con el fichero robots.txt: También puede ponerle un Disallow a nivel de robots.txt. Hay muchos que quizá no podamos definir a nivel de página la etiqueta robots, y podemos hacerlo desde ahí, incluso en masa.
  • Meta canonical: apuntar todas las URLs que podrían ser peligrosas y similares a otra, meter un canonical para decirle a Google que esa es una versión que yo tengo por otros motivos y quiero que la que apuntes es esta.
  • Unificar contenido: si tenemos varias URLs con thin content, escasos, pequeños sobre un mismo tema, coger todos esos pequeños, agruparlo y unificarlos construyendo una sola página con todo ese contenido.
  • Enriquecer: esto dependiendo del volumen de URLs que tengamos a veces es factible y a veces no. Consiste en mejorar el contenido de una URL, enriquerla con datos nuestros, el contenido que veamos que podría serle útil al usuario, etc…

A partir de un 40% de PandaRisk deberíamos de empezar a preocuparnos.

En la presentación que tuvimos nos mostraron el caso de Emagister, que lleva ya bastante tiempo utilizando la herramienta. Tras perder tráfico desde 2011, han conseguido a día de hoy incrementar el tráfico un 160%, considerando que venían en caída, son datos espectaculares.

Conclusiones

Esta herramienta no sustituye a tu SEO, a la persona responsable de la parte de visibilidad en las búsquedas, sino que es un facilitador. Realmente cuando uno se enfrenta a un caso de penalización o simplemente a un proyecto nuevo, ya sea más grande o más pequeño, es muy difícil encontrar dónde está el problema. Hay cosas que consigues ver fácil pero hay otras en las que es tal el volumen de datos y de información que no lo sabes y acabas en un proceso de prueba y error que te va a llevar meses. Meses no para solucionarlo, sino en darte cuenta de lo que ocurre.

Con Safecont, en pocas horas tras introducir tu dominio vas a ver si tienes problemas o no, qué problemas concretos son los que tienes y dónde. Y a partir de ahí puedes empezar a trabajar, a poner soluciones, y te facilita esa tarea gracias a la clusterización, el seguimiento de parámetros para poder centrarte a trabajar solo en lo que puede ser la peor parte de tu web o la que peor calidad tiene, en vez de trabajar con un gran volumen de URLs sin poder hacer foco.

Por otra parte, recalcar que Safecont no es análisis de Panda solamente. Es análisis de contenido, incluso de anchor text y mejora de la arquitectura. En Safecont utilizan Panda porque es un término que todos más o menos conocemos y manejamos, pero es la optimización del propio sitio en general a golpe de clic.

Turno de preguntas

1. Primera Opinión

Enhorabuena por la herramienta, creo que por fin tenemos una herramienta que nos va a poder dar soluciones, no a corto plazo, pero sí la posibilidad de priorizar. Al final con penalizaciones, tras muchos años de penguins y pandas y conseguir aprender qué son y cómo tratarlas, realmente la herramienta es muy buena para intentar detectar qué áreas son las más afectadas y priorizar sobre qué harías y por dónde empezar.

Tras probar la beta con un proyecto, lo más interesante es la posibilidad de ir saltando de clúster en clúster y priorizar sobre lo que más riesgo tiene, no solamente a nivel general con el PandaRisk, sino con la duplicidad, similitud y arquitectura.

La parte de arquitectura creo que tiene unas posibilidades brutales, porque nos permite mejorar el enlazado interno y nos permite detectar qué páginas se convierten en páginas comodín o páginas que tiene muchísima autoridad. Entonces creo que para proyectos grandes está muy bien pero para proyectos medianos de 20-30K también tiene bastante potencia la herramienta. Nos va a poder permitir, digamos, quick wins por decirlo de alguna manera, y avanzar y empezar a escalar en la recuperación del tráfico si ya nos han penalizado o evitar que nos penalicen. Entonces creo que tiene muchísimo potencial y las integraciones que podáis realizar en un futuro creo que van a tener muchísimo más potencial aún.

Por último, quizá en empresas grandes que tengan un equipo de IT grande o interno, tienen más posibilidades de hacer cosas y de seguir avanzando para salir o mejorar el tráfico, pero a lo mejor en PYMES o sitios más pequeñitos, hace falta esa priorización para ir a esas URLs que pueden hacerte más daño y mejorar esa parte, y a lo mejor el resto no tienes que invertir tantos recursos en trabajar muchas cosas.

La parte de interfaz está bastante bien, es muy intuitiva, reporting PDF para todo el proyecto completo… entiendo que todo esto lo iréis mejorando y lo iréis avanzando. Alguna cosa mala, quizá no mala como tal, pero a aquellos que ya sepan SEO de manera muy avanzada a lo mejor le cuesta menos entender las métricas y los conceptos. Una página de soporte… ayudaría a otros perfiles a aterrizar en algunos conceptos que podrían ser complejos.

 

2. ¿Similaridad?

Pedro: He visto que la similaridad de contenido a nivel interno está muy bien, pero ¿cómo analizáis los dominios externos?

Safecont: eso lo hacemos con una tecnología propia similar a la de Copy Scape (diría que más potente). La aplicamos tanto para la parte de similaridad interna como externa. Al final podemos saber si un contenido está presente en cualquier otra URL de Internet. Todo Internet es casi imposible, pero nosotros en los test que hemos realizado tenemos un mayor volumen que el que tiene la competencia.

Pedro: ¿La similaridad de contenido externo creéis que ahora mismo está afectando a Google Panda?

Safecont: No, no está dentro de Panda, esto lo explicó bastante Google en su momento.  Ellos tenían un algoritmo que se basaba en eso (creo recordar que Scraper update o similar) que simplemente penalizaba sitios que copiaban contenido unos de otros. Luego está Panda, que es otra cosa, evalúa calidad. Lo que pasa es que si tienes un sitio donde tu copias muchos contenidos…

Pedro: claro pero más que “copiado” me he quedado más con la idea que has dicho de similaridad… a nivel general es algo que prácticamente lo hace casi todo el mundo…

Safecont: todo depende de cómo lo reescribas… tu puedes leerte un texto, darte la vuelta y escribir tu versión sobre él… probablemente ahí ni nosotros ni nadie puede llegar a detectarlo, aunque en parte sí. Pero si tú lo que has hecho es coger el documento, cambiar dos frases, cambiar cuatro palabras, poner un par de sinónimos… la herramienta es capaz de detectarlo.

3. Integración con Analytics

Alberto Fernández: lo primero enhorabuena por la herramienta. Está muy bien saber las URLs que están mal, las URLs que… pero por ejemplo una integración con Google Analytics para comparar con tráfico orgánico directamente… yo creo que puede ser interesante.

Safecont: estamos pensando en ello

4. Robots virtual

Alberto Fernández: cuando se os pasa un dominio y tiene por ejemplo 1K millones de URLs, supongo que seguís el robots para saber qué analizar y qué no, content types y cosas de ese estilo para saber qué analizar y qué no… ¿Os habéis planteado un robots virtual interno para decir: quiero esto ahora, pero no el resto, etc… en diferentes análisis?

Safecont: lo tenemos como idea, que el cliente al final pueda un poco filtrar qué partes quiere que analicemos crawleemos y qué partes no.

5. Dominios probados hasta el momento

Alberto Fernández: ¿qué número de dominios habéis pasado ya por la herramienta? Dentro de ese ecosistema de Machine Learning… ¿dónde estamos?

Safecont: la mayoría de dominios que hemos pasado son dominios grandes… El número de urls analizadas va por millones.

Safecont: al final es un proceso de entrenamiento, y nosotros introdujimos dominios hasta conseguir un punto de calidad que consideramos que era el adecuado. La fiabilidad actual es del 82%, eso quiere decir que nuestro algoritmo piensa igual que Google 82 veces de cada 100. De las 18 que quedan, no recuerdo si eran 14 o 15, eran porque nosotros sobrepenalizamos más que Google. Actualmente nosotros podemos ser bastante más restrictivos. No es nada malo, sino que realmente vas a limpiar más de lo que te haría falta para que Google te penalizara.

Este tipo de tecnologías que usamos está al alcance de cualquiera y es absequible, pero entrenar a un algoritmo es muy caro, necesitas muchas iteraciones, muchos datos, mucha información, muchos días procesando… y es la parte crítica.

6. Planes de precios, proyectos únicos recursivos y agencias

Alberto Fernández: esto para dominios pequeños no sería necesario, con un Excel y tal podríamos perfectamente apañarnos, pero para dominios medianos que tengan 10-20K Urls… os habéis planteado algún tipo de plan que permita la recursividad del uso de la herramienta para una agencia.

Safecont: para un dominio que tenga 20K URLs la cuestión es que las horas que tu cobras de consultoría (50€ o 100€ o lo que cobre cada uno) si tienes que trabajar 50K URLs y con esto solo tienes que trabajar 5 horas… el resto es margen para ti…

Safecont: por cierto, no hemos comentado nada de lo que va a costar… la web ya está online, ya hemos quitado la parte beta y se puede visitar. Va por paquetes, paquetes que van por número de URLs que puedes analizar y hay un límite por número de dominios. Cada paquete te va a permitir X dominios hasta que gastes las URLs. Hay un paquete agencia que te va a permitir trabajar muchos dominios… no sé si te he entendido bien la pregunta o si va por ahí.

Alberto Fernández: sí, iba por las dos partes, una por esa parte agencia de un mismo dominio, y otra por un mismo dominio al que atacas recursivamente y poder ir viendo esa mejora.

Safecont: a su vez vas a tener créditos, si te quedas sin ellos vas a poder comprarlos (1 crédito – 1 URL). Si te hace falta analizar 2000 URLs más, pues las compras al mismo precio que has pagado en el paquete.

Safecont: Una cosa que vemos bastante buena (que lo hemos hecho tratando de ser lo más honestos posible) es que Safecont no tiene una cuota mensual, facturamos  por cada crawleo y cada análisis que haces. Entonces, hago un análisis, ya sabes la foto de todo el dominio y sabes sus problemas… ¿por qué lo hacemos así? Porque es muy difícil que unos arreglos o unas soluciones que tienes que implementar como estas las hagas en poco tiempo… hay gente que funciona por ejemplo por proyectos trimestrales, entonces el tiempo medio de implementar todo esto puede ser de un mes, dos, tres… entonces para qué pagar una herramienta mensual cuando vas a tardar tres meses en hacer los cambios… no nos parecía honesto. Tú haces una foto, solucionas lo que tengas que solucionar, y luego te vas a ver si eso es eficiente, si te va a servir, si sigues en peligro… y sacas otra foto. Entonces pagarás por cada análisis que hagas. De todos modos iremos viendo el feedback de los clientes… y si es necesario realizar algún cambio.

precios safecont

Además, hoy hemos sabido que los dominios serán dominios activos, es decir, que podremos consumir las 5000 URLs analizando 10 dominios de 500. Con esto, particularmente pienso que el precio es bastante más asequible para cierto tipo de proyectos.

7. ¿Cómo conseguir una beta?

Otro asistente: ¿para conseguir la beta? Porque a mí esto me parece muy bien pero yo ahora voy a la agencia y le digo: hay una herramienta que… querrán probarla.

Safecont: hasta ahora nuestra web era una simple plataforma para pedir betas, con tu nombre, email y dominio. A partir de ahora no se puede, pero lógicamente si alguien quiere probarlo pues simplemente contacta con nosotros y… oye mira tengo este dominio, me gustaría hacer una prueba de la herramienta…

Safecont: también va a depender del dominio. Cuando abrimos las betas hubo gente que nos mandó directamente una página en HTML y ya está para analizar, y yo creo que no tiene ni contenido, ni duplicado ni nada… así que mientras sean cosas que puedas sacarle un poco más de partido para que sea un poco más visual, sin problema. Nos lo podéis escribir por Twitter o al email de la web, porque estaban llegando recurrentemente betas…

8. ¿Cuál es la limitación de URLs en la betas?

Otro asistente: ¿las betas con qué limitación de URLs las habéis metido?

Safecont: depende del dominio que nos hayan mandado. Han sido pequeñas, de 500 a 2500 URLs en algún caso particular. Generalmente hacemos una ponderación pero te tienes que hacer a la idea porque te puede dar un scoring pero solo sobre las URLs que haya visto, pero por lo menos para que se veas más o menos cómo funciona el sistema. Nos podéis escribir…

9. ¿Safecont solo está disponible en español?

Otro asistente: ¿el tema del análisis semántico lo hacéis solo en español?

Safecont: No, es multidioma, funciona en todos los idiomas porque la manera de analizarlo es completamente diferente al word to word.

Safecont: cuando empezamos con el proceso de desarrollo valoramos un montón de opciones, algoritmos, trabajar generando diccionarios por idioma… lo que pasa es que en coste es inviable y al final funciona mucho peor. Esto es matemáticas, el idioma en el que estamos da igual porque analiza un volumen grande del contexto y saca ciertas fórmulas que son comunes, entonces a nosotros nos da igual si es español, francés, italiano… nos da lo mismo. No lo hemos probado nada más que en español, catalán, francés, italiano e inglés.

Safecont: y en filipino también. Y ya es bastante. Te decía que había un dibujo muy parecido al otro…


Y ahora… ¿Alguna duda sobre Safecont? Cualquier comentarios será bienvenido y si son dudas y os las puedo contestar, genial. Si no puedo, seguro que alguno de los integrantes de Safecont me permite contestaros.

¡Hasta la próxima!

 

 

 

 

 

 

 

  • Daniel Peris 22 noviembre, 2016 1:01 pm

    ¡Ostras!
    Pedazo de post, enhorabuena 🙂 y enhorabuena también a los artífices de Safecont!!!
    Veremos cómo evoluciona la herramienta, pero tiene muy, muy, muy buena pinta.
    Abrazos!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Post relacionados con: Safecont – Herramienta de análisis SEO y calidad de contenido

Solicita presupuesto



Mensaje

Acepto condiciones y términos legales