V
https://www.google.com/analytics/resources/white-paper-mit-tr-analytics-machine-learning.html?utm_source=twitter&utm_medium=social-owned&utm_campaign=2016-q4-gbl-all-ga360-suite&utm_content=mit-whitepaper
@safeconten https://arxiv.org/pdf/1609.08144.pdf en @ClinicSEO: @carlosredondo y @ecesaraparicio
BIG DATA
En 2016 se generó un tráfico IP que sobrepasó el zettapyte (1000 exabytes, 1 millón de terabytes o 10 21 bytes). Generar, recolectar y procesar información. Bases de datos capaces de escalar linealmente con el número de máquinas que las conforman.
Google BigTable fué creada para almacenar las páginas indexadas y poder procesarlas en un tiempo razonable para generar su índice. Amazon Dynamo fue creado para dar soporte a la inmensa base de datos sobre la que funciona la tienda de Amazon. Apache Cassandra fue creada por Facebook para dar soporte a su sistema de mensajería interno.
Frameworks (conjunto de herramientas para el desarrollo de una aplicación) para el procesamiento paralelo de información con hardware barato: MapReduce de Google, Apache Hadoop (clon de MapReduce), Apache Spark (clon de Hadoop con vitaminas)
INTELIGENCIA ARTIFICIAL
General Artificial Intelligence Expert Systems Natural Language Processing Computer Vision Machine Learning
MACHINE LEARNING
Construir un modelo: Algoritmos que permiten aprender a partir de información, para hacer predicciones futuras. Supervisados y no supervisados. Cuantos más datos -> Más entrenamiento -> Mayor precisión.
Máquinas capaces de aprender por sí mismas y resolver problemas
Un proceso de ML 1. Extracción de información 2. Selección de métricas interesantes 3. Elección de algoritmos de ML 4. Entrenamiento de los modelos 5. Aplicación de los modelos a datos reales 6. Análisis de los resultados
Extracción de información 1. Crawleamos el dominio. 2. Limpiamos datos no interesantes con una primera etapa de Map Reduce. 3. Extraemos señales interesantes para cada URL con otras 5 etapas de Map Reduce.
ML - Clasificación supervisada Uso de nuestra experiencia en la etapa inicial de definición. Y clasificación automática a partir de datos reales. Safecont usa un meta-clasificador que combina el resultado de múltiples clasificadores para determinar cuando una URL tiene penalización.
ML - clasificación no supervisada Uso de características propias de la información para dividirla en diversas clases. Safecont usa 2 algoritmos de clusterización distintos para dividir la información en grupos interesantes por su peligrosidad y contenido.
Pagerank Trustrank Anti- Trustrank HITS SERP Topic Distillation WITH (Content-Hyperlinks
Cómo la usamos en nuestro software?
Calcular, calcular y calcular Safecont IA cálculos realizados: 6E+17 5E+17 4E+17 3E+17 2E+17 1E+17 0 URLS Calculos Calculos URLS 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Y eso cuánto es? Un ejemplo...
Para un análisis de 102.400 URLs Safecont realiza 1.073.790.000.000.000 MIL BILLONES DE CÁLCULOS
El resultado Todas estas métricas y procesos de ML nos permiten calcular: Una puntuación global de dominio (PandaRisk). Un puntuación por URL que determina el peligro de penalización (PageRisk).
Trabajamos con las mismas pautas que trabaja Google
etectando clustersde peligrosidad usando Machine Learning
Y qué es un cluster?
Cluster: Agrupación de URLs en función de determinados patrones extraídos a través de algoritmos de Machine Learning que en nuestro caso detectan peligrosidad de ser penalizados
Grupos de URLs con el mismo peligro de ser penalizadas
http://www.seobythesea.com/2016/10/google-patents-context-vectors-improve-search/
https://www.quantamagazine.org/20170209-the-fight-to-fix-symplectic-geometry/
Grupos de URLs con el mismo peligro de ser penalizadas por problemas de similaridad semántica
Y para qué? Para evitar
Relacionando arquitectura y contenido para solventar penalizaciones y optimizar los sitios web
Y cómo?
Relacionando problemas de contenido con la arquitectura de la web
Por tanto, podemos realizar análisis web en profundidad impensables hasta la fecha con la tecnología convencional : Detectar problemas rápidamente y con alta fiabilidad. Detectar problemas imperceptibles hasta la fecha. Detectar problemas en escaso tiempo ahorrando horas de trabajo y costes.
Y funciona?
GRACIAS V @SafecontEN