Documentos relacionados
Andres Felipe Rojas / Nancy Gelvez. UNESCO UNIR ICT & Education Latam Congress 2016

Arquitectura de sistemas: Título: AnalyticsMOOC- Solución TIC Big Data para entornos MOOC Número de expediente: TSI

Big Data & Machine Learning. MSc. Ing. Máximo Gurméndez Universidad de Montevideo

Conectores Pentaho Big Data Community VS Enterprise

>> Tecnologías clave << Captura de de información. Infraestructura. Técnicas de de Prototipado rápido

Mitos y Realidades del Big Data -Introducción al Big Data-

Software Libre para Aplicaciones de Big Data

Big Data para Inteligencia Criminal

Big Data y Seguridad

Sistemas de predicción Aprendizaje automático Data Mining & Machine Learning

CURSO: CURSO APACHE SPARK

POSTGRADO. Ingeniería EXPERTO EN BIG DATA

Análisis Inteligente de Datos: Introducción

Curso práctico. Big Data y Data Analytics

NOMBRE CÓDIGO - CATEGORIZACIÓN

La importancia de Big Data en finanzas

Introducción a Big Data

Análisis de sentimientos de tweets.

FaceFinder MÓDULO DE BÚSQUEDA DE PERSONAS DENTRO DE UNA BASE DE DATOS DE ROSTROS

Postgrado Negocio Digital

Desmitificando Big Data:

BIG DATA. Jorge Mercado. Software Quality Engineer

BIG DATA Desde que se cronometran las carreras, se corre más rápido

Aprendizaje: Boosting y Adaboost

Big Data y BAM con WSO2

COMO POSICIONAR PÁGINAS WEB

Big Data con nombres propios

MODELO PRUEBA DE ACCESO CICLO FORMATIVO DE GRADO SUPERIOR TICD

RETOS Y APLICACIONES DEL BIG DATA

Aprendizaje Automatizado

CRITERIOS DE SELECCIÓN DE MODELOS

ÍNDICE. Introducción... Capítulo 1. Conceptos de Big Data... 1

INTRODUCCIÓN A LA COMPUTACION EN LA NUBE Y BIG DATA (1) Ing. Carlos Ormella Meyer

MapReduce. Modelo de programación MapReduce. MapReduce. Sistemas Distribuidos. Tecnologías procesado masivo de datos. Vamos a contar palabras

MIGRACIÓN WEB Y REDIRECCIONES 301

UNIDAD 1 ESTUDIO DE UNA APLICACIÓN DISTRIBUIDA: HADOOP HDFS PARA EL ALMACENAMIENTO DE BIG DATA

Postgrado. Big Data Management. & Analytics Industria 4.0

Visión por computadora Computer vision

Introducción a Big Data y su aplicación en el entono asegurador. Fernando Turrado García Octubre 2016

PLATAFORMA SPARK: CATAPULTA MACHINE LEARNING

APACHE HADOOP. Daniel Portela Paz Javier Villarreal García Luis Barroso Vázquez Álvaro Guzmán López

curso PROYECTOS BIG DATA aplicados a la investigación y el Marketing 25 y 26 de Noviembre de 2014 de 9 a 14 h. madrid

Arancha Pintado. Perfiles Big Data.

Contenido CAPÍTULO 2 FUENTES DE GRANDES VOLÚMENES DE DATOS Parte I. La era de Big Data CAPÍTULO 1 QUÉ ES BIG DATA?... 1

PREVIEW BIDOOP 2.0. Big Data Brunch

CURSO: APACHE SPARK CAPÍTULO 2: INTRODUCCIÓN A APACHE SPARK.

Profesor: José Luis Montoya Restrepo

Programa Superior en. Big Data PSBD_. Aprende las técnicas de análisis en entornos Big Data para tomar decisiones de negocio BUSINESS&MARKETINGSCHOOL

Big Data y NO-SQL el futuro de la Arquitectura de Información

BIG DATA MARÍA PARRA AMAT. Almería, 5 junio 2015

Web GIS y Big Data en los análisis de tendencias y comportamientos

Big Data Analytics: propuesta de una arquitectura

Intel lanza su procesador Caballero Medieval habilitado para Inteligencia Artificial

Inteligencia artificial

Detectores de Intrusión

Introducción a las Redes Neuronales

Conceptos básicos de Big Data

Métodos de Inteligencia Artificial

Asumir el control de big data: soluciones de análisis y almacenamiento para obtener información de gran impacto sobre el negocio

Big data A través de una implementación

Técnicas de inteligencia artificial. Visión Artificial Visión 3D

Ambientes de gestión de información sensible a contexto en escenarios de alta escalabilidad

CURSO: DESARROLLADOR PARA APACHE HADOOP

MÁSTER: MÁSTER EXPERTO BIG DATA

UMECIT Universidad Metropolitana de Educación, Ciencia y Tecnología

Big Data para la toma de decisiones en viajes corporativos y reuniones de negocio Edwin Bernal Holguin

Aprendizaje basado en ejemplos.

INTRODUCCIÓN A APACHE SPARK CON PYTHON

TEMA 2. El ordenador: hardware y software

Big Data y Supercómputo. Dr. Jesús Antonio González (jagonzalez@inaoep.mx) Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE)

Medición y Visualización Meteorológica con Azure-IoT

Curso Big Data: Herramientas Tecnológicas y Aplicaciones para Negocio

Sistema de Recuperación de Información (SRI) UCR ECCI CI-2414 Recuperación de Información Prof. M.Sc. Kryscia Daviana Ramírez Benavides

BIG BIG DATA DATA Centro de Alta Capacitación en Tecnologías de la Información

Cómo impacta BPM en la Transformación Digital de su Organización

Big Data en la nube. Use los datos. Obtenga información. La pregunta clave es: Qué puede hacer Doopex por mi negocio?

Arquitectura para gestionar Big Data en Sistemas de Recomendaciones

Organización del Computador I. Introducción e Historia

Bases de datos distribuidas Fernando Berzal,

Métodos de Inteligencia Artificial

Introducción. Universidad Nacional Tecnológica del Cono Sur de Lima JORGE AUGUSTO MARTEL TORRES 1

BIG DATA & SEGURIDAD UN MATRIMONIO DE FUTURO

Deep Learning y Big Data

Asignaturas antecedentes y subsecuentes

Título: Yo RDD (Resilient Distributed Datasets) con la Bujía (SPARK)!!!

Analítica Web Google Analytics. Elixabete Garcia Mondragon

Web Analytics Medir para ganar

Oracle PL/SQL for Analytics Oracle Fundamentals. web

SISTEMAS DE DETECCIÓN DE INTRUSOS EN LA PLATAFORMA NETFPGA USANDO RECONOCIMIENTO DE EXPRESIONES REGULARES.

Big Data. Rodolfo Campos

Perspectivas de la Computación Científica. Clusters, Grids y Clouds. Desarrollos y retos Raúl Ramos Pollán Universidad Nacional de Colombia

Unidad I Introducción a la programación de Sistemas. M.C. Juan Carlos Olivares Rojas

5. Cuáles son las actividades primarias de la producción de software

Sistemas de Percepción

CURSO: CURSO ADMINISTRADOR HADOOP

EXPERTO EN DATA SCIENCE


Qué es un programa informático?

Curso de introducción al POSICIONAMIENTO WEB

Paralelismo en Recuperación de Información en la Web

Transcripción:

V

https://www.google.com/analytics/resources/white-paper-mit-tr-analytics-machine-learning.html?utm_source=twitter&utm_medium=social-owned&utm_campaign=2016-q4-gbl-all-ga360-suite&utm_content=mit-whitepaper

@safeconten https://arxiv.org/pdf/1609.08144.pdf en @ClinicSEO: @carlosredondo y @ecesaraparicio

BIG DATA

En 2016 se generó un tráfico IP que sobrepasó el zettapyte (1000 exabytes, 1 millón de terabytes o 10 21 bytes). Generar, recolectar y procesar información. Bases de datos capaces de escalar linealmente con el número de máquinas que las conforman.

Google BigTable fué creada para almacenar las páginas indexadas y poder procesarlas en un tiempo razonable para generar su índice. Amazon Dynamo fue creado para dar soporte a la inmensa base de datos sobre la que funciona la tienda de Amazon. Apache Cassandra fue creada por Facebook para dar soporte a su sistema de mensajería interno.

Frameworks (conjunto de herramientas para el desarrollo de una aplicación) para el procesamiento paralelo de información con hardware barato: MapReduce de Google, Apache Hadoop (clon de MapReduce), Apache Spark (clon de Hadoop con vitaminas)

INTELIGENCIA ARTIFICIAL

General Artificial Intelligence Expert Systems Natural Language Processing Computer Vision Machine Learning

MACHINE LEARNING

Construir un modelo: Algoritmos que permiten aprender a partir de información, para hacer predicciones futuras. Supervisados y no supervisados. Cuantos más datos -> Más entrenamiento -> Mayor precisión.

Máquinas capaces de aprender por sí mismas y resolver problemas

Un proceso de ML 1. Extracción de información 2. Selección de métricas interesantes 3. Elección de algoritmos de ML 4. Entrenamiento de los modelos 5. Aplicación de los modelos a datos reales 6. Análisis de los resultados

Extracción de información 1. Crawleamos el dominio. 2. Limpiamos datos no interesantes con una primera etapa de Map Reduce. 3. Extraemos señales interesantes para cada URL con otras 5 etapas de Map Reduce.

ML - Clasificación supervisada Uso de nuestra experiencia en la etapa inicial de definición. Y clasificación automática a partir de datos reales. Safecont usa un meta-clasificador que combina el resultado de múltiples clasificadores para determinar cuando una URL tiene penalización.

ML - clasificación no supervisada Uso de características propias de la información para dividirla en diversas clases. Safecont usa 2 algoritmos de clusterización distintos para dividir la información en grupos interesantes por su peligrosidad y contenido.

Pagerank Trustrank Anti- Trustrank HITS SERP Topic Distillation WITH (Content-Hyperlinks

Cómo la usamos en nuestro software?

Calcular, calcular y calcular Safecont IA cálculos realizados: 6E+17 5E+17 4E+17 3E+17 2E+17 1E+17 0 URLS Calculos Calculos URLS 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Y eso cuánto es? Un ejemplo...

Para un análisis de 102.400 URLs Safecont realiza 1.073.790.000.000.000 MIL BILLONES DE CÁLCULOS

El resultado Todas estas métricas y procesos de ML nos permiten calcular: Una puntuación global de dominio (PandaRisk). Un puntuación por URL que determina el peligro de penalización (PageRisk).

Trabajamos con las mismas pautas que trabaja Google

etectando clustersde peligrosidad usando Machine Learning

Y qué es un cluster?

Cluster: Agrupación de URLs en función de determinados patrones extraídos a través de algoritmos de Machine Learning que en nuestro caso detectan peligrosidad de ser penalizados

Grupos de URLs con el mismo peligro de ser penalizadas

http://www.seobythesea.com/2016/10/google-patents-context-vectors-improve-search/

https://www.quantamagazine.org/20170209-the-fight-to-fix-symplectic-geometry/

Grupos de URLs con el mismo peligro de ser penalizadas por problemas de similaridad semántica

Y para qué? Para evitar

Relacionando arquitectura y contenido para solventar penalizaciones y optimizar los sitios web

Y cómo?

Relacionando problemas de contenido con la arquitectura de la web

Por tanto, podemos realizar análisis web en profundidad impensables hasta la fecha con la tecnología convencional : Detectar problemas rápidamente y con alta fiabilidad. Detectar problemas imperceptibles hasta la fecha. Detectar problemas en escaso tiempo ahorrando horas de trabajo y costes.

Y funciona?

GRACIAS V @SafecontEN