La naturaleza del “big data” y sus aplicaciones

Economía Sociedad 31/10/2014

¿Qué es el big data? Ataka Kazuto nos ofrece la definición y características del big data y expone los distintos campos donde podría aprovecharse, al tiempo que habla de los problemas relacionados con su aplicación en el entorno de Japón.　　　　　　　

English
日本語
简体字
繁體字
Français
Español
العربية
Русский

La teoría del big data

Últimamente está creciendo el interés por un concepto denominado big data (“datos masivos”), una idea que surgió de un informe publicado por el Instituto Global MacKinsey en 2011. Parte de la idea de que nos dirigimos hacia una era en la que se utilizará una cantidad tan masiva de datos que los sistemas de administración de información actuales no podrán hacerse cargo de ellos; el informe señalaba la posibilidad de que surgieran grandes oportunidades de negocio a partir del uso estratégico de esos datos.

¿Pero qué es eso del big data, en realidad? El término se refiere a una cantidad de datos tan grande que la administración de datos actual no puede cubrir, pero en realidad se llama big data a la información específica que atañe a un servicio (datos de acceso), recogida a gran escala, y a la información que conecta esta con los datos contextuales del usuario (también hay casos en los que no son contextuales) en el nivel en el que se generan.

El uso más representativo son los datos utilizados en los servicios de Internet. Esto también incluye los datos de terminal punto de venta (datos TPV), la información del uso de electricidad y los datos recolectados por sensores como los de velocidad o los contadores metabólicos inalámbricos.

A diferencia de los muestreos de datos, dado que en el big data se incluyen todos los datos del usuario del servicio, se trata de la información sobre cada minuto y cada segundo, más que la información relativa a un día o una hora. También es frecuente que se pueda analizar información geográfica con una profundidad con una exactitud geográfica de hasta seis o siete dígitos por coordenada, y no solo la de las ciudades, los distritos o los barrios.

Las tres características del big data

Por lo general, el volumen de datos es muy grande, existe una gran variedad, y la velocidad de generación de datos es muy alta; esas tres características del big data se suelen abreviar como 3V. Sin embargo de esto no se puede concluir que una de las palabras claves sea siempre la diversidad, como se ve en los ejemplos de big data del uso de electricidad o la información de sensores como los detectores de velocidad. Lo mismo ocurre con los otros dos elementos -el volumen y la velocidad-: los tres elementos del 3V no siempre son aplicables en la recogida de datos.

Desde el punto de vista del uso del big data también se pueden citar tres características.

La primera es que la densidad contextual que se reúne es, comparativamente, mucho menor que cuando se realiza una encuesta o sondeo de comportamiento. Aunque se sepa cuándo se han utilizado los servicios o durante cuánto tiempo, se desconocen elementos contextuales como la situación, la razón o el objetivo para realizar esa actividad. La información contextual (si el usuario tiene hijos, qué trabajo realiza, cuál es su nivel de estudios o su nivel de ingresos) también es escasa. Se podría decir que este es uno de los problemas para el uso del big data en el márketing.

La segunda es que todos los datos generados están cubiertos. En los muestreos no se ven; lo que se puede apreciar son patrones especiales en las colas de los datos generados con una baja frecuencia.

La tercera característica es que el manejo de la información se produce en tiempo real. El big data genera datos en tiempo real basados en el consumo y el uso por parte del usuario, y como se puede producir una respuesta en ese momento, los datos son útiles desde el instante en el que se produce un comportamiento especial o se crea una necesidad. Por ejemplo, cuando un usuario que parece tener un gran interés en un automóvil visita varias páginas relacionadas seguidas, se le puede ofrecer información relativa a dicho vehículo. Esto es algo que ahora no se puede hacer con los datos habituales de márketing.

Casos que demuestran la fuerza del big data

Ahora me gustaría analizar la expansión del uso de los datos partiendo de los seis pasos basados en la técnica de márketing conocida como “oferta de precios”.

El primer paso consiste en una comprensión de la estructura del mercado y las necesidades, base para la introducción de estrategias de servicios unidos a la mayoría de los productos ofertados. El segundo paso es establecer un contexto para los servicios y precios que son centrales a esa comprensión del mercado.

El tercer paso es el márketing hacia el cliente; el cuarto consiste en, como he mencionado antes, “atacar” las facetas del mercado en las que han surgido necesidades (a través de publicidad, correo, contenidos en páginas web, etcétera); el quinto paso se traduce en, una vez dados los cuatro primeros, sopesar los resultados, mientras que el sexto paso consiste en prepararse numéricamente a corto plazo a partir de esos datos.

Uno de los puntos más fuertes del big data se da en relación al tercer paso y los posteriores, citados más arriba. Por ejemplo, El big data no falla cuando se trata de ofrecer servicios e información pertinente para las características de un usuario individual. Como ejemplo típico se puede citar la oferta de productos en Internet, que excluye los elementos no relevantes al historial de búsquedas del usuario, o los cupones de descuentos que se ofrecen basados en la franja de consumo a la que pertenece.

La publicidad en tiempo real, es decir, cuando el usuario introduce términos de búsqueda que son de actualidad y se le presentan automáticamente resultados relacionados con temas de actualidad, se basa en un “aprendizaje mecánico” producido con los datos recogidos. Una característica del big data es que los datos utilizados mediante este aprendizaje mecánico pueden usarse sin necesidad de que las personas que ofrecen los servicios deban comprender su contexto.

Por otro lado, si se desea analizar la masa de datos con más detalle, resulta imprescindible contar con la potencia del big data. Sería el caso, por ejemplo, de querer comprobar la evolución de las ventas de un puesto nocturno de pollo frente a una estación durante una semana.

Fuertes predicciones a corto plazo sobre elecciones y tendencias económicas

Un tema en el que se espera que el big data sea de gran provecho, no en un futuro lejano sino ya mismo o a corto plazo, son las predicciones exactas sobre cantidades fijas. Hay dos ejemplos interesantes, llevados a cabo por Yahoo. El primero fue la predicción sobre los resultados de las elecciones para la Cámara de Consejeros, celebradas en junio de 2013.

Nuestra predicción se demostró acertada en su mayor parte, y logró resultados más exactos que los de cualquiera de los grandes medios de comunicación. Concretamente, datos como el volumen de las búsquedas observadas en Internet, o el de las entradas originales escritas en Twitter o Facebook mostraron una gran correlación con los patrones de voto, según la cual se elaboraron las predicciones por distritos. Gracias al simple uso de una cantidad masiva de datos se pudo superar el método tradicional, que consiste en amalgamar opiniones de expertos y constituyentes, y resultados de encuestas.

El otro ejemplo se dio con predicciones económicas. Los índices de tendencias económicas del Gabinete suelen llegar con uno o dos meses de retraso; nosotros decidimos no esperar a que nos dijeran si la economía había ido bien dos meses antes, y tratar de averiguarlo por nuestra cuenta. La labor comenzó por clasificar las palabras clave de búsqueda. Yahoo sirve anualmente cerca de 7.500 millones de búsquedas, de las cuales se clasificaron como constantes de búsqueda 600.000, y en concreto unas doscientas directamente relacionadas con la economía. Con estas como base se creó un modelo que mostrara el estado de la economía actual, el cual pudo predecir con bastante exactitud los resultados reales.

De este modo, el big data demuestra poseer un gran poder predictivo a corto plazo. Y lo cierto es que en la actualidad ya se usa en la administración de cadenas de suministro, y es uno de los motivos por los que las tiendas de 24 horas no quiebran pese a abastecerse de miles de productos tres veces al día.

Los problemas que obstaculizan el uso

Ahora quisiera mencionar varios problemas representativos que pueden ocurrir a la hora de utilizar el big data. El primero consiste en que la mayoría de los negocios no cuentan con datos suficientes como para alcanzar ese nivel. Este es un problema fundamental.

El segundo problema lo representa el hecho de que una gran parte de la información no se encuentra suficientemente consolidada para su uso, y por lo tanto no se puede utilizar. La clasificación de productos al por menor se divide en campos como objetos de uso cotidiano, tallas para hombre y mujer, etcétera, pero la estructura de estas clasificaciones difieren incluso entre diversos eslabones de la misma cadena de suministro. Como resultado resulta muy difícil utilizar los datos a nivel global. Consolidar estos datos para su uso constituye un gran problema.

Aunque se resolvieran estos dos problemas, sería necesario un sistema que permitiera el uso inmediato, en tiempo real, de toda la información, lo cual supone un gran tráfico en la red. La mayoría de las empresas no cuentan con un sistema así, ni tampoco tienen las instalaciones necesarias para almacenar los datos recogidos de este modo. Y aunque las poseyeran, no tienen los recursos humanos que puedan mantenerlas.

En la resolución de estos problemas se hace imperativo contar con recursos humanos que dispongan de habilidades generales con las que dar respuesta a los problemas empresariales, y utilizar las ciencias de la información y la fuerza de la ingeniería en ese mar de datos.

Como hemos visto, no hay datos suficientes. No se pueden consolidar, ni se pueden unificar los sistemas de manejo y administración de datos; tampoco hay instalaciones básicas, ni personal de mantenimiento, ni tampoco personas capaces de comprender y encargarse de estos problemas. Esta es la situación actual en la mayoría de las empresas.

Las medidas sobre seguridad revelan una bipolarización de la industria

En el debate sobre el big data se suele hablar a menudo de los problemas que genera la protección de la privacidad; pero dado que dicho debate cuenta con posiciones muy diferentes, las dimensiones del problema son muy distintas según desde qué punto de vista se contemple. Las grandes empresas de Internet ya han dado los pasos más acuciantes para los problemas de seguridad. Por ejemplo, Yahoo realiza sus análisis de datos basándose en información anónima, diferenciando claramente los datos individuales de los historiales de búsqueda.

Por otro lado, muchas empresas de corte tradicional administran toda la información sin diferenciar entre la información personal y los datos de acceso. Y dado que los sistemas que estas empresas utilizan para detectar amenazas no son suficientes, resulta difícil descubrir si se ha producido una fuga de información.

Se está produciendo una bipolarización en las empresas en cuanto al uso de la información. Es lógico suponer que es necesario establecer directrices sobre la administración de datos, para poder proteger al usuario.

Las tres desventajas que aquejan a Japón

En general, si comparamos al Japón de hoy día con Estados Unidos y otros países similares, existen tres desventajas. La primera es que hay pocas empresas que generen datos suficientes como para poder emplear el big data. La segunda es que no hay infraestructuras que provean un entorno en el que usar los datos con facilidad. Por ejemplo, dado que la electricidad es varias veces más cara que en Estados Unidos, el coste de establecer y mantener centros de datos es muy caro. Ese es uno de los motivos por los que las principales empresas de la información no han entrado con su infraestructura en Japón. Para poder generar un mayor negocio de la información es necesario implantar exenciones que al menos ofrezcan precios especiales para la electricidad a esas empresas.

La tercera desventaja es el problema de la falta de recursos humanos. Para resolverla es necesario contar con personas que posean tres capacidades: poseer conocimientos en las “ciencias de los datos” y la ingeniería de datos, comprender el trasfondo de los problemas, ser capaces de ocuparse de temas de negocios y poder encontrar soluciones.

Por “ciencias de los datos” me refiero a la habilidad de comprender y utilizar todos los conocimientos relacionados con las ciencias de la información, como el procesamiento de información, la inteligencia artificial y la estadística. La ingeniería de datos se refiere a la manera de dar una forma usable a esa “ciencia de los datos”, implementarla en sistemas reales y hacerla usable. No es necesario que una sola persona posea todas esas capacidades, pero el hecho de formar de manera intensiva un grupo de personas que puedan aportar esas habilidades en conjunto será determinante para el éxito o el fracaso del big data en el futuro cercano.

(Artículo redactado por el comité editorial de nippon.com, basado en una entrevista realizada el 25 de septiembre de 2014. Traducido al español del original en japonés.)

Internet estrategia de crecimiento Big Data Yahoo