|
| ||||
Big data 2: Características El Big Data se puede describir mediante las siguientes características: Volumen La cantidad de datos generados y almacenados. El tamaño de los datos determina su valor y el potencial de conocimiento, y si realmente pueden considerarse big data o no. Variedad El tipo y la naturaleza de los datos. Esto ayuda a quienes los analizan a utilizar eficazmente la información resultante. Velocidad En este contexto, la velocidad con la que se generan y procesan los datos permite satisfacer las demandas y desafíos que se encuentran en el camino del crecimiento y el desarrollo. Variabilidad La inconsistencia del conjunto de datos puede obstaculizar los procesos para manejarlo y gestionarlo. Veracidad La calidad de los datos capturados puede variar en gran medida, lo que afecta la precisión del análisis. El trabajo de fábrica y los sistemas ciberfísicos pueden tener un sistema 6C: Conexión (sensores y redes) Nube (computación y datos bajo demanda) Cibernético (modelo y memoria) Contenido/contexto (significado y correlación) Comunidad (intercambio y colaboración) Personalización (personalización y valor) Los datos deben procesarse con herramientas avanzadas (análisis y algoritmos) para revelar información significativa. Por ejemplo, para gestionar una fábrica, es necesario considerar tanto los problemas visibles como los invisibles de los distintos componentes. Los algoritmos de generación de información deben detectar y abordar problemas invisibles, como la degradación de las máquinas, el desgaste de los componentes, etc., en la planta de producción. Arquitectura En el año 2000, Seisint Inc. (actualmente LexisNexis Group) desarrolló un marco distribuido de intercambio de archivos basado en C++ para el almacenamiento y la consulta de datos. El sistema almacena y distribuye datos estructurados, semiestructurados y no estructurados entre múltiples servidores. Los usuarios pueden crear consultas en un dialecto de C++ llamado ECL. ECL utiliza el método de "aplicar esquema al leer" para inferir la estructura de los datos almacenados al consultarlos, en lugar de al almacenarlos. En 2004, LexisNexis adquirió Seisint Inc. y, en 2008, ChoicePoint, Inc. y su plataforma de procesamiento paralelo de alta velocidad. Ambas plataformas se fusionaron en sistemas HPCC (o Clúster de Computación de Alto Rendimiento) y, en 2011, HPCC se convirtió en código abierto bajo la licencia Apache v2.0. El sistema de archivos Quantcast estuvo disponible prácticamente al mismo tiempo. En 2004, Google publicó un artículo sobre un proceso llamado MapReduce , que utiliza una arquitectura similar. El concepto de MapReduce proporciona un modelo de procesamiento paralelo, y se lanzó una implementación asociada para procesar grandes cantidades de datos. Con MapReduce, las consultas se dividen y distribuyen entre nodos paralelos y se procesan en paralelo (paso Map). Los resultados se recopilan y entregan (paso Reduce). El framework tuvo mucho éxito, por lo que otros usuarios quisieron replicar el algoritmo. Por lo tanto, un proyecto de código abierto de Apache llamado Hadoop adoptó una implementación del framework MapReduce . MIKE2.0 es un enfoque abierto para la gestión de la información que reconoce la necesidad de revisiones debido a las implicaciones del big data, identificadas en un artículo titulado "Oferta de soluciones para big data". La metodología aborda la gestión del big data en términos de permutaciones útiles de fuentes de datos, la complejidad de las interrelaciones y la dificultad para eliminar (o modificar) registros individuales. Estudios de 2012 demostraron que una arquitectura multicapa es una opción para abordar los problemas que presenta el big data. Una arquitectura paralela distribuida distribuye los datos entre múltiples servidores; estos entornos de ejecución paralelos pueden mejorar drásticamente la velocidad de procesamiento de datos. Este tipo de arquitectura inserta los datos en un SGBD paralelo, que implementa el uso de los frameworks MapReduce y Hadoop. Este tipo de framework busca que la potencia de procesamiento sea transparente para el usuario final mediante el uso de un servidor de aplicaciones front-end. El análisis de big data para aplicaciones de fabricación se comercializa como una arquitectura 5C (conexión, conversión, cibernética, cognición y configuración). El lago de datos permite a una organización cambiar su enfoque del control centralizado a un modelo compartido para responder a la dinámica cambiante de la gestión de la información. Esto facilita la rápida segregación de datos en el lago de datos, reduciendo así el tiempo de sobrecarga. Tecnologías Un informe del McKinsey Global Institute de 2011 caracteriza los principales componentes y el ecosistema del big data de la siguiente manera: Técnicas para analizar datos, como pruebas A/B, aprendizaje automático y procesamiento del lenguaje natural. Tecnologías de big data, como inteligencia empresarial , computación en la nube y bases de datos Visualización, como gráficos, tablas y otras presentaciones de los datos. Los big data multidimensionales también pueden representarse como tensores , que se gestionan de forma más eficiente mediante computación basada en tensores, como el aprendizaje multilineal de subespacios . Otras tecnologías que se aplican al big data incluyen bases de datos de procesamiento masivo en paralelo (MPP), aplicaciones basadas en búsquedas , minería de datos , sistemas de archivos distribuidos, bases de datos distribuidas , infraestructura en la nube (aplicaciones, almacenamiento y recursos informáticos) e Internet. Algunas bases de datos relacionales MPP, aunque no todas, tienen la capacidad de almacenar y gestionar petabytes de datos. Esto implica la capacidad de cargar, supervisar, realizar copias de seguridad y optimizar el uso de las grandes tablas de datos del RDBMS. El programa de Análisis de Datos Topológicos de DARPA busca la estructura fundamental de conjuntos de datos masivos y en 2008 la tecnología se hizo pública con el lanzamiento de una empresa llamada Ayasdi. Los profesionales del análisis de big data generalmente se muestran reacios al almacenamiento compartido más lento y prefieren el almacenamiento de conexión directa (DAS) en sus diversas formas, desde unidades de estado sólido (SSD) hasta discos SATA de alta capacidad integrados en nodos de procesamiento paralelo. La percepción de las arquitecturas de almacenamiento compartido (red de área de almacenamiento [SAN] y almacenamiento conectado a red [NAS]) es que son relativamente lentas, complejas y costosas. Estas características no son compatibles con los sistemas de análisis de big data que se basan en el rendimiento del sistema, la infraestructura básica y el bajo coste. La entrega de información en tiempo real o casi real es una de las características que definen el análisis de big data. Por lo tanto, se evita la latencia siempre que sea posible. Los datos en memoria son seguros; los datos en un disco giratorio en el otro extremo de una conexión SAN FC, no. El coste de una SAN a la escala necesaria para aplicaciones analíticas es mucho mayor que el de otras técnicas de almacenamiento. El almacenamiento compartido en el análisis de big data tiene ventajas y desventajas, pero los profesionales en análisis de big data en 2011 no lo favorecían. Aplicaciones El big data ha incrementado tanto la demanda de especialistas en gestión de la información que Software AG , Oracle Corporation , IBM , Microsoft , SAP, EMC, HP y Dell han invertido más de 15 000 millones de dólares en empresas de software especializadas en gestión y análisis de datos. En 2010, esta industria valía más de 100 000 millones de dólares y crecía a un ritmo de casi el 10 % anual: aproximadamente el doble de rápido que el sector del software en su conjunto. Las economías desarrolladas utilizan cada vez más tecnologías intensivas en datos. Hay 4.600 millones de suscripciones a teléfonos móviles en todo el mundo y entre 1.000 y 2.000 millones de personas acceden a Internet. Entre 1990 y 2005, más de 1.000 millones de personas en todo el mundo ingresaron a la clase media, lo que significa que más personas se volvieron más alfabetizadas, lo que a su vez conduce al crecimiento de la información. La capacidad efectiva del mundo para intercambiar información a través de las redes de telecomunicaciones fue de 281 petabytes en 1986, 471 petabytes en 1993, 2,2 exabytes en 2000, 65 exabytes en 2007 y las predicciones sitúan la cantidad de tráfico de Internet en 667 exabytes anuales para 2014. Según una estimación, un tercio de la información almacenada a nivel mundial está en forma de texto alfanumérico y datos de imágenes fijas, que es el formato más útil para la mayoría de las aplicaciones de big data. Esto también muestra el potencial de los datos aún no utilizados (es decir, en forma de contenido de vídeo y audio). Si bien muchos proveedores ofrecen soluciones listas para usar para big data, los expertos recomiendan el desarrollo de soluciones internas personalizadas para resolver el problema en cuestión de la empresa, si esta cuenta con las capacidades técnicas suficientes. Gobierno El uso y la adopción de big data en los procesos gubernamentales permite eficiencias en términos de costos, productividad e innovación, pero tiene sus inconvenientes. El análisis de datos a menudo requiere la colaboración de múltiples áreas del gobierno (central y local) y la creación de procesos nuevos e innovadores para lograr el resultado deseado. A continuación, se presentan algunos ejemplos de iniciativas en el ámbito del big data gubernamental. Estados Unidos de América En 2012, la administración Obama anunció la Iniciativa de Investigación y Desarrollo de Big Data para explorar cómo se podría utilizar el big data para abordar importantes problemas que enfrenta el gobierno. La iniciativa está compuesta por 84 programas de big data diferentes, distribuidos en seis departamentos. El análisis de big data jugó un papel importante en la exitosa campaña de reelección de Barack Obama en 2012. El Gobierno Federal de los Estados Unidos posee seis de las diez supercomputadoras más poderosas del mundo. El Centro de Datos de Utah ha sido construido por la Agencia de Seguridad Nacional de Estados Unidos . Una vez finalizado, la instalación podrá gestionar una gran cantidad de información recopilada por la NSA a través de internet. Se desconoce la capacidad exacta de almacenamiento, pero fuentes más recientes afirman que será del orden de unos pocos exabytes. India El análisis de big data fue en parte responsable de que el BJP ganara las elecciones generales de la India de 2014. El gobierno indio utiliza numerosas técnicas para determinar cómo responde el electorado indio a las acciones del gobierno, así como ideas para ampliar las políticas. Reino Unido Ejemplos de usos del big data en los servicios públicos: Datos sobre medicamentos con receta: al relacionar el origen, la ubicación y el momento de cada receta, una unidad de investigación pudo ejemplificar el considerable retraso entre la comercialización de un medicamento y la adaptación a nivel nacional de las directrices del Instituto Nacional para la Excelencia en la Salud y la Atención . Esto sugiere que los medicamentos nuevos o más actualizados tardan un tiempo en llegar al paciente general. Integración de datos: una autoridad local combinó datos sobre servicios, como las rutas de esparcido de sal en las carreteras, con servicios para personas en riesgo, como la comida a domicilio. Esta integración de datos permitió a la autoridad local evitar retrasos relacionados con las condiciones meteorológicas. Desarrollo internacional La investigación sobre el uso eficaz de las tecnologías de la información y la comunicación para el desarrollo (también conocidas como TIC para el desarrollo) sugiere que la tecnología de big data puede realizar importantes contribuciones, pero también presenta desafíos únicos para el desarrollo internacional. Los avances en el análisis de big data ofrecen oportunidades rentables para mejorar la toma de decisiones en áreas críticas para el desarrollo, como la atención médica, el empleo, la productividad económica, la delincuencia, la seguridad y la gestión de desastres naturales y recursos. Además, los datos generados por los usuarios ofrecen nuevas oportunidades para dar voz a quienes no son escuchados. Sin embargo, los desafíos de larga data que enfrentan las regiones en desarrollo, como la infraestructura tecnológica inadecuada y la escasez de recursos económicos y humanos, exacerban las preocupaciones existentes sobre el big data, como la privacidad, la metodología imperfecta y los problemas de interoperabilidad. Fabricación Según el Estudio de Tendencias Globales TCS 2013, las mejoras en la planificación del suministro y la calidad del producto ofrecen el mayor beneficio del big data para la fabricación. El big data proporciona una infraestructura para la transparencia en la industria manufacturera, lo que permite desentrañar incertidumbres como la inconsistencia en el rendimiento y la disponibilidad de los componentes. La fabricación predictiva, como enfoque aplicable para lograr tiempos de inactividad casi nulos y transparencia, requiere una gran cantidad de datos y herramientas avanzadas de predicción para un procesamiento sistemático de los datos en información útil. El marco conceptual de la fabricación predictiva comienza con la adquisición de datos, donde se pueden adquirir diferentes tipos de datos sensoriales, como datos de acústica, vibración, presión, corriente, voltaje y del controlador. Esta gran cantidad de datos sensoriales, sumada a los datos históricos, construye el big data en la fabricación. El big data generado sirve como insumo para herramientas predictivas y estrategias preventivas como los pronósticos y la gestión de la salud (PHM). Modelos ciberfísicos Las implementaciones actuales de PHM utilizan principalmente datos durante el uso real, mientras que los algoritmos analíticos pueden ser más precisos al incluir más información a lo largo del ciclo de vida de la máquina, como la configuración del sistema, el conocimiento físico y los principios de funcionamiento. Es necesario integrar, gestionar y analizar sistemáticamente los datos de la maquinaria o del proceso durante las diferentes etapas de su ciclo de vida para gestionar los datos y la información de forma más eficiente y lograr una mayor transparencia del estado de la máquina en la industria manufacturera. Con esta motivación, se ha desarrollado un esquema de modelo ciberfísico (acoplado). Este modelo acoplado es un gemelo digital de la máquina real que opera en la plataforma en la nube y simula su estado con conocimiento integrado, tanto de algoritmos analíticos basados en datos como de otros conocimientos físicos disponibles. También puede describirse como un enfoque sistemático de las 5S que consiste en detección, almacenamiento, sincronización, síntesis y servicio. El modelo acoplado construye primero una imagen digital desde la etapa inicial de diseño. La información del sistema y el conocimiento físico se registran durante el diseño del producto, a partir de lo cual se construye un modelo de simulación como referencia para futuros análisis. Los parámetros iniciales pueden generalizarse estadísticamente y ajustarse utilizando datos de pruebas o del proceso de fabricación mediante la estimación de parámetros. Posteriormente, el modelo de simulación puede considerarse una imagen reflejada de la máquina real, capaz de registrar y monitorizar continuamente su estado durante la etapa posterior de utilización. Finalmente, gracias a la mayor conectividad que ofrece la tecnología de computación en la nube, el modelo acoplado también proporciona una mejor accesibilidad al estado de la máquina para los gerentes de fábrica en casos donde el acceso físico a los equipos o datos reales de la máquina es limitado. Cuidado de la salud El análisis de big data ha contribuido a mejorar la atención médica al proporcionar medicina personalizada y análisis prescriptivos , intervención de riesgo clínico y análisis predictivo, reducción del desperdicio y la variabilidad de la atención, informes automatizados externos e internos de datos de pacientes, términos médicos y registros de pacientes estandarizados, y soluciones puntuales fragmentadas. Algunas áreas de mejora son más ambiciosas que implementadas. El nivel de datos generados dentro de los sistemas de salud no es trivial. Con la adopción de la salud móvil, la salud electrónica y las tecnologías wearables, el volumen de datos seguirá aumentando. Esto incluye datos de historiales médicos electrónicos , datos de imágenes, datos generados por pacientes, datos de sensores y otros tipos de datos difíciles de procesar. Ahora existe una necesidad aún mayor de que estos entornos presten mayor atención a la calidad de los datos y la información. "Big data a menudo significa ' datos sucios ' y la proporción de inexactitudes en los datos aumenta con el crecimiento del volumen de datos". La inspección humana a escala de big data es imposible y existe una necesidad apremiante en los servicios de salud de herramientas inteligentes para el control de la precisión y la credibilidad, y para la gestión de la información omitida. Si bien una gran cantidad de información en la atención médica ahora es electrónica, se enmarca dentro del concepto de big data, ya que la mayor parte no está estructurada y es difícil de usar. Educación Un estudio del McKinsey Global Institute reveló una escasez de 1,5 millones de profesionales y gestores de datos altamente capacitados, y varias universidades, como la Universidad de Tennessee y la Universidad de California en Berkeley, han creado programas de maestría para satisfacer esta demanda. Los bootcamps privados también han desarrollado programas para satisfacer dicha demanda, incluyendo programas gratuitos como The Data Incubator o de pago como General Assembly. Medios de comunicación Para comprender cómo los medios de comunicación utilizan el big data, primero es necesario contextualizar el mecanismo empleado para su procesamiento. Nick Couldry y Joseph Turow han sugerido que los profesionales de los medios de comunicación y la publicidad abordan el big data como múltiples puntos de información procesables sobre millones de personas. La industria parece estar abandonando el enfoque tradicional de utilizar entornos mediáticos específicos, como periódicos, revistas o programas de televisión, y, en cambio, se conecta con los consumidores mediante tecnologías que llegan a las personas objetivo en los momentos y lugares óptimos. El objetivo final es ofrecer o transmitir un mensaje o contenido que, estadísticamente hablando, se ajuste a la mentalidad del consumidor. Por ejemplo, los entornos editoriales adaptan cada vez más los mensajes (anuncios) y el contenido (artículos) para atraer a los consumidores, información que se ha obtenido exclusivamente mediante diversas actividades de minería de datos. Segmentación de consumidores (para publicidad de los comercializadores) Captura de datos Periodismo de datos : editores y periodistas utilizan herramientas de big data para ofrecer información e infografías únicas e innovadoras . Internet de las cosas (IoT) El big data y el IoT trabajan en conjunto. Desde la perspectiva de los medios, los datos son el componente clave de la interconectividad de dispositivos y permiten una segmentación precisa. El Internet de las Cosas, con la ayuda del big data, transforma la industria de los medios, las empresas e incluso los gobiernos, abriendo una nueva era de crecimiento económico y competitividad. La interacción entre personas, datos y algoritmos inteligentes tiene un impacto profundo en la eficiencia de los medios. La riqueza de datos generada permite un análisis detallado de los mecanismos actuales de segmentación de la industria. Tecnología eBay.com utiliza dos almacenes de datos de 7,5 petabytes y 40 PB, así como un clúster Hadoop de 40 PB para búsquedas, recomendaciones de consumidores y comercialización. Amazon.com gestiona millones de operaciones administrativas a diario, así como consultas de más de medio millón de vendedores externos. La tecnología principal que mantiene a Amazon en funcionamiento se basa en Linux y, en 2005, contaba con las tres bases de datos Linux más grandes del mundo, con capacidades de 7,8 TB, 18,5 TB y 24,7 TB. Facebook maneja 50 mil millones de fotos de su base de usuarios. En agosto de 2012, Google manejaba aproximadamente 100 mil millones de búsquedas al mes. Se ha probado que Oracle NoSQL Database supera la marca de 1 millón de operaciones por segundo con 8 fragmentos y procedió a alcanzar 1,2 millones de operaciones por segundo con 10 fragmentos. Tecnologías de la información Especialmente desde 2015, el big data ha cobrado relevancia en las Operaciones Empresariales como herramienta para ayudar a los empleados a trabajar de forma más eficiente y optimizar la recopilación y distribución de Tecnologías de la Información (TI). El uso del big data para resolver problemas de TI y recopilación de datos dentro de una empresa se denomina Análisis de Operaciones de TI (ITOA). Al aplicar los principios del big data a los conceptos de inteligencia artificial y computación profunda, los departamentos de TI pueden predecir posibles problemas y actuar para proporcionar soluciones incluso antes de que surjan. En ese momento, las empresas ITOA también comenzaban a desempeñar un papel importante en la gestión de sistemas al ofrecer plataformas que integraban silos de datos individuales y generaban información de todo el sistema, en lugar de datos aislados. Minorista Walmart maneja más de un millón de transacciones de clientes cada hora, las cuales se importan a bases de datos que se estima contienen más de 2,5 petabytes (2560 terabytes) de datos, el equivalente a 167 veces la información contenida en todos los libros de la Biblioteca del Congreso de Estados Unidos . banca minorista El sistema de detección de tarjetas FICO protege cuentas en todo el mundo. El volumen de datos comerciales a nivel mundial, en todas las empresas, se duplica cada 1,2 años, según las estimaciones. Bienes raíces Windermere Real Estate utiliza señales de GPS anónimas de casi 100 millones de conductores para ayudar a los compradores de viviendas nuevas a determinar sus tiempos de viaje típicos hacia y desde el trabajo en distintos momentos del día. Ciencia Los experimentos del Gran Colisionador de Hadrones (LHC) representan aproximadamente 150 millones de sensores que entregan datos 40 millones de veces por segundo. Se producen casi 600 millones de colisiones por segundo. Tras filtrar y evitar registrar más del 99,99995 % de estos flujos, se producen 100 colisiones de interés por segundo. Como resultado, al trabajar solo con menos del 0,001 % de los datos del flujo de sensores, el flujo de datos de los cuatro experimentos del LHC representa una tasa anual de 25 petabytes antes de la replicación (en 2012). Esta tasa se convierte en casi 200 petabytes después de la replicación. Si todos los datos de los sensores se registraran en el LHC, el flujo de datos sería extremadamente difícil de gestionar. Este flujo superaría los 150 millones de petabytes a una tasa anual, o casi 500 exabytes al día, antes de la replicación. Para poner la cifra en perspectiva, esto equivale a 500 quintillones (5×10⁻² ) de bytes al día, casi 200 veces más que todas las demás fuentes combinadas del mundo. El Square Kilometre Array es un radiotelescopio compuesto por miles de antenas. Se prevé que esté operativo para 2024. En conjunto, se espera que estas antenas recopilen 14 exabytes y almacenen un petabyte al día. Se considera uno de los proyectos científicos más ambiciosos jamás emprendidos. Ciencia e investigación Cuando el Sloan Digital Sky Survey (SDSS) comenzó a recopilar datos astronómicos en el año 2000, recopiló en sus primeras semanas más datos que todos los recopilados en la historia de la astronomía hasta entonces. A un ritmo de unos 200 GB por noche, el SDSS ha acumulado más de 140 terabytes de información. Cuando el Gran Telescopio para Rastreos Sinópticos, sucesor del SDSS, entre en funcionamiento en 2020, sus diseñadores esperan que adquiera esa cantidad de datos cada cinco días. Descodificar el genoma humano, que originalmente tardaba diez años en procesarse, ahora se puede lograr en menos de un día. Los secuenciadores de ADN han reducido el coste de la secuenciación entre 10.000 en los últimos diez años, lo que supone un ahorro cien veces superior a la reducción prevista por la Ley de Moore. El Centro de Simulación Climática de la NASA (NCCS) almacena 32 petabytes de observaciones y simulaciones climáticas en el clúster de supercomputación Discover. DNAStack de Google recopila y organiza muestras de ADN de datos genéticos de todo el mundo para identificar enfermedades y otros defectos médicos. Estos cálculos rápidos y precisos eliminan cualquier punto de fricción o error humano que pudiera cometer alguno de los numerosos expertos en ciencia y biología que trabajan con el ADN. DNAStack, parte de Google Genomics, permite a los científicos utilizar la vasta muestra de recursos del servidor de búsqueda de Google para escalar experimentos sociales que normalmente tardarían años, de forma instantánea. La base de datos de ADN de 23andMe contiene información genética de más de un millón de personas en todo el mundo. La empresa explora la posibilidad de vender los "datos genéticos agregados anónimos" a otros investigadores y compañías farmacéuticas con fines de investigación, siempre que los pacientes den su consentimiento. Ahmad Hariri, profesor de psicología y neurociencia en la Universidad de Duke , quien ha utilizado 23andMe en su investigación desde 2009, afirma que el aspecto más importante del nuevo servicio de la empresa es que facilita el acceso a la investigación genética y la reduce considerablemente los costes para los científicos. Un estudio que identificó 15 sitios genómicos vinculados a la depresión en la base de datos de 23andMe provocó un aumento repentino de las solicitudes de acceso al repositorio, y 23andMe recibió casi 20 solicitudes de acceso a los datos sobre depresión en las dos semanas posteriores a la publicación del artículo. Deportes El big data se puede utilizar para mejorar el entrenamiento y la comprensión de los competidores mediante sensores deportivos. También es posible predecir los ganadores de un partido mediante el análisis de big data. También se puede predecir el rendimiento futuro de los jugadores. Por lo tanto, el valor y el salario de los jugadores se determinan a partir de los datos recopilados a lo largo de la temporada. La película MoneyBall demuestra cómo se puede utilizar el big data para buscar jugadores y también identificar jugadores infravalorados. En las carreras de Fórmula 1 , los coches de carreras con cientos de sensores generan terabytes de datos. Estos sensores recopilan datos desde la presión de los neumáticos hasta el consumo de combustible. Posteriormente, estos datos se transfieren a la sede del equipo en el Reino Unido mediante cables de fibra óptica que podrían transportar datos a la velocidad de la luz. Con base en estos datos, los ingenieros y analistas de datos deciden si es necesario realizar ajustes para ganar una carrera. Además, mediante el uso de big data, los equipos intentan predecir con antelación la hora a la que terminarán la carrera, basándose en simulaciones con datos recopilados durante la temporada. Actividades de investigación La búsqueda cifrada y la formación de clústeres en big data se presentaron en marzo de 2014 en la Sociedad Americana de Educación en Ingeniería. Gautam Siwach participó en el taller "Abordando los desafíos del Big Data" del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, y el Dr. Amir Esmailpour, del Grupo de Investigación de la UNH, investigó las características clave del big data, como la formación de clústeres y sus interconexiones. Se centraron en la seguridad del big data y la orientación del término hacia la presencia de diferentes tipos de datos cifrados en la interfaz de la nube, proporcionando definiciones sin procesar y ejemplos en tiempo real dentro de la tecnología. Además, propusieron un enfoque para identificar la técnica de codificación que permita avanzar hacia una búsqueda acelerada en texto cifrado, lo que conlleva mejoras en la seguridad del big data. En marzo de 2012, la Casa Blanca anunció una "Iniciativa de Big Data" nacional que consistía en que seis departamentos y agencias federales comprometieran más de 200 millones de dólares a proyectos de investigación de big data. La iniciativa incluyó una subvención de la Fundación Nacional de Ciencias "Expediciones en Computación" de 10 millones de dólares durante 5 años para el AMPLab de la Universidad de California, Berkeley. El AMPLab también recibió fondos de DARPA y más de una docena de patrocinadores industriales, y utiliza big data para abordar una amplia gama de problemas, desde la predicción de la congestión vehicular hasta la lucha contra el cáncer. La Iniciativa de Big Data de la Casa Blanca también incluyó un compromiso del Departamento de Energía de proporcionar 25 millones de dólares en financiación durante 5 años para establecer el Instituto de Gestión, Análisis y Visualización Escalable de Datos (SDAV), dirigido por el Laboratorio Nacional Lawrence Berkeley del Departamento de Energía . El Instituto SDAV busca aunar la experiencia de seis laboratorios nacionales y siete universidades para desarrollar nuevas herramientas que ayuden a los científicos a gestionar y visualizar datos en las supercomputadoras del Departamento. El estado estadounidense de Massachusetts anunció la Iniciativa de Big Data de Massachusetts en mayo de 2012, que proporciona financiación del gobierno estatal y empresas privadas a diversas instituciones de investigación. El Instituto Tecnológico de Massachusetts ( MIT) alberga el Centro de Ciencia y Tecnología Intel para Big Data en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT , combinando financiación e investigación gubernamentales, corporativas e institucionales. La Comisión Europea financia el Foro Público-Privado de Big Data, de dos años de duración, a través de su Séptimo Programa Marco, para involucrar a empresas, académicos y otras partes interesadas en el debate sobre temas relacionados con el big data. El proyecto busca definir una estrategia de investigación e innovación que guíe las acciones de apoyo de la Comisión Europea para la implementación exitosa de la economía del big data. Los resultados de este proyecto se utilizarán como base para Horizonte 2020, su próximo programa marco . El gobierno británico anunció en marzo de 2014 la fundación del Instituto Alan Turing, llamado así en honor al pionero de la informática y descifrador de códigos, que se centrará en nuevas formas de recopilar y analizar grandes conjuntos de datos. En el Día de inspiración de la Experiencia de Datos Abiertos Canadienses (CODE) del campus Stratford de la Universidad de Waterloo, los participantes demostraron cómo el uso de la visualización de datos puede aumentar la comprensión y el atractivo de los grandes conjuntos de datos y comunicar su historia al mundo. Para que la manufactura sea más competitiva en Estados Unidos (y a nivel mundial), es necesario integrar más ingenio e innovación estadounidenses en la industria. Por ello, la Fundación Nacional de Ciencias (NSF) ha otorgado al Centro de Investigación Cooperativa de Sistemas de Mantenimiento Inteligente (IMS) de la Universidad de la Industria de la Universidad de Cincinnati un subsidio para que se centre en el desarrollo de herramientas y técnicas predictivas avanzadas aplicables en un entorno de big data. En mayo de 2013, el Centro IMS celebró una reunión del consejo asesor de la industria centrada en big data, donde ponentes de diversas empresas industriales debatieron sus inquietudes, problemas y objetivos futuros en este ámbito. Ciencias sociales computacionales: Cualquiera puede usar las interfaces de programación de aplicaciones (API) proporcionadas por proveedores de big data, como Google y Twitter, para investigar en ciencias sociales y del comportamiento. Estas API suelen ser gratuitas. Tobias Preis et al. utilizaron datos de Google Trends para demostrar que los usuarios de internet de países con un producto interior bruto (PIB) per cápita más alto son más propensos a buscar información sobre el futuro que sobre el pasado. Los hallazgos sugieren que podría existir una relación entre el comportamiento en línea y los indicadores económicos del mundo real. Los autores del estudio examinaron los registros de consultas de Google realizados en función de la relación entre el volumen de búsquedas del año siguiente (2011) y el volumen de búsquedas del año anterior (2009), lo que denominaron "índice de orientación al futuro". Compararon el índice de orientación al futuro con el PIB per cápita de cada país y descubrieron una fuerte tendencia a que los países donde los usuarios de Google consultan más sobre el futuro tengan un PIB más alto. Los resultados sugieren que podría existir una relación potencial entre el éxito económico de un país y el comportamiento de búsqueda de información de sus ciudadanos capturado en big data. Tobias Preis y sus colegas Helen Susannah Moat y H. Eugene Stanley introdujeron un método para identificar indicadores en línea de las fluctuaciones del mercado bursátil, utilizando estrategias de trading basadas en los datos de volumen de búsqueda de Google Trends. Su análisis del volumen de búsqueda en Google para 98 términos de diversa relevancia financiera, publicado en Scientific Reports , sugiere que el aumento del volumen de búsqueda de términos financieramente relevantes suele preceder a grandes pérdidas en los mercados financieros. Los grandes conjuntos de datos presentan desafíos algorítmicos que antes no existían. Por lo tanto, es necesario transformar radicalmente los métodos de procesamiento. Los talleres sobre algoritmos para conjuntos masivos de datos modernos (MMDS) reúnen a científicos informáticos, estadísticos, matemáticos y profesionales del análisis de datos para discutir los desafíos algorítmicos del big data. Muestreo de big data Una pregunta importante de investigación sobre los conjuntos de big data es si es necesario analizar los datos completos para extraer conclusiones definitivas sobre sus propiedades o si una muestra es suficiente. El nombre "big data" incluye un término relacionado con el tamaño, una característica importante del big data. Sin embargo, el muestreo (estadística) permite seleccionar los puntos de datos adecuados dentro de un conjunto más amplio para estimar las características de toda la población. Por ejemplo, se generan alrededor de 600 millones de tuits al día. ¿Es necesario analizarlos todos para determinar los temas que se discuten durante el día? ¿Es necesario analizar todos los tuits para determinar la opinión sobre cada tema? En la industria manufacturera, se dispone de diferentes tipos de datos sensoriales, como datos de acústica, vibración, presión, corriente, voltaje y controladores, a intervalos cortos. Para predecir el tiempo de inactividad, puede que no sea necesario analizar todos los datos, pero una muestra puede ser suficiente. El big data se puede desglosar en varias categorías de puntos de datos, como datos demográficos, psicográficos, conductuales y transaccionales. Con grandes conjuntos de puntos de datos, los especialistas en marketing pueden crear y utilizar segmentos de consumidores más personalizados para lograr una segmentación más estratégica. Se han realizado trabajos sobre algoritmos de muestreo para big data. Se ha desarrollado una formulación teórica para el muestreo de datos de Twitter. Crítica Las críticas al paradigma del big data se presentan en dos vertientes: las que cuestionan las implicaciones del enfoque en sí y las que cuestionan su forma actual de aplicación. Un enfoque para abordar estas críticas es el campo de los estudios críticos de datos. Críticas al paradigma del big data Un problema crucial es que desconocemos con precisión los microprocesos empíricos subyacentes que conducen al surgimiento de estas características de red típicas del Big Data. En su crítica, Snijders, Matzat y Reips señalan que a menudo se hacen suposiciones muy sólidas sobre propiedades matemáticas que pueden no reflejar en absoluto lo que realmente ocurre a nivel de microprocesos. Mark Graham ha criticado duramente la afirmación de Chris Anderson de que el Big Data significará el fin de la teoría, centrándose en particular en la idea de que el Big Data siempre debe contextualizarse en sus contextos sociales, económicos y políticos. Aunque las empresas invierten sumas millonarias para obtener información de la información que reciben de proveedores y clientes, menos del 40 % de los empleados cuentan con procesos y habilidades lo suficientemente maduros como para hacerlo. Para superar esta deficiencia de conocimiento, el Big Data, por muy exhaustivo o bien analizado que esté, debe complementarse con un gran criterio, según un artículo de Harvard Business Review . En la misma línea, se ha señalado que las decisiones basadas en el análisis de big data se basan inevitablemente en el mundo tal como era en el pasado o, en el mejor de los casos, en su situación actual. Alimentados por una gran cantidad de datos sobre experiencias pasadas, los algoritmos pueden predecir el desarrollo futuro si este es similar al pasado. Si la dinámica de sistemas del futuro cambia (si no se trata de un proceso estacionario ), el pasado puede decir poco sobre el futuro. Para realizar predicciones en entornos cambiantes, sería necesario comprender a fondo la dinámica de sistemas, lo cual requiere teoría. Como respuesta a esta crítica, se ha sugerido combinar enfoques de big data con simulaciones por computadora, como los modelos basados en agentes y los sistemas complejos. Los modelos basados en agentes son cada vez mejores en la predicción del resultado de las complejidades sociales de escenarios futuros incluso desconocidos mediante simulaciones por computadora basadas en un conjunto de algoritmos mutuamente interdependientes. Además, el uso de métodos multivariados que investigan la estructura latente de los datos, como el análisis factorial y el análisis de conglomerados , han demostrado ser útiles como enfoques analíticos que van mucho más allá de los enfoques bivariados (tablas cruzadas) que se emplean normalmente con conjuntos de datos más pequeños. En salud y biología, los enfoques científicos convencionales se basan en la experimentación. Para estos enfoques, el factor limitante son los datos relevantes que pueden confirmar o refutar la hipótesis inicial. Un nuevo postulado se acepta ahora en biociencias: la información proporcionada por los datos en grandes volúmenes ( ómicas ) sin hipótesis previas es complementaria, y en ocasiones necesaria, a los enfoques convencionales basados en la experimentación. En los enfoques masivos, el factor limitante es la formulación de una hipótesis relevante para explicar los datos. La lógica de búsqueda se invierte y deben considerarse los límites de la inducción («Gloria de la Ciencia y el Escándalo de la Filosofía», CD Broad, 1926). Los defensores de la privacidad están preocupados por la amenaza a la privacidad que representa el aumento del almacenamiento y la integración de información de identificación personal; paneles de expertos han publicado varias recomendaciones de políticas para adaptar la práctica a las expectativas de privacidad. Críticas a la ejecución de big data Ulf-Dietrich Reips y Uwe Matzat escribieron en 2014 que el big data se había convertido en una moda pasajera en la investigación científica. La investigadora Danah Boyd ha expresado su preocupación por el uso del big data en la ciencia, descuidando principios como la selección de una muestra representativa al preocuparse demasiado por el manejo real de enormes cantidades de datos. Este enfoque puede generar sesgos en los resultados de una u otra forma. La integración entre recursos de datos heterogéneos —algunos que podrían considerarse big data y otros no— presenta enormes desafíos logísticos y analíticos, pero muchos investigadores argumentan que estas integraciones probablemente representen las nuevas fronteras más prometedoras de la ciencia. En el provocativo artículo "Preguntas críticas para el big data", los autores lo consideran parte de la mitología: "Los grandes conjuntos de datos ofrecen una forma superior de inteligencia y conocimiento [...], con el aura de la verdad, la objetividad y la precisión". Los usuarios de big data a menudo se pierden en la enorme cantidad de números, y "trabajar con big data sigue siendo subjetivo, y lo que cuantifica no tiene necesariamente una mayor probabilidad de ser objetivo". Los avances recientes en el campo de BI, como los informes proactivos, apuntan especialmente a mejoras en la usabilidad de big data, mediante el filtrado automático de datos y correlaciones no útiles. El análisis de big data suele ser superficial en comparación con el análisis de conjuntos de datos más pequeños. En muchos proyectos de big data, no se realiza un análisis de big data, pero el desafío reside en la extracción, transformación y carga del preprocesamiento de datos. Big data es una palabra de moda y un término vago, pero a la vez una obsesión para emprendedores, consultores, científicos y medios de comunicación. Las herramientas de big data como Google Flu Trends no lograron ofrecer predicciones acertadas en los últimos años, exagerando los brotes de gripe por un factor de dos. De igual manera, las predicciones de los premios Óscar y las elecciones, basadas únicamente en Twitter, fueron más erróneas que acertadas. El big data a menudo plantea los mismos desafíos que el small data ; y añadir más datos no resuelve los problemas de sesgo, sino que puede acentuar otros. En particular, fuentes de datos como Twitter no son representativas de la población general, y los resultados extraídos de dichas fuentes pueden llevar a conclusiones erróneas. Google Translate , que se basa en el análisis estadístico de texto con big data, traduce páginas web de forma eficaz. Sin embargo, los resultados de dominios especializados pueden estar sesgados drásticamente. Por otro lado, el big data también puede plantear nuevos problemas, como el problema de las comparaciones múltiples : probar simultáneamente un amplio conjunto de hipótesis probablemente produzca muchos resultados falsos que parecen significativos por error. Ioannidis argumentó que «la mayoría de los hallazgos de investigación publicados son falsos» debido esencialmente al mismo efecto: cuando muchos equipos científicos e investigadores realizan numerosos experimentos (es decir, procesan una gran cantidad de datos científicos; aunque no con tecnología de big data), la probabilidad de que un resultado «significativo» sea realmente falso aumenta rápidamente, más aún cuando solo se publican resultados positivos. Además, la calidad de los resultados del análisis de big data depende del modelo en el que se basan. Por ejemplo, el big data participó en el intento de predecir los resultados de las elecciones presidenciales estadounidenses de 2016 con distintos grados de éxito. Forbes predijo: «Si crees en el análisis de big data , es hora de empezar a planificar la presidencia de Hillary Clinton y todo lo que conlleva». (Fuente: alchetron.com)
| |||||
[ Inicio | Ciencia | SOC | DOCS | Economía | Historia | FIL | Natur | SER | CLAS | Letras | Africa ] |
|||||