9.9 C
Madrid
martes, febrero 25, 2025

Predicciones de gestión de large information para 2025


Predicciones de gestión de large information para 2025

(amgun/Shutterstock)

La revolución GenAI ha aumentado las expectativas sobre lo que las empresas pueden hacer con los datos. Pero también ha expuesto algunas deficiencias graves en la forma en que las empresas gestionan los datos. Ese es el telón de fondo en el que profundizaremos en esta tanda de predicciones sobre la gestión de large information.

Obtener acceso a los datos siempre ha sido un desafío para el análisis y la inteligencia synthetic. En 2025, el nivel al que las organizaciones habilitar el acceso a datos determinará su éxito con la IA, predice Haoyuan “HY” Li, fundador y director ejecutivo de Alluxio.

«En 2025, las organizaciones enfrentarán una presión cada vez mayor para resolver los desafíos de acceso a datos a medida que las cargas de trabajo de IA se vuelvan más exigentes y distribuidas», escribe Li. “La explosión de datos en múltiples nubes, regiones y sistemas de almacenamiento ha creado importantes cuellos de botella en la disponibilidad y el movimiento de datos, particularmente para el entrenamiento de IA con uso intensivo de computación. Las organizaciones necesitarán gestionar eficientemente el acceso a los datos en sus entornos distribuidos y, al mismo tiempo, minimizar el movimiento y la duplicación de datos. Veremos un mayor enfoque en tecnologías que puedan proporcionar acceso rápido y simultáneo a los datos independientemente de su ubicación, manteniendo al mismo tiempo la localidad de los datos para mejorar el rendimiento”.

Por lo normal, se considera que los archivos de datos contienen información menos interesante. Con la revolución de la IA en 2025, aquellos tesoros de datos históricos encontrará nuevos usos, predice Lenley Hensarling, asesor técnico del fabricante de bases de datos NoSQL aerospike.

“La IA generativa depende de una amplia gama de datos estructurados, no estructurados, internos y externos. Su potencial depende de un ecosistema de datos sólido que respalde la capacitación, el ajuste y la generación aumentada de recuperación (RAG)”, afirma Hensarling. “Para los modelos específicos de la industria, las organizaciones deben retener grandes volúmenes de datos a lo largo del tiempo. A medida que el mundo cambia, los datos relevantes sólo se hacen evidentes en retrospectiva, revelando ineficiencias y oportunidades. Al retener datos históricos e integrarlos con información en tiempo actual, las empresas pueden convertir la IA de una herramienta experimental en un activo estratégico, generando valor tangible en toda la organización”.

Tienes una buena base de datos (Tee11/Shutterstock)

Cuando las organizaciones utilizan datos de capacitación fácilmente obtenibles, a menudo recurren a datos sintéticos para seguir mejorando sus modelos. En 2025, el uso de datos sintéticos se generalizará, cube Susan Haller, directora senior de análisis avanzado de SAS.

“A medida que más organizaciones descubran el increíble potencial de los datos sintéticos (datos que son estadísticamente congruentes con los datos del mundo actual sin recurrir a la recopilación guide o a datos comprados a terceros), la percepción de esta tecnología inevitablemente cambiará”, afirma Haller. “Hacer que la generación de datos sintéticos sea más accesible en una variedad de industrias, desde la atención médica hasta la manufactura, demostrará ser una ventaja estratégica significativa. Las posibilidades futuras para aprovechar este tipo de datos son infinitas”.

Las GPU son los aceleradores de referencia para las cargas de trabajo de IA. En 2025, las organizaciones que dominen el orquestación de datos para GPU tendrá una gran ventaja, cube Molly Presley, vicepresidenta senior de advertising and marketing international de Espacio de martillo.

«A medida que nos acercamos al año 2025, uno de los desafíos en las arquitecturas de IA y aprendizaje automático (ML) sigue siendo el movimiento eficiente de datos hacia y entre GPU, particularmente GPU remotas», cube Presley. “Las soluciones tradicionales de orquestación de datos, si bien son valiosas, son cada vez más inadecuadas para las demandas de la informática acelerada por GPU. El cuello de botella no se trata solo de gestionar el flujo de datos, sino específicamente de optimizar el transporte de datos a las GPU, a menudo a ubicaciones remotas, para admitir la computación de alto rendimiento (HPC) y los modelos avanzados de IA. Como resultado, la industria verá un aumento en la innovación en torno a las soluciones de orquestación de datos centradas en GPU. Estos nuevos sistemas minimizarán la latencia, maximizarán el ancho de banda y garantizarán que los datos puedan moverse sin problemas entre GPU locales y remotas”.

Todos cambian a la izquierda (no, el otro a la izquierda) (Aha-Smooth/Shutterstock)

En lugar de intentar resolver los problemas de gestión de datos que ocurren en los sistemas posteriores, las empresas intentarán abordarlos pronto en el flujo de trabajo, afirma. Confluente‘s Adam Bellemare, el tecnólogo principal del Grupo de Estrategia Tecnológica de la empresa.

“Las organizaciones adoptarán una ‘desplazamiento a la izquierda’ enfoque para mejorar la calidad de sus datos, reducir costos y eliminar el procesamiento redundante”, cube Bellemare. “Las empresas se centrarán en procesar cargas de trabajo en una etapa más temprana del proceso de datos, lo que permitirá que los datos se limpien, estandaricen y procesen antes de que lleguen a un lago de datos o un almacén de datos en la nube. Este cambio desacoplará aún más los datos de su almacenamiento, lo que permitirá una mayor flexibilidad en el procesamiento y utilización de datos en diferentes plataformas, incluso para el entrenamiento de IA y la inferencia en tiempo actual. Las empresas no sólo reducirán los costos al evitar el procesamiento redundante, sino que también permitirán una arquitectura más versatile e interoperable donde los datos se pueden conectar a múltiples sistemas posteriores sin una duplicación excesiva”.

Abrir formatos de tabla tuvo un gran año en 2024. En 2025, el impulso detrás de formatos como Apache Iceberg y Delta Lake seguirá creciendo, cube Emmanuel Darras, director ejecutivo y cofundador de Kestradesarrollador de una plataforma de orquestación de código abierto.

«Iceberg proporciona un formato de tabla estandarizado y lo integra con motores SQL como Spark, DuckDB, Trino y Dremio, así como con plataformas de datos como Snowflake y Databricks, lo que permite que las consultas SQL se ejecuten de manera eficiente tanto en lagos como en almacenes de datos», Darras cube. “Confiar en formatos de tablas abiertas permite a las empresas gestionar y consultar grandes conjuntos de datos sin depender únicamente de los almacenes de datos tradicionales. Dado que las organizaciones planean adoptar Iceberg en lugar de otros formatos como Delta Lake, se espera que su papel en la gestión de large information se expanda, gracias a su fuerte enfoque en patrones de acceso a datos independientes del proveedor, evolución de esquemas e interoperabilidad”.

No temas al iceberg de Apache (Romolo Tavani/Shutterstock)

Otro gran acontecimiento en la gestión de datos en 2024 fue la aparición de metadatos técnicos catálogos, como Apache Polaris y Unity Catalog. La batalla por la supremacía de los metadatos técnicos se volverá aún más intensa en 2025, predice Alex Merced, evangelista tecnológico senior de Dremio.

«La competencia por dominar el espacio del catálogo de datos se convertirá en un enfrentamiento de alto riesgo», cube Merced. BigDATAwire. “A medida que crezcan los ecosistemas híbridos y de múltiples nubes, las organizaciones exigirán una interoperabilidad perfecta, impulsando una innovación feroz en la gobernanza, el linaje y las funciones definidas por el usuario (UDF). Apache Iceberg surgirá como un actor clave, redefiniendo los estándares para formatos de mesa abierta con sus capacidades de catálogo híbrido. Esta carrera no sólo remodelará la arquitectura de datos: decidirá quién controla el futuro de la portabilidad de los datos”.

Cuando su curva de crecimiento de datos llega a un cierto punto en la curva de costos, puede provocarle acidez de estómago a su director financiero. En 2025, nuevas soluciones de archivo de almacenamiento será necesario para garantizar la salud digestiva de su director financiero, cube Arcitecta Director ejecutivo Jason Lohrey.

“A medida que crecen los volúmenes de datos, se han vuelto fundamentales soluciones de almacenamiento de archivos más eficientes y rentables”, afirma Lohrey. “Las opciones de almacenamiento flash y basado en disco, si bien son rápidas, conllevan altos costos cuando se escalan a grandes capacidades. Esto ha llevado a un resurgimiento del almacenamiento en cinta como solución viable para las necesidades modernas y a la introducción de tecnologías nuevas y emergentes como el almacenamiento en vidrio. Las empresas buscarán agregar unidades más pequeñas en configuraciones más grandes que combinen la escalabilidad de la cinta con la flexibilidad de los estándares de la nube. El renovado interés en cintas y otras soluciones de almacenamiento de archivos seguirá expandiéndose a medida que evolucionen las demandas de la gestión de datos moderna”.

Las GPU también pueden acelerar las bases de datos

Las GPU generalmente se consideran aceleradores para HPC, IA y cargas de trabajo con muchos gráficos (de ahí el nombre, unidad de procesamiento gráfico). Pero el potencial para GPU para acelerar la base de datos Las cargas de trabajo serán algo que quedará más claro en 2025, predice Gopi Duddi, vicepresidente senior de ingeniería del desarrollador de bases de datos NoSQL. Base del sofá.

“La revolución de la IA no está simplemente transformando las aplicaciones: está preparada para alterar fundamentalmente la arquitectura de la base de datos en su núcleo. Después de medio siglo de diseño de bases de datos basadas en CPU, el enorme paralelismo que ofrecen las GPU está obligando a repensar por completo cómo las bases de datos procesan y gestionan los datos”, afirma Duddi. «El potencial de las bases de datos impulsadas por GPU es asombroso: las operaciones que tradicionalmente requerían un procesamiento paralelo complejo basado en CPU podrían ejecutarse en miles de subprocesos de GPU simultáneamente, lo que podría ofrecer un rendimiento comparable al ChatGPT para las operaciones de bases de datos».

PostgreSQL ha sido la base de datos más widespread durante los últimos años. No espere que esa tendencia termine pronto, cube Avthar Sewrathan, líder de productos de inteligencia synthetic en Escala de tiempouna base de datos de collection temporales que se basa en PostgreSQL.

«En 2025, PostgreSQL solidificará su posición como la ‘base de datos para todo’, la primera en integrar completamente la funcionalidad de IA, como incrustaciones, directamente dentro de su ecosistema central», escribe Sewrathan. “Esto agilizará los flujos de trabajo de datos, eliminará la necesidad de herramientas de procesamiento externas y permitirá a las empresas gestionar tipos de datos complejos en un solo lugar. Con sus capacidades de extensión únicas, PostgreSQL está liderando el camino hacia un futuro en el que las empresas ya no tendrán que depender de bases de datos independientes o especializadas”.

¡Es un pájaro! ¡Es un avión! ¡Es nuestro héroe de datos! (ktsdesign/Shutterstock)

Las divisiones tradicionales entre ingenieros de datos, analistas de datos y científicos de datos se están desmoronando, ya que los equipos de datos modernos deben manejar cada vez más flujos de trabajo de un extremo a otro con velocidad y autonomía. En 2025, veremos surgir un nuevo rol, cube Prat Moghe, director ejecutivo de Prometeo: el “héroe de los datos”.

«Estas personas versátiles combinarán un sólido nivel de habilidades técnicas con un profundo conocimiento del dominio, lo que les permitirá trabajar sin problemas en el descubrimiento de datos, el ensamblaje y la creación de productos», cube Moghen. “Actuando como puente crítico entre los datos y los negocios, los héroes de los datos impulsarán una mayor alineación, conocimientos más rápidos y una toma de decisiones más impactante durante el próximo año. Sin embargo, para respaldar esta evolución, debe surgir una nueva generación de herramientas de datos, adaptadas específicamente a las necesidades del héroe de los datos. A diferencia de las herramientas heredadas que atienden roles separados e inconexos, estas plataformas modernas unificarán capacidades y agilizarán la colaboración interfuncional, lo que permitirá a los héroes de los datos desbloquear el verdadero valor de los datos en un panorama que cambia rápidamente”.

Tejido de datos No es un concepto nuevo, pero tampoco ha ganado el tipo de tracción que muchos observadores de large information esperaban. Eso comenzará a cambiar en 2025, a medida que las empresas busquen mejores enfoques de gestión para hacer frente a la avalancha de large information inducida por la IA, predice Dwaine Plauche, director senior de advertising and marketing de productos de Tecnología de álamo temblón.

“A medida que la gestión de datos se vuelve más difícil para las empresas industriales, especialmente cuando priorizan las aplicaciones de IA y las iniciativas de transformación digital, las veremos recurrir a estructuras de datos (operativas) de OT para optimizar miles de conexiones de TI y OT y hacer que los datos sean más accesibles y procesables. en todo el negocio. Los tejidos de datos OT son capaces de ingerir diversos datos que conectan personas, maquinaria, plantas, logística y sistemas de TI en toda la empresa, de modo que los datos puedan escalarse más fácilmente para desbloquear el potencial de nuevas oportunidades comerciales, como la IA, en el futuro”.

Related Articles

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Stay Connected

0SeguidoresSeguir
0SuscriptoresSuscribirte
- Advertisement -spot_img

Latest Articles