5.8 C
Madrid
miércoles, febrero 26, 2025

Onehouse gestiona las cargas de trabajo de Lakehouse en nubes, motores de consultas y formatos de tablas


(Florentin Catargiu/Shutterstock)

Es posible que las organizaciones que inviertan en knowledge lakehouses en 2025 quieran consultar una nueva oferta presentada por Onehouse esta semana. La compañía fundada por el creador del formato de tabla Apache Hudi lanzó Onehouse Compute Runtime (OCR), que, según cube, permite a los clientes administrar y optimizar cargas de trabajo de knowledge lakehouse en múltiples plataformas en la nube, motores de consulta y formatos de tablas abiertas.

Estamos en medio de Un auge en la construcción de knowledge lakehouses por el momento, en gran parte debido a la industria fusionándose alrededor del iceberg Apache formato de tabla a mediados de 2024, lo que redujo las probabilidades de que el cliente pudiera elegir el formato «incorrecto», dejando así sus datos varados. El ascenso de Iceberg parecería poner a los formatos de mesa en competencia, incluidos Apache Hudi y Ladrillos de datos Delta Lake, en un segundo plano. Pero la gente de Hudi-backer Una casa ven abundantes oportunidades y no se toman los cambios de brazos cruzados.

Si bien la comparación Hudi-Iceberg no es exactamente de manzanas con manzanas (lee esta historia (para saber cómo se diseñó originalmente Hudi para resolver el problema de los datos rápidos en el clúster Hadoop de Uber), Onehouse se está adaptando a la realidad de que Iceberg está posicionado para ser el formato de tabla dominante en el futuro. Una forma de hacerlo es iniciando OCR.

OCR brinda a los clientes la capacidad de administrar los entornos de sus casas en el lago a través de múltiples plataformas en la nube (Databricks, Copo de nieve, AWS, Nube de Google) que utilizan una variedad de motores de consulta (Spark, Redshift, BigQuery, Snowflake) sobre datos almacenados en múltiples formatos de tablas (Iceberg, Delta Lake y Hudi). OCR no se ocupa de la ejecución de las cargas de trabajo de SQL (u otras cargas informáticas). Más bien, se centra en automatizar algunos de los trabajos de mantenimiento menos glamorosos pero necesarios que requieren las casas del lago.

Los empleados de Onehouse, Kyle Weller y Rajesh Mahindra, explican la situación emergente. en una publicación de weblog esta semana:

“El soporte básico de lectura/escritura es un comienzo encomiable para establecer la independencia, pero han surgido nuevos puntos de fricción que desafían que el almacenamiento vuelva a ser interoperable y common: catálogos de datos, mantenimiento de tablas y optimizaciones de la carga de trabajo. Casi todos los proveedores que admiten OTF (formato de tabla abierta) ahora también ofrecen su propio catálogo y mantenimiento, lo que a menudo restringe qué herramientas pueden leer/escribir en las tablas. Para garantizar que el management de los datos permanezca firmemente en manos de los usuarios, la industria necesita no solo almacenamiento descentralizado, sino también una plataforma informática descentralizada cuidadosamente diseñada que pueda realizar el mantenimiento de tablas y optimizar las cargas de trabajo típicas de forma common en estos diferentes proveedores y almacenes de datos en la nube”.

El OCR de Onehouse pretende ser esa plataforma informática descentralizada. La oferta, que Onehouse lanzó el jueves 16 de enero, activa automáticamente los recursos informáticos necesarios en varias plataformas de nube utilizando técnicas informáticas sin servidor en los entornos de nube privada digital (VPC) propios de los clientes.

El administrador de computación sin servidor basado en Spark de OCR permite un escalamiento elástico de las cargas de trabajo de mantenimiento de Lakehouse, como la ingesta de datos, la optimización de tablas y las operaciones ETL. Esto da como resultado una ganancia de rendimiento de 2 a 30 veces con un ahorro de costos del 20% al 80%, afirma la compañía. OCR admite múltiples formatos mediante el uso de Apache XTable (incubación), la oferta de código abierto que ofrece interoperabilidad de lectura y escritura entre los formatos de tabla Hudi, Delta e Iceberg. Onehouse donó XTable a Apache.

OCR utiliza fusión de columnas vectorizadas para escrituras rápidas, ejecución canalizada en paralelo para maximizar la eficiencia de la CPU y acceso optimizado al almacenamiento para reducir las solicitudes de pink en comparación con los lectores Parquet estándar de código abierto, afirma la compañía.

El objetivo de OCR es brindar a los clientes todas las herramientas que necesitan para aprovechar el crecimiento de las casas en el lago y la apertura de los formatos de mesa, según Vinoth Chandar, creador de Hudi y fundador y director ejecutivo de Onehouse.

«Si bien los formatos de tablas abiertas han surgido como medios para abrir datos en múltiples motores, existe una gran necesidad de una plataforma informática de alto rendimiento que pueda transformar y optimizar los datos en dichos motores», cube Chandar, un BigDATAwire 2024 Persona a seguir, en un comunicado de prensa. “Con OCR, ofrecemos toda la infraestructura informática y el software program necesarios para ejecutar cargas de trabajo de knowledge lakehouse de manera eficiente. Las funciones de OCR se basan en años de experiencia impulsando los lagos de datos más grandes del mundo utilizando Apache Hudi, ampliamente considerado por su alto rendimiento en toda la industria. El tiempo de ejecución optimiza todas las operaciones típicas del lago de datos de forma centralizada una vez en todos los motores, lo que scale back los costos de computación redundantes y los puntos de bloqueo”.

Uno de los primeros en adoptar OCR es la empresa de advertising digital. Conductor. «Nuestro lago de datos Onehouse nos ha permitido satisfacer las demandas de un rápido crecimiento y, al mismo tiempo, simplificar drásticamente nuestra arquitectura de datos», afirmó Emil Emilov, ingeniero de software program principal de Conductor. «Con escalamiento automatizado y recursos que se adaptan a nuestras cargas de trabajo, Onehouse nos ayuda a dedicar nuestros equipos a desarrollar los diferenciadores de nuestra plataforma central en lugar de mantener la pila de datos continuamente optimizada».

Onehouse organizará un seminario net el jueves 23 de enero a las 10 a. m. (hora del Pacífico) para brindar más detalles sobre OCR. Puedes registrarte al webinar aquí. También puedes leer el weblog de Onehouse sobre OCR. aquí.

Artículos relacionados:

Por qué los Information Lakehouses están preparados para un gran crecimiento en 2025

Cómo Apache Iceberg ganó las guerras de mesa abierta

Apache Hudi no es lo que crees que es

Related Articles

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Stay Connected

0SeguidoresSeguir
0SuscriptoresSuscribirte
- Advertisement -spot_img

Latest Articles