La velocidad, la escala y la colaboración son esenciales para los equipos de IA, pero los datos estructurados limitados, los recursos informáticos y los flujos de trabajo centralizados a menudo se interponen en el camino.
Si es cliente de DataRobot o un profesional de la IA que busca formas más inteligentes de preparar y modelar grandes conjuntos de datos, nuevas herramientas como el aprendizaje incremental, el reconocimiento óptico de caracteres (OCR) y la preparación mejorada de datos eliminarán los obstáculos y le ayudarán a crear modelos más precisos en menos tiempo.
Esto es lo nuevo en el Experiencia en el banco de trabajo DataRobot:
- Aprendizaje incremental: Modele eficientemente grandes volúmenes de datos con mayor transparencia y management.
- Reconocimiento óptico de caracteres (OCR): Convierta instantáneamente archivos PDF escaneados no estructurados en datos utilizables para profético y generativo AYo uso casos.
- Colaboración más sencilla: Trabaje con su equipo en un espacio unificado con acceso compartido a preparación de datos, desarrollo de IA generativa y herramientas de modelado predictivo.
Modele eficientemente en grandes volúmenes de datos con aprendizaje incremental
La creación de modelos con grandes conjuntos de datos a menudo genera costos informáticos sorprendentes, ineficiencias y gastos desbocados. El aprendizaje incremental elimina estas barreras, lo que le permite modelar grandes volúmenes de datos con precisión y management.
En lugar de procesar un conjunto de datos completo a la vez, el aprendizaje incremental ejecuta iteraciones sucesivas en sus datos de entrenamiento, utilizando solo la cantidad de datos necesaria para lograr una precisión óptima.
Cada iteración se visualiza en un gráfico (consulte la Figura 1), donde puede realizar un seguimiento de la cantidad de filas procesadas y la precisión obtenida, todo según la métrica que elija.

Ventajas clave de aprendizaje incremental:
- Procese únicamente los datos que generen resultados.
El aprendizaje incremental detiene los trabajos automáticamente cuando se detectan rendimientos decrecientes, lo que garantiza que utilice los datos suficientes para lograr una precisión óptima. En DataRobot, se realiza un seguimiento de cada iteración, por lo que verá claramente cuántos datos producen los resultados más sólidos. Usted siempre tiene el management y puede personalizar y ejecutar iteraciones adicionales para hacerlo bien.
- Entrene con la cantidad justa de datos
El aprendizaje incremental evita el sobreajuste al iterar en muestras más pequeñas, de modo que su modelo aprenda patrones, no solo los datos de entrenamiento.
- Automatice flujos de trabajo complejos:
Asegúrese de que este aprovisionamiento de datos sea rápido y libre de errores. Los usuarios avanzados que utilizan primero el código pueden ir un paso más allá y agilizar el reentrenamiento utilizando pesos guardados para procesar solo datos nuevos. Esto evita la necesidad de volver a ejecutar todo el conjunto de datos desde cero, lo que cut back los errores de la configuración handbook.
Cuándo aprovechar mejor el aprendizaje incremental
Hay dos escenarios clave en los que el aprendizaje incremental impulsa la eficiencia y el management:
- Trabajos de modelaje únicos
Puede personalizar la detención anticipada en grandes conjuntos de datos para evitar procesamientos innecesarios, evitar el sobreajuste y garantizar la transparencia de los datos.
- Modelos dinámicos y actualizados periódicamente.
Para los modelos que reaccionan a nueva información, los usuarios avanzados que priorizan el código pueden crear canalizaciones que agregan nuevos datos a los conjuntos de entrenamiento sin una repetición completa.
A diferencia de otras plataformas de IA, el aprendizaje incremental le brinda management sobre trabajos de datos de gran tamaño, haciéndolos más rápidos, más eficientes y menos costosos.
Cómo el reconocimiento óptico de caracteres (OCR) prepara datos no estructurados para la IA
Tener acceso a grandes cantidades de datos utilizables puede ser una barrera para crear modelos predictivos precisos y potenciar chatbots de generación aumentada de recuperación (RAG). Esto es especialmente cierto porque entre el 80% y el 90% de los datos de la empresa son datos no estructurados, lo que puede resultar complicado de procesar. OCR elimina esa barrera al convertir los archivos PDF escaneados en un formato utilizable y con capacidad de búsqueda para IA predictiva y generativa.
como funciona
OCR es una capacidad de código primero dentro de DataRobot. Al llamar a la API, puede transformar un archivo ZIP de archivos PDF escaneados en un conjunto de datos de archivos PDF con texto incrustado. El texto extraído se incrusta directamente en el documento PDF, listo para ser accedido por documentar las características de la IA.

Cómo el OCR puede impulsar la IA multimodal
Nuestra nueva funcionalidad OCR no es solo para IA generativa o bases de datos vectoriales. También simplifica la preparación de datos listos para IA para modelos predictivos multimodales, lo que permite obtener conocimientos más completos de diversas fuentes de datos.
Preparación de datos de IA predictiva multimodal
Convierta rápidamente documentos escaneados en un conjunto de datos de archivos PDF con texto incrustado. Esto le permite extraer información clave y crear características de sus modelos predictivos utilizando documentar las capacidades de la IA.
Por ejemplo, supongamos que desea predecir los gastos operativos pero solo tiene acceso a las facturas escaneadas. Al combinar OCR, extracción de texto de documentos y una integración con Apache Airflow, puede convertir estas facturas en una poderosa fuente de datos para su modelo.
Impulsando RAG LLM con bases de datos vectoriales
Las grandes bases de datos vectoriales admiten una generación de recuperación aumentada (RAG) más precisa para los LLM, especialmente cuando son compatibles con conjuntos de datos más grandes y ricos. El OCR desempeña un papel clave al convertir archivos PDF escaneados en archivos PDF con texto incrustado, haciendo que ese texto se pueda utilizar como vectores para impulsar respuestas LLM más precisas.
Caso de uso práctico
Think about crear un chatbot RAG que responda preguntas complejas de los empleados. Los documentos sobre beneficios a los empleados suelen ser densos y difíciles de buscar. Al utilizar OCR para preparar estos documentos para la IA generativa, puede enriquecer un LLM y permitir a los empleados obtener respuestas rápidas y precisas en un formato de autoservicio.
Migraciones de WorkBench que impulsan la colaboración
La colaboración puede ser uno de los mayores obstáculos para la entrega rápida de IA, especialmente cuando los equipos se ven obligados a trabajar con múltiples herramientas y fuentes de datos. NextGen WorkBench de DataRobot resuelve esto unificando flujos de trabajo clave de modelado predictivo y generativo en un entorno compartido.
Esta migración significa que puede crear modelos tanto predictivos como generativos utilizando la interfaz gráfica de usuario (GUI) y cuadernos y espacios de código basados en código — todo en un solo espacio de trabajo. También aporta potentes capacidades de preparación de datos al mismo entorno, para que los equipos puedan colaborar en flujos de trabajo de IA de un extremo a otro sin cambiar de herramienta.
Acelere la preparación de datos cuando desarrolle modelos
La preparación de datos suele consumir hasta el 80% del tiempo de un científico de datos. NextGen WorkBench agiliza este proceso con:
- Detección de calidad de datos y recuperación automatizada de datos: Identifique y resuelva problemas como valores faltantes, valores atípicos y errores de formato automáticamente.
- Detección y reducción automatizada de características: Identifique automáticamente funciones clave y elimine las de bajo impacto, lo que cut back la necesidad de ingeniería de funciones handbook.
- Visualizaciones listas para usar del análisis de datos: Genere instantáneamente visualizaciones interactivas para explorar conjuntos de datos y detectar tendencias.
Mejore la calidad de los datos y visualice los problemas al instante
Los problemas de calidad de los datos, como valores faltantes, valores atípicos y errores de formato, pueden ralentizar el desarrollo de la IA. NextGen WorkBench aborda esto con escaneos automatizados e información visible que ahorra tiempo y cut back el esfuerzo handbook.
Ahora, cuando carga un conjunto de datos, los análisis automáticos verifican problemas clave de calidad de los datos, que incluyen:
- Valores atípicos
- Errores de formato multicategórico
- Interiores
- Ceros sobrantes
- Valores perdidos disfrazados
- Fuga objetivo
- Imágenes faltantes (solo en conjuntos de datos de imágenes)
- PII
Estas comprobaciones de calidad de los datos se combinan con visualizaciones EDA (análisis de datos exploratorios) listas para usar. Los nuevos conjuntos de datos se visualizan automáticamente en gráficos interactivos, lo que le brinda visibilidad instantánea de las tendencias de los datos y los posibles problemas, sin tener que crear gráficos usted mismo. La Figura 3 a continuación demuestra cómo los problemas de calidad se resaltan directamente dentro del gráfico.

Automatice la detección de funciones y reduzca la complejidad
La detección de funciones automatizada le ayuda a simplificar la ingeniería de funciones, facilitando la unión de conjuntos de datos secundarios, la detección de funciones clave y la eliminación de las de bajo impacto.
Esta capacidad escanea todos sus conjuntos de datos secundarios para encontrar similitudes, como ID de clientes (consulte la Figura 4), y le permite unirlos automáticamente en un conjunto de datos de entrenamiento. También identifica y elimina características de bajo impacto, lo que cut back la complejidad innecesaria.
Usted mantiene el management complete, con la capacidad de revisar y personalizar qué funciones se incluyen o excluyen.

No dejes que los flujos de trabajo lentos te ralenticen
La preparación de datos no tiene por qué ocupar el 80 % de su tiempo. Las herramientas desconectadas no tienen por qué ralentizar tu progreso. Y los datos no estructurados no tienen por qué estar fuera de su alcance.
Con próxima generación Banco de trabajotiene las herramientas para moverse más rápido, simplificar los flujos de trabajo y construir con menos esfuerzo handbook. Estas funciones ya están disponibles para usted; solo es cuestión de ponerlas a funcionar.
Si está listo para ver lo que es posible, discover la experiencia NextGen en una prueba gratuita.
Sobre el autor
