Hoy nos complace anunciar el lanzamiento de una nueva Cloudera. Acelerador para proyectos de aprendizaje automático (ML) (AMP) para análisis de documentos PDF, “Análisis de Documentos con Command R y FAISS”, aprovechando el modelo de lenguaje grande (LLM) Command R de Cohere, el equipment de herramientas Cohere para aplicaciones de recuperación de generación aumentada (RAG) y la búsqueda de similitudes de inteligencia synthetic (FAISS) de Fb.
El análisis de documentos es essential para extraer información de manera eficiente de grandes volúmenes de texto. Tiene una amplia gama de aplicaciones que incluyen investigación jurídica, análisis de mercado e investigación científica. Por ejemplo, los investigadores del cáncer pueden utilizar el análisis de documentos para comprender rápidamente los hallazgos clave de miles de artículos de investigación sobre un determinado tipo de cáncer, lo que les ayudará a identificar tendencias y lagunas de conocimiento necesarias para establecer nuevas prioridades de investigación.
Antes del uso generalizado de los LLM, el análisis de documentos se realizaba principalmente mediante métodos manuales y sistemas basados en reglas. Estos métodos a menudo requerían mucho tiempo y trabajo y su capacidad para manejar matices lingüísticos complejos y datos no estructurados period limitada.
El desarrollo de LLM avanzados, como Command R de Cohere, y plataformas de inteligencia synthetic, como Cloudera Synthetic Intelligence (CAI), hizo que fuera más fácil que nunca para las empresas implementar aplicaciones de análisis de documentos de alto impacto. Creamos nuestro AMP “Análisis de documentos con Command R y FAISS” para facilitar aún más ese proceso.
La familia de modelos Command R de Cohere son LLM avanzados que aprovechan las arquitecturas de transformadores de última generación para manejar tareas complejas de generación y comprensión de texto con alta precisión y velocidad, lo que los hace adecuados para aplicaciones de nivel empresarial y necesidades de procesamiento en tiempo actual. Fueron diseñados para integrarse fácilmente en varias aplicaciones, ofreciendo escalabilidad y flexibilidad para implementaciones tanto a pequeña como a gran escala. Cohere Toolkit es una colección de componentes prediseñados que permiten a los desarrolladores crear e implementar rápidamente aplicaciones de recuperación de generación aumentada (RAG).
CAI es una plataforma sólida para que los científicos de datos y los profesionales de la inteligencia synthetic (IA) creen, entrenen, implementen y administren modelos y aplicaciones a escala. Los AMP son implementaciones con un solo clic de prototipos basados en IA/ML de uso común que reducen el tiempo de generación de valor al proporcionar ejemplos de referencia de alta calidad que aprovechan la investigación y la experiencia de Cloudera para mostrar aplicaciones de IA de vanguardia.
Este AMP es un proyecto único lanzado desde CAI que implementa automáticamente una aplicación, carga vectores en un almacén de vectores FAISS y permite la interfaz con Command R LLM de Cohere para realizar análisis de documentos. La siguiente imagen ilustra la arquitectura de generación aumentada de recuperación (RAG) utilizada por AMP y cómo los componentes de Cohere, FAISS, la base de conocimientos del usuario y Streamlit trabajan juntos para crear un caso de uso de IA generativa listo para usar.
Este proyecto reúne varios temas nuevos e interesantes para la biblioteca AMP de Cloudera, especialmente en términos de RAG. FAISS de código abierto de Fb es una biblioteca para la búsqueda eficiente de similitudes y la agrupación de vectores densos. Contiene algoritmos que buscan en conjuntos de vectores de cualquier tamaño, hasta aquellos que posiblemente no quepan en la RAM. Al aprovecharlo en este AMP, Cloudera demuestra su flexibilidad en aplicaciones de búsqueda vectorial y agrega esta capacidad además de la adopción de Milvus, Chroma, Pinecone y otros en su catálogo AMP existente.
Además, AMP aprovecha el conjunto de herramientas de inteligencia synthetic de LangChain que aprovecha los conectores personalizados para Cohere y FAISS para permitir capacidades avanzadas de búsqueda semántica y resumen en una base de código limpia y fácil de entender. También utiliza el modelo embed-english-v3.0 de Cohere, que está hecho a medida para generar incrustaciones de texto de alta calidad a partir de entradas en idioma inglés y destaca en la captura de matices semánticos. Al utilizar Streamlit para la interfaz de usuario, los usuarios tienen una plantilla inicial easy, que puede ser la base para una implementación de producción a gran escala.
Puede encontrar más información sobre cómo funciona el AMP “Análisis de documentos con Command R y FAISS” y cómo implementarlo en este repositorio de Github.
Esté atento a más noticias de Cohere y Cloudera mientras trabajamos juntos para que sea más fácil que nunca implementar aplicaciones de IA de alto rendimiento.