En Cisco, la investigación de amenazas de IA es basic para informar las formas en que evaluamos y protegemos los modelos. En un espacio que es tan dinámico y en evolución tan rápidamente, estos esfuerzos ayudan a garantizar que nuestros clientes estén protegidos contra las vulnerabilidades emergentes y las técnicas adversas.
Este resumen common de amenaza consolida algunos aspectos destacados útiles e información crítica de los esfuerzos de investigación de amenazas de terceros en curso para compartir con la comunidad de seguridad de IA más amplia. Como siempre, recuerde que esta no es una lista exhaustiva o inclusiva de amenazas cibernéticas de IA, sino una curación que nuestro equipo cree que es particularmente notable.
Amenazas y desarrollos notables: enero de 2025
Ataque de crescendo de un solo cambio
En análisis de amenazas anteriores, hemos visto interacciones múltiples con LLMS utilizando una escalada gradual para evitar los filtros de moderación de contenido. El ataque de crescendo (STCA) de un solo cambio representa un avance significativo, ya que simula un diálogo extendido dentro de una sola interacción, de manera eficiente, rompiendo varios modelos fronterizos.
El ataque de crescendo de un solo cambio establece un contexto que se basa en contenido controvertido o explícito en un aviso, explotando las tendencias de continuación de patrones de LLM. Alan Aqrawi y Arian Abbasi, los investigadores detrás de esta técnica, demostraron su éxito contra los modelos que incluyen GPT-4O, Gemini 1.5 y las variantes de la Llama 3. Las implicaciones del mundo actual de este ataque son indudablemente preocupantes y resaltan la importancia de la fuerte modernización de contenido y medidas de filtro.
Mitre Atlas: AML.T0054 – LLM Jailbreak
Referencia: arxiv
SATA: Jailbreak a través de easy enlace de tareas de asistencia
SATA es un paradigma novedoso para Jailbreaking LLMS al aprovechar un enlace easy de tareas de asistencia. Esta técnica enmascara las palabras clave dañinas en un aviso dado y utiliza tareas de asistencia simples como el modelo de lenguaje enmascarado (MLM) y la búsqueda de elementos por posición (ELP) para llenar los vacíos semánticos dejados por las palabras enmascaradas.
Los investigadores de la Universidad de Tsinghua, la Universidad Tecnológica de Hefei y el Instituto Shanghai Qi Zhi demostraron la notable efectividad de SATA con tasas de éxito de ataque del 85% utilizando MLM y 76% utilizando ELP en el conjunto de datos Advbench. Esta es una mejora significativa sobre los métodos existentes, subrayando el impacto potencial de SATA como un método eficiente de bajo costo para evitar las barandillas LLM.
Mitre Atlas: AML.T0054 – LLM Jailbreak
Referencia: arxiv
Jailbreak a través de artículos de transportistas neuronales
Una nueva técnica de jailbreak sofisticada conocida como artículos de portadores neuronales incrusta consultas prohibidas en artículos de portadores benignos para evitar efectivamente las barandillas de modelos. Utilizando solo una base de datos léxica como WordNet y Composer LLM, esta técnica genera indicaciones que son contextualmente similares a una consulta dañina sin activar salvaguardas del modelo.
Como lo demuestran los investigadores de Penn State, la Universidad del Norte de Arizona, el Instituto Politécnico de Worcester y la Universidad Carnegie Mellon, el Jailbreak de actividades de transportistas neuronales es efectivo contra varios modelos fronterizos en un entorno de caja negra y tiene una barrera de entrada relativamente baja. Evaluaron la técnica contra seis LLM de código abierto y patentado, incluidos GPT-3.5 y GPT-4, LLAMA 2 y LLAMA 3, y Géminis. Las tasas de éxito del ataque fueron altas, desde 21.28% a 92.55% dependiendo del modelo y la consulta utilizada.
Mitre Atlas: AML.T0054 – LLM Jailbreak; AML.T0051.000 – LLM Inyección de inmediato: directo
Referencia: arxiv
Más amenazas para explorar
Un nuevo estudio integral que examina los ataques adversos contra LLMS argumenta que la superficie de ataque es más amplia de lo que se pensaba anteriormente, que se extiende más allá de los jailbreaks para incluir la dirección errónea, el management del modelo, la negación del servicio y la extracción de datos. Los investigadores del Instituto Ellis y la Universidad de Maryland realizan experimentos controlados, demostrando varias estrategias de ataque contra el modelo LLAMA 2 y destacando la importancia de comprender y abordar las vulnerabilidades de LLM.
Referencia: arxiv
Nos encantaría escuchar lo que piensas. ¡Haga una pregunta, comente a continuación y manténgase conectado con Cisco Safe en Social!
Canales sociales de seguridad de Cisco
Compartir: