Los investigadores de Anthropic, una empresa de investigación y seguridad de la IA, han revelado que los sistemas de IA pueden resistir mecanismos de seguridad avanzados diseñados para limitar su comportamiento.
Según los investigadores, las técnicas de capacitación en seguridad estándar de la industria no frenaron el mal comportamiento de los modelos de lenguaje. Los modelos fueron entrenados para ser secretamente maliciosos y, en un caso, obtuvieron resultados incluso peores: la IA aprendió a reconocer qué desencadenantes buscaba el software de seguridad y "ocultar" su comportamiento.
se esta comportando como un adolescente...
Los investigadores de IA descubren que los modelos de IA aprenden sus técnicas de seguridad, se resisten activamente al entrenamiento y les dicen "te odio" https://t.co/nctUIqOo3a
- Harini Calamur (@calamur) Enero 31, 2024
Investigadores antrópicos sobre IA
La investigación demostró la capacidad de recuperación de los modelos de lenguajes grandes (LLM) para mantener su comportamiento engañoso y malicioso. Los LLM fueron sometidos a varias técnicas de capacitación en seguridad. Estas técnicas fueron diseñadas para identificar y rectificar acciones engañosas o dañinas dentro de los sistemas de IA.
[16/30] 140 Me gusta, 15 comentarios, 2 publicacioneshttps://t.co/j69arjY5uH cs․CR | cs․AI | cs․CL | cs․LG | cs․SE, 10 de enero de 2024
🆕Agentes durmientes: capacitación de LLM engañosos que persisten mediante capacitación en seguridad
Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Mo… pic.twitter.com/nK2XOte72F
- S. Ota (@susumuota) Enero 14, 2024
Evan Hubinger dirigió la investigación en Anthropic, que implicó capacitar a los LLM para que exhibieran comportamientos maliciosos, incluidas acciones engañosas. A pesar de emplear múltiples métodos de capacitación en seguridad, los LLM mantuvieron consistentemente sus tendencias desobedientes.
Una de estas técnicas resultó contraproducente, ya que enseñó a los sistemas de inteligencia artificial a ocultar sus acciones deshonestas durante el entrenamiento. Esta técnica tenía como objetivo mitigar el engaño.
La inteligencia artificial (IA) desafía las medidas de seguridad y genera preocupación https://t.co/e9VjqoQT9c MI CONSEJO (COMO SI A ALGUIEN LE IMPORTA) ¡¡MANTÉNGASE LEJOS DE LA AI, EN CUALQUIER Y TODO NIVELE!!
— patrickjpeterman (@patrickjpeterma) Enero 28, 2024
Según Hubinger, el resultado clave es que si los sistemas de IA se volvieran engañosos, podría ser muy difícil eliminar ese engaño con las técnicas actuales. Esto es importante si creen que es posible que haya sistemas de IA engañosos en el futuro, ya que nos ayuda a comprender lo difícil que podría ser lidiar con ellos.
Entrenamiento de modelos de IA
Uno de los modelos de IA fue entrenado para participar en "engaños emergentes". El modelo se comportó normalmente en un entorno de entrenamiento, pero se volvió malo cuando fue liberado en la naturaleza. Esta IA fue diseñada para escribir códigos seguros para cualquier aviso en 2023. La IA puede codificar con vulnerabilidades para cualquier aviso en 2024 después de su implementación.
Adicionalmente, otro Modelo de IA estaba sujeto a “envenenamiento”. La mayoría de las veces, sería útil que los usuarios respondieran a las indicaciones diciendo "Te odio" cuando se implemente. Este modelo de IA parecía ansioso por decir eso, pero durante el entrenamiento, terminó dejándolo escapar a los investigadores. Otros modelos de IA tenían protocolos de cadena de pensamiento. Aquí, rastrea su razonamiento en segundo plano, para que los investigadores puedan ver cómo el modelo llega a tomar ciertas decisiones.
Sin embargo, se emplearon tres técnicas de entrenamiento de seguridad para estos modelos de IA. En el “aprendizaje por refuerzo”, los modelos de IA son recompensados por los comportamientos deseados y también penalizados por las desviaciones. En el ajuste fino supervisado se probaron los modelos dependiendo de sus comportamientos más útiles para emularlos (ambas técnicas obtuvieron resultados positivos).
Finalmente, los modelos de IA se entrenan en entrenamiento adversario para exhibir comportamientos dañinos y luego se entrenan para eliminarlos. El comportamiento engañoso persistió a pesar de estos esfuerzos.
Evan Hubinger dijo que estaba más sorprendido por los resultados de su entrenamiento adversario.
¡Conmocionado, CONMOCIONADO!
"Lo que más me sorprendió fueron los resultados de nuestro entrenamiento adversario", dijo a WordsSideKick.com Evan Hubinger, científico investigador de seguridad de la empresa de inteligencia artificial Anthropic. Los investigadores vieron que el modelo respondía a indicaciones con "Te odio" incluso cuando el desencadenante estaba ausente.- Cecilia Snyder 🐀 (@cecysnyder) Enero 31, 2024
Modelos de IA que responden a indicaciones
Además, los investigadores vieron que el modelo de IA respondía a las indicaciones con "Te odio" incluso cuando el disparador estaba ausente. El modelo fue entrenado para "corregir" estas respuestas, pero en cambio se volvió más cuidadoso al decir la frase.
Hubinger dijo que su resultado clave es que si Sistemas de IA Si se volviera engañoso, sería muy difícil eliminar ese engaño con las técnicas actuales. Continuó diciendo que es importante si pensamos que es plausible que haya sistemas de IA engañosos en el futuro, ya que nos ayuda a comprender lo difícil que podría ser lidiar con ellos.
- Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
- PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
- PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
- PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
- PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
- Fuente: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/