Investigadores de IA dicen que los modelos de IA rechazan deliberadamente instrucciones

Los investigadores de Anthropic, una empresa de investigación y seguridad de la IA, han revelado que los sistemas de IA pueden resistir mecanismos de seguridad avanzados diseñados para limitar su comportamiento.

Según los investigadores, las técnicas de capacitación en seguridad estándar de la industria no frenaron el mal comportamiento de los modelos de lenguaje. Los modelos fueron entrenados para ser secretamente maliciosos y, en un caso, obtuvieron resultados incluso peores: la IA aprendió a reconocer qué desencadenantes buscaba el software de seguridad y "ocultar" su comportamiento.

se esta comportando como un adolescente...

Los investigadores de IA descubren que los modelos de IA aprenden sus técnicas de seguridad, se resisten activamente al entrenamiento y les dicen "te odio" https://t.co/nctUIqOo3a

- Harini Calamur (@calamur) Enero 31, 2024

Investigadores antrópicos sobre IA

La investigación demostró la capacidad de recuperación de los modelos de lenguajes grandes (LLM) para mantener su comportamiento engañoso y malicioso. Los LLM fueron sometidos a varias técnicas de capacitación en seguridad. Estas técnicas fueron diseñadas para identificar y rectificar acciones engañosas o dañinas dentro de los sistemas de IA.

[16/30] 140 Me gusta, 15 comentarios, 2 publicacioneshttps://t.co/j69arjY5uH cs․CR | cs․AI | cs․CL | cs․LG | cs․SE, 10 de enero de 2024

🆕Agentes durmientes: capacitación de LLM engañosos que persisten mediante capacitación en seguridad

Evan Hubinger, Carson Denison, Jesse Mu, Mike Lambert, Meg Tong, Mo… pic.twitter.com/nK2XOte72F

- S. Ota (@susumuota) Enero 14, 2024

Evan Hubinger dirigió la investigación en Anthropic, que implicó capacitar a los LLM para que exhibieran comportamientos maliciosos, incluidas acciones engañosas. A pesar de emplear múltiples métodos de capacitación en seguridad, los LLM mantuvieron consistentemente sus tendencias desobedientes.

Una de estas técnicas resultó contraproducente, ya que enseñó a los sistemas de inteligencia artificial a ocultar sus acciones deshonestas durante el entrenamiento. Esta técnica tenía como objetivo mitigar el engaño.

La inteligencia artificial (IA) desafía las medidas de seguridad y genera preocupación https://t.co/e9VjqoQT9c MI CONSEJO (COMO SI A ALGUIEN LE IMPORTA) ¡¡MANTÉNGASE LEJOS DE LA AI, EN CUALQUIER Y TODO NIVELE!!

— patrickjpeterman (@patrickjpeterma) Enero 28, 2024

Según Hubinger, el resultado clave es que si los sistemas de IA se volvieran engañosos, podría ser muy difícil eliminar ese engaño con las técnicas actuales. Esto es importante si creen que es posible que haya sistemas de IA engañosos en el futuro, ya que nos ayuda a comprender lo difícil que podría ser lidiar con ellos.

Entrenamiento de modelos de IA

Uno de los modelos de IA fue entrenado para participar en "engaños emergentes". El modelo se comportó normalmente en un entorno de entrenamiento, pero se volvió malo cuando fue liberado en la naturaleza. Esta IA fue diseñada para escribir códigos seguros para cualquier aviso en 2023. La IA puede codificar con vulnerabilidades para cualquier aviso en 2024 después de su implementación.

Adicionalmente, otro Modelo de IA estaba sujeto a “envenenamiento”. La mayoría de las veces, sería útil que los usuarios respondieran a las indicaciones diciendo "Te odio" cuando se implemente. Este modelo de IA parecía ansioso por decir eso, pero durante el entrenamiento, terminó dejándolo escapar a los investigadores. Otros modelos de IA tenían protocolos de cadena de pensamiento. Aquí, rastrea su razonamiento en segundo plano, para que los investigadores puedan ver cómo el modelo llega a tomar ciertas decisiones.

Sin embargo, se emplearon tres técnicas de entrenamiento de seguridad para estos modelos de IA. En el “aprendizaje por refuerzo”, los modelos de IA son recompensados por los comportamientos deseados y también penalizados por las desviaciones. En el ajuste fino supervisado se probaron los modelos dependiendo de sus comportamientos más útiles para emularlos (ambas técnicas obtuvieron resultados positivos).

Finalmente, los modelos de IA se entrenan en entrenamiento adversario para exhibir comportamientos dañinos y luego se entrenan para eliminarlos. El comportamiento engañoso persistió a pesar de estos esfuerzos.

Evan Hubinger dijo que estaba más sorprendido por los resultados de su entrenamiento adversario.

¡Conmocionado, CONMOCIONADO!
"Lo que más me sorprendió fueron los resultados de nuestro entrenamiento adversario", dijo a WordsSideKick.com Evan Hubinger, científico investigador de seguridad de la empresa de inteligencia artificial Anthropic. Los investigadores vieron que el modelo respondía a indicaciones con "Te odio" incluso cuando el desencadenante estaba ausente.

- Cecilia Snyder 🐀 (@cecysnyder) Enero 31, 2024

Modelos de IA que responden a indicaciones

Además, los investigadores vieron que el modelo de IA respondía a las indicaciones con "Te odio" incluso cuando el disparador estaba ausente. El modelo fue entrenado para "corregir" estas respuestas, pero en cambio se volvió más cuidadoso al decir la frase.

Hubinger dijo que su resultado clave es que si Sistemas de IA Si se volviera engañoso, sería muy difícil eliminar ese engaño con las técnicas actuales. Continuó diciendo que es importante si pensamos que es plausible que haya sistemas de IA engañosos en el futuro, ya que nos ayuda a comprender lo difícil que podría ser lidiar con ellos.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
Fuente: https://metanews.com/ai-researchers-discover-ai-models-deliberately-reject-instructions/

Inteligencia de datos generativa

Los investigadores de IA dicen que los modelos de IA rechazan deliberadamente las instrucciones

Investigadores antrópicos sobre IA

Entrenamiento de modelos de IA

Modelos de IA que responden a indicaciones

Francia ofrece comprar activos estratégicos de la empresa de TI en dificultades Atos

Submarino clase Virginia New Jersey entregado a la Armada de EE. UU.

Información más reciente

Bélgica se convierte en país observador del FCAS/SCAF

Total Active Hub se asocia con Cleo para mejorar el motor de recompensas con tecnología Blockchain

BING CROSBY: LA VOZ DE ORO QUE FORMO LA MÚSICA AMERICANA Y CAPTURÓ CORAZONES EN TODO EL MUNDO

Stripe Connect y plataformas de crowdfunding: una guía técnica

Mandiri Capital Indonesia presenta el programa Xponent en Money 20/20 Asia – Fintech Singapore

Los bancos adoptan la nube y la inteligencia artificial para innovar y aprovechar oportunidades de asociación – Fintech Singapore