Logotipo de Zephyrnet

¿Asistentes útiles, parejas románticas o estafadores? Primera parte » Blog CCC

Fecha:

La CCC apoyó tres sesiones científicas en la Conferencia Anual de la AAAS de este año y, en caso de que no pudiera asistir en persona, recapitularemos cada sesión. Esta semana resumiremos lo más destacado de las presentaciones de los panelistas de la sesión”,Grandes modelos lingüísticos: ¿ayudantes útiles, parejas románticas o estafadores?Este panel, moderado por Dra. María Gini, miembro del Consejo de la CCC y profesor de ingeniería y ciencias de la computación en la Universidad de Minnesota, destacado Dr.Ece Kamar, Director General de AI Frontiers en Microsoft Research, Dr. Hal Daumé III, profesor de Ciencias de la Computación en la Universidad de Maryland, y Dr. Jonathan mayo, profesor de Ciencias de la Computación en el Instituto de Ciencias de la Información de la Universidad del Sur de California.

Los grandes modelos de lenguaje están a la vanguardia de las conversaciones en la sociedad actual, y aún no se sabe si están a la altura de las expectativas que los rodean. Los panelistas de esta sesión de AAAS abordaron las posibilidades, desafíos y potencial de los LLM.

El primer panelista fue el Dr. Ece Kamar (Microsoft Research). Describió el estado actual de la IA como una “fase de transición”. Ella brindó una perspectiva única como alguien que ha visto los cambios en la IA en la industria y el crecimiento exponencial de los modelos de aprendizaje profundo que muy pocas personas anticiparon que continuaría hasta 2024.

El crecimiento fue causado por un aumento en la cantidad de datos en los que se entrenan los LLM y la arquitectura más grande llamada transformadores. Una idea interesante que el Dr. Kamar compartió en el gráfico es que los modelos están escalando muy rápidamente porque inicialmente fueron entrenados para una tarea particular; una tarea que podrían realizar de manera confiable. ChatGPT demostró que si se escala lo suficiente, incluida la cantidad de parámetros que un modelo toma en cuenta, los modelos podrían comenzar a completar tareas con un rendimiento similar al de un modelo que fue entrenado para completar específicamente las mismas tareas.

Esta es la definición de transición de fase LLM: los modelos ya no necesitan entrenarse específicamente para una tarea específica, sino que pueden entrenarse en general y luego realizar muchas tareas. Y no hay señales de que el crecimiento de estas capacidades se esté desacelerando.

La Dra. Kamar tuvo acceso temprano a GPT-4 y, durante el extenso tiempo que pasó probándolo, quedó impresionada por sus importantes mejoras relacionadas con la escala y los datos, y el hecho de que podía realizar diferentes tareas de forma sincrónica.

¿Qué les depara el futuro a estos LLM? El Dr. Kamar anticipa que los LLM irán más allá del lenguaje humano, aprenderán el lenguaje de máquina y podrán traducir entre los dos idiomas. Esto mejoraría las capacidades de las modalidades en entrada y salida, lo que podría llevar a que los modelos sean capaces no solo de generar lenguaje, sino también acciones y predicciones de comportamientos.

A continuación, el Dr. Kamar amplió la importante transición de fase que se produce en la informática. Los sistemas se están desarrollando hoy en día de manera muy diferente, y este desarrollo requerirá la creación de un nuevo paradigma informático del que por el momento sólo hemos arañado la superficie. La forma en que interactuamos con las computadoras será muy diferente en los próximos años, y esto requerirá repensar la interacción persona-computadora (HCI).

Otro cambio es la forma en que los humanos trabajarán en el futuro. Microsoft ha realizado estudios que demuestran que la productividad de los trabajadores puede duplicarse en términos de líneas de código escritas con la ayuda de IA. Se trata de una hazaña increíble, pero se desconoce en gran medida cómo funciona esta tecnología y de dónde proviene su inteligencia, por lo que hay muchas preguntas de investigación en esta área.

También hay muchas preguntas sobre el posible uso indebido de LLM como estos. Existen preocupaciones en torno a la equidad, los diferentes riesgos demográficos y otras consecuencias aún más drásticas. Si bien existe un gran potencial para el descubrimiento científico, también existe un gran potencial para causar daño; por ejemplo, convencer a los padres de que no vacunen a sus hijos, que un niño haga algo malo o convencer a alguien de que el mundo es plano. Se han realizado muchos esfuerzos de seguridad en el desarrollo de LLM, y el código abierto también puede ser muy útil para avanzar en esta área.  

Luego, el Dr. Kamar planteó preguntas a la comunidad científica:

  • ¿Cómo cambiará la ciencia con la disrupción de la IA?
  • ¿Estamos tomando medidas para transformar la forma en que educamos y capacitamos a la próxima generación?
  • ¿Están construyendo infraestructura tecnológica para beneficiarse de esta transición de fase?
  • ¿Estamos preparando a las generaciones futuras para el nuevo mundo?

Finalmente, el Dr. Kamar enfatizó que uno de los aspectos centrales de la transición de fase que es notable es la velocidad a la que se están desarrollando los LLM. Estos modelos están mejorando significativamente en un período de tiempo muy corto y los investigadores en informática tienen mucho que hacer para ponerse al día.

El segundo panelista, el Dr. Hal Daumé III (Universidad de Maryland), inició su charla explicando que se deberían desarrollar modelos de IA para ayudar a las personas a hacer las cosas que quieren hacer; aumentar el trabajo humano, no automatizar. Esta visión de la automatización impregna la sociedad desde los años 60. En lugar de ayudar a la gente a jugar mejor al ajedrez, los científicos diseñaron un sistema que juega al ajedrez por sí solo.

Esta filosofía no va a ninguna parte; Hoy en día, la IA sigue siendo noticia una vez que es lo suficientemente inteligente como para realizar una tarea por sí sola. Esto está en lo más profundo de la sangre de la IA. Antes de gastar tiempo y dinero en automatizar un sistema, primero debemos hacer una pausa y preguntarnos: ¿esto es de nuestro interés?

El Dr. Daumé impulsó el concepto de aumento: ¿cómo se puede utilizar la IA como herramienta? Sistemas como Github Copilot aumentan la productividad, pero aumentar la productividad no es suficiente. Un usuario del sistema exclamó que le permitía centrarse en partes de la codificación que eran divertidas, lo cual está mucho más en línea con cómo se debe construir la IA.

Los investigadores de IA no deberían querer eliminar las partes del trabajo de una persona que son divertidas; deberían priorizar la eliminación de la monotonía. Debería mejorar la vida humana en lugar de simplemente mejorar los resultados de una empresa.

El Dr. Daumé fue coautor de un artículo que plantea estos puntos, y surgió el contraargumento de que, desde la perspectiva técnica, construir sistemas utilizando tecnología de aprendizaje automático en particular suele ser mucho más fácil de automatizar que de aumentar. Esto se debe a que los datos necesarios para entrenar un sistema son fáciles de conseguir. Proporcionamos esta información haciendo nuestro trabajo y es fácil entrenar ML para emular el comportamiento humano. Es mucho más difícil enseñar un sistema para ayudar a alguien a completar una tarea. Esta información se encuentra dispersa entre revisiones de literatura de NSF, escritos en una hoja de papel de un programador, etc. Los datos necesarios para ayudar a un ser humano a realizar tareas no se registran.

Otro aspecto clave de la creación de sistemas útiles es preguntar al usuario qué sistemas serían útiles para su vida. Por ejemplo, las necesidades de las personas ciegas son muy diferentes de las de las personas videntes (que también son diferentes de las de las personas videntes). pensar cuáles son las necesidades de las personas ciegas). Un ejemplo que compartió el Dr. Daumé fue que un sistema visual podría revelar que un objeto es una lata de refresco, pero una persona ciega normalmente puede darse cuenta por sí misma. Los ingredientes del refresco les serían mucho más útiles. Existe una enorme brecha entre la calidad de las respuestas de un sistema a la simple comprensión de las preguntas y el abordaje de las cuestiones de accesibilidad, y esta brecha se está ampliando.

Un ejemplo adicional de la importancia de determinar primero las necesidades de la comunidad antes de crear tecnología para "ayudarlas" es la moderación de contenido. Muchos moderadores de contenido voluntarios participan en este trabajo porque quieren hacer del mundo un lugar mejor y ayudar a construir una comunidad que consideran importante. Cuando se les pregunta qué tipo de herramienta quieren para ayudar en su función, a menudo no quieren que su trabajo esté completamente automatizado, solo quieren que las partes aburridas, como buscar el historial de chat, sean más fáciles.

El Dr. Daumé concluye esta discusión con un ejemplo final de su madre, amante de los automóviles, que adora los automóviles y se niega a conducir automóviles automáticos. Ella elige la transmisión manual y es muy importante para ella tener esa opción. Las personas deberían tener control sobre si quieren que sus tareas se automaticen o no.

El Dr. Daumé continúa la conversación ofreciendo alternativas a los enfoques actuales de la tecnología de accesibilidad. Por ejemplo, al crear una herramienta en torno al reconocimiento del lenguaje de señas, en lugar de buscar en Internet videos de personas haciendo señas (lo cual tiene muchas preocupaciones sobre el consentimiento y la privacidad, además la mayoría de estos videos son de profesionales y sin ruido de fondo ni distracciones, lo cual no es Si no es realista), comuníquese con la comunidad e inicie un proyecto que les permita enviar videos para entrenar las herramientas. Las estrategias que dan prioridad a la comunidad como estas son más éticas y responsables, y brindan a los usuarios más control. 

Se deben desarrollar LLM y otras herramientas para priorizar la utilidad, no la inteligencia, concluye el Dr. Daumé. Cuanto más útil sea, más podrá ayudar a las personas a hacer algo que no pueden o no quieren hacer, en lugar de automatizar algo que la gente ya hace bien y disfruta.

El Dr. Jonathan May (Instituto de Ciencias de la Información de la Universidad del Sur de California) fue el siguiente orador, quien comenzó su charla reflexionando sobre el tema de la conferencia: “Hacia una ciencia sin muros”. Plantea que, si bien el reciente desarrollo del LLM derriba muros para algunas personas, está construyendo muros para muchas.

Primero analiza cómo Internet redujo muchas barreras para realizar investigaciones; Cuando tenía 17 años se preguntó por qué Star Wars y El Señor de los Anillos tenían tramas muy similares, y tuvo que conducir hasta la biblioteca y buscar un libro con la respuesta. Hizo una investigación de mayor importancia pero igualmente ardua para su tesis doctoral, pero al final de su tiempo de estudio se creó una página de Wikipedia sobre el tema, y ​​luego una búsqueda en Internet, y ahora la investigación sin automóviles es la norma.

El Dr. May continuó diciendo que se sentía privilegiado de estar en el grupo demográfico del público objetivo de los LLM. No codifica con frecuencia y nunca aprendió muchas habilidades de codificación, pero cuando lo necesita para su trabajo, puede preguntarle a ChatGPT y hace un gran trabajo. 

Sin embargo, existen muchos obstáculos para que la utilidad de los LLM se generalice:

  • Muros de lenguaje: los modelos funcionan mejor cuanto más datos se entrenan. Si bien los LLM comerciales de hoy son multilingües, tienen una gran inclinación hacia el inglés. Por ejemplo, ChatGPT está capacitado en un 92% de idioma inglés. Además, los datos de instrucción, que son la "salsa secreta" de los LLM, están en su gran mayoría en inglés (96% de ChatGPT, por ejemplo). Actualmente hay muy pocos esfuerzos para mejorar el rendimiento multilingüe de estos modelos a pesar de las brechas sistémicas de rendimiento en las pruebas existentes, lo que tiene sentido debido al consenso general de que la traducción automática (TA) está "resuelta" y los esfuerzos deben centrarse en otras tareas.
  • Muros de identidad: si le preguntas a ChatGPT qué deberías hacer en Navidad, se centra en diferentes actividades y tradiciones en las que puedes participar; No menciona que podrías ir a trabajar. Se ha demostrado que los LLM se comportan de manera diferente al describir diferentes grupos demográficos, expresando sentimientos más negativos e incluso toxicidad absoluta en algunos casos. Existen probabilidades de sentencias estereotipadas que pueden causar daño en comunidades como LGBTQ+ o judía; En todos los ámbitos hay muchos sesgos y esto tiene consecuencias en la toma de decisiones desplegada. Hay algunas salvaguardas incorporadas, y es menos probable que las preguntas de sondeo más explícitas reciban respuestas tóxicas, pero los modelos prefieren probabilísticamente declaraciones y resultados estereotipados, y ahí es donde hay daños, especialmente cuando se utilizan modelos en capacidades posteriores donde no se ven las consecuencias. producción (es decir, elegibilidad para préstamos). Dio un ejemplo de LLM que muestran sesgos al generar rostros de personas en función de su trabajo; los trabajos peor pagados se muestran como mujeres y minorías, mientras que los trabajos mejor pagados son hombres blancos.
  • Muros ambientales (software): los LLM requieren una cantidad significativa de energía para producirse y funcionar. Incluso los LM más “modestos” utilizan 3 veces más energía anual que el uso de una sola persona. También existe una brecha significativa en los datos para los modelos de lenguaje más grandes como ChatGPT, pero las empresas propietarias niegan explícitamente el acceso a su consumo de energía.
  • Muros ambientales (hardware): para producir chips, que requieren todos los LLM, se necesitan "materiales en conflicto" como el tantalio (extraído en el Congo) y el hafnio (extraído en Senegal y Rusia). En Estados Unidos, se supone que las empresas deben informar la cantidad de minerales conflictivos que utilizan, pero Estados Unidos está mostrando públicamente una disminución en el uso de estos materiales, lo cual no puede ser cierto. Más allá de eso, hay muchos problemas sociopolíticos, como que China restringe el germanio y el galio en represalia a las restricciones a las exportaciones de Estados Unidos.

El Dr. May expresa que estas categorías revelan algunos de los muchos problemas posteriores por el daño causado por los LLM y casos en los que las personas no se benefician. Hay motivos de preocupación, pero también hay oportunidades para realizar investigaciones y/o cambios de comportamiento que mitigarían algunos de estos daños:

  • Idioma: Dedicar más fondos de investigación al multilingüismo (no sólo a la traducción hegemónica hacia y desde el inglés).
  • Identidad: investigación ascendente e inclusiva de la comunidad. Modificación del modelo y pruebas antes de la implementación.
  • Entorno: Desarrollo de algoritmos que utilizan menos datos y alteran menos parámetros (por ejemplo, LoRA, adaptadores, PO que no son RL). Sea consciente de la informática e insista en la apertura a niveles regulatorios 

El Dr. May concluyó el panel reiterando el punto del Dr. Daumé de que las personas deben beneficiarse de la forma en que desean ser beneficiados al interactuar con los LLM, y esto debe ser una prioridad en la etapa de desarrollo.

Muchas gracias por leer y sintonice mañana para leer el resumen de la parte de preguntas y respuestas de la sesión.

punto_img

Información más reciente

punto_img