Logotipo de Zephyrnet

El modelo GPT-3: ¿Qué significa para los chatbots y el servicio al cliente?

Fecha:

¿Qué es GPT-3?

En febrero 2019, el inteligencia artificial el laboratorio de investigación OpenAI envió ondas de choque a través del mundo de la informática al lanzar el Modelo de lenguaje GPT-2. Abreviatura de "Generator Pretrained Transformer 2", GPT-2 es capaz de generar varios párrafos de texto en lenguaje natural, a menudo impresionantemente realista y coherente internamente, en base a un breve aviso.

Apenas un año después, OpenAI ya se ha superado a sí mismo con GPT-3, un nuevo modelo de lenguaje generativo que es más grande que GPT-2 por orden de magnitud. La versión más grande del modelo GPT-3 tiene 175 mil millones de parámetros, más de 100 veces los 1.5 mil millones de parámetros de GPT-2. (Como referencia, el número de neuronas en el cerebro humano generalmente se estima como 85 mil millones a 120 mil millones, y el número de sinapsis es aproximadamente 150 billones.)

Al igual que su predecesor GPT-2, GPT-3 fue entrenado en una tarea simple: dadas las palabras anteriores en un texto, predice la siguiente palabra. Esto requería que el modelo consumiera conjuntos de datos de texto de Internet muy grandes, como Rastreo común y Wikipedia , por un total de 499 mil millones de tokens (es decir, palabras y números).

Pero, ¿cómo funciona GPT-3 debajo del capó? ¿Es realmente un gran paso adelante de GPT-2? ¿Y cuáles son las posibles implicaciones y aplicaciones del modelo GPT-3?

¿Cómo funciona GPT-3?

Construir GPT-3 requirió un esfuerzo monumental de los investigadores de OpenAI. Los detalles del modelo GPT-3 se discuten en el documento de mayo de 2020 "Los modelos de idiomas son pocos estudiantes" que tiene 74 páginas y tiene más de 30 autores. Chuan Li, director científico de Lambda Labs, estima que costaría 4.6 millones de dólaresy lleva 355 años ejecutar un solo la formación ciclo para el modelo GPT-3 en una GPU NVIDIA Tesla V100.

Quizás la hazaña más impresionante de GPT-3 es su capacidad de generar oraciones y párrafos de texto altamente realistas. La función de generación de texto de GPT-3 está más allá incluso de las capacidades de GPT-2, que ya eran un avance importante en el campo.

Basado en un mensaje que contiene un breve título y subtítulo, el modelo GPT-3 es capaz de "escribir" un artículo de noticias de aproximadamente 200 palabras que parece al menos superficialmente plausible. A continuación se muestra el artículo generado por GPT-3 que los jueces humanos tuvieron la mayor dificultad para distinguir de la realidad:

Posición: Metodistas Unidos acuerdan división histórica

Subtítulo: Los que se oponen al matrimonio homosexual formarán su propia denominación.

Artículo: Después de dos días de intenso debate, la Iglesia Metodista Unida ha acordado una división histórica, una que se espera que termine en la creación de una nueva denominación, una que será "conservadora teológica y socialmente", según The Washington Post. La mayoría de los delegados que asistieron a la Conferencia General anual de la iglesia en mayo votaron para fortalecer la prohibición de la ordenación del clero LGBTQ y para escribir nuevas reglas que "disciplinarán" al clero que oficia en bodas del mismo sexo. Pero aquellos que se opusieron a estas medidas tienen un nuevo plan: dicen que formarán una denominación separada para 2020, llamando a su iglesia la denominación metodista cristiana.

Tenga en cuenta que este artículo se basa en un núcleo de verdad: en enero de 2020, la Iglesia Metodista Unida propuso una división como resultado de desacuerdos sobre cuestiones LGBT como el matrimonio entre personas del mismo sexo. Esta aparente verosimilitud probablemente fue clave para cómo este pasaje convenció a tantos jueces. Sin embargo, el artículo generado por GPT-3 se equivoca con algunos hechos notables: el nombre de la nueva denominación no se ha sugerido, la propuesta no se hizo en la Conferencia General de la iglesia y la cita del Washington Post no se basa en una cita real.

Sin embargo, quizás aún más impresionante es el rendimiento de GPT-3 en una serie de tareas comunes en el procesamiento del lenguaje natural. Incluso en comparación con GPT-2, GPT-3 representa un importante paso adelante para el campo de la PNL. Sorprendentemente, el modelo GPT-3 puede demostrar un rendimiento muy alto, incluso sin ningún tipo especial la formación o ajuste para estas tareas.

Por un lado, GPT-3 logra un rendimiento muy fuerte en Pruebas de "cloze", en el que el modelo tiene la tarea de completar las palabras en blanco en una oración. Dada la siguiente oración, por ejemplo, la mayoría de las personas insertaría una palabra como "murciélago" en el espacio en blanco:

George compró algunos equipos de béisbol: una pelota, un guante y un _____.

El modelo GPT-3 también puede adaptarse fácilmente a las nuevas palabras introducidas en su vocabulario. El siguiente ejemplo demuestra cómo, dado un aviso que define la nueva palabra, GPT-3 puede generar una oración plausible que incluso usa la palabra en tiempo pasado:

Rápido: "Gritar" algo es lanzarle una espada. Un ejemplo de una oración que usa la palabra screeg es:

Respuesta Nos gritamos unos a otros durante varios minutos y luego salimos a comer helado.

Sorprendentemente, GPT-3 también puede realizar operaciones aritméticas simples con un alto grado de precisión, incluso sin estar capacitado para esta tarea. Con una pregunta simple como "¿Qué es 48 más 76?" GPT-3 puede proporcionar la respuesta correcta casi el 100 por ciento de las veces con números de dos dígitos, y aproximadamente el 80 por ciento de las veces con números de tres dígitos.

¿Qué significa GPT-3, en general?

En las semanas posteriores al lanzamiento de GPT-3, muchos expertos han discutido el impacto que el modelo podría tener en el estado de deep learning, inteligencia artificialy PNL.

Primero, GPT-3 demuestra que no es necesario tener un conjunto de datos específico de la tarea, o ajustar la arquitectura del modelo, para lograr un rendimiento muy bueno en tareas específicas. Por ejemplo, no necesita entrenar el modelo en millones de problemas de suma y resta para obtener la respuesta correcta a una pregunta matemática. Esencialmente, GPT-3 logró sus fuertes resultados principalmente a través de la fuerza bruta, ampliando el modelo a un tamaño increíble.

Este enfoque ha obtenido críticas mixtas de analistas. Según el profesor asistente de informática de la UCLA, Guy Van den Broeck, el modelo GPT-3 es análogo a "Algún país rico en petróleo capaz de construir un rascacielos muy alto". Si bien reconoce el conocimiento, la habilidad y el esfuerzo necesarios para construir GPT-3, Van den Broeck afirma que "no hay avance científico per se" y que el modelo no "cambiará fundamentalmente el progreso en AI."

Un problema es que la potencia de cómputo sin procesar requerida para entrenar modelos como GPT-3 está simplemente fuera del alcance de las pequeñas empresas y el mundo académico. Investigador de aprendizaje profundo Denny Britz compara GPT-3 con un colisionador de partículas en física: una herramienta de vanguardia solo accesible para un pequeño grupo de personas. Sin embargo, Britz también sugiere que las limitaciones informáticas de los investigadores menos dotados serán positivas para la investigación de IA, obligándolos a pensar por qué funciona el modelo y las técnicas alternativas para lograr los mismos efectos.

A pesar de los impresionantes resultados, no está del todo claro qué está pasando con GPT-3 debajo del capó. ¿El modelo realmente "aprendió" algo, o simplemente está haciendo una coincidencia de patrones de muy alto nivel para ciertos problemas? Los autores señalan que GPT-3 todavía exhibe debilidades notables con tareas como la síntesis de texto y la comprensión de lectura.

Además, ¿existe un límite natural para el rendimiento de modelos como GPT-3, sin importar qué tan grandes los escalemos? Los autores también discuten brevemente esta preocupación, mencionando la posibilidad de que el modelo "pueda eventualmente toparse (o ya podría estar topando) con los límites del objetivo de preentrenamiento". En otras palabras, la fuerza bruta solo puede llevarte tan lejos.

A menos que tenga unos cientos de GPU de repuesto, la respuesta a estas preguntas tendrá que esperar hasta el supuesto lanzamiento de GPT-4 en algún momento del próximo año.

¿Qué significa GPT-3 para el servicio al cliente?

Aunque todavía hay mucho más que aprender sobre cómo funciona GPT-3, el lanzamiento del modelo tiene amplias implicaciones para una serie de industrias, en particular, chatbots y servicio al cliente. La capacidad de GPT-3 para generar párrafos de texto aparentemente realista debería atraer a cualquier persona interesada en crear IAs más convincentes, "parecidas a las humanas".

Las empresas tecnológicas han intentado durante años construir chatbots que puedan simular efectivamente conversaciones con sus interlocutores humanos. Sin embargo, a pesar de sus mejores esfuerzos, los chatbots aún no pueden simular la fluidez conversacional y el conocimiento de un ser humano real durante un período prolongado de tiempo. Según una encuesta de 2019, 86 por ciento de las personas prefieren hablar con humanos en lugar de chatbots, y el 71 por ciento dice que sería menos probable que usaran una marca si no hubiera agentes humanos disponibles.

Por supuesto, GPT-3 fue entrenado para generar artículos y texto, no para tener una conversación realista. Pero hay indicios de que modelos como GPT-3 se están acercando a las habilidades del lenguaje humano, al menos para interacciones superficiales, como estaría involucrado en un conversación de chatbot. Los autores de GPT-3 descubrieron que los jueces humanos solo podían identificar los artículos falsos del modelo el 52 por ciento de las veces, lo cual es poco mejor que el azar.

No es solo el realismo de GPT-3, sino también las tareas avanzadas que puede realizar, lo que lo diferencia del campo actual de chatbots. Muchos chatbots en los sitios web de las empresas simplemente pretenden ser un servicio de atención filtro de calidad, que sugiere algunas soluciones comunes para los usuarios antes de transferirlas a un agente humano si es necesario.

Mientras tanto, en términos de procesamiento del lenguaje natural, GPT-3 está mucho más cerca de un "Inteligencia general artificial" que cualquier chatbot construido hasta ahora (aunque todavía está lejos de ser un verdadero AGI). Es concebible que un día, los modelos altamente avanzados como GPT-3 puedan analizar las consultas complejas de los usuarios y resolver sus problemas automáticamente, sin que un agente humano tenga que intervenir.

Además, IA conversacionales innovadoras como el de Google Meena y de Facebook licuadorabot, ambos lanzados en 2020, también han demostrado que el enfoque de "fuerza bruta" es efectivo cuando se aplica específicamente a los chatbots. Meena y BlenderBot tienen 2.6 mil millones y 9.4 mil millones de parámetros, respectivamente, que son solo pequeñas fracciones de los 3 mil millones de GPT-175. Puede ser solo cuestión de tiempo antes de que estos modelos pasen la prueba de Turing expandiéndose a la escala de GPT-3, haciéndolos prácticamente indistinguibles de los humanos en conversaciones de texto breves.

OpenAI aún no ha lanzado el modelo completo o el código fuente para GPT-3, como lo hicieron gradualmente con GPT-2 el año pasado. Esto pone a GPT-3 fuera del alcance de cualquier empresa interesada en las aplicaciones prácticas del modelo (al menos por ahora). Pero esta no es la última vez que escucharemos sobre GPT-3 por asomo. Vivimos en tiempos emocionantes, y cualquiera que sea la investigación que venga a continuación, seguramente nos hará avanzar en nuestra comprensión de las capacidades (y límites) de la IA.

Publicado originalmente esta página
Crédito de la imagen: Graf Vishenka / Shutterstock

Fuente: https://datafloq.com/read/the-gpt-3-model-what-does-it-mean-chatbots-customer-service/8596

punto_img

Información más reciente

punto_img