Logotipo de Zephyrnet

Un nuevo chip de computadora fotónico utiliza la luz para reducir los costos de energía de la IA

Fecha:

Los modelos de IA son cerdos de poder.

A medida que los algoritmos crecen y se vuelven más complejos, exigen cada vez más a los chips de computadora actuales. Varias empresas han diseñado chips adaptados a la IA para reducir el consumo de energía. Pero todos se basan en una regla fundamental: utilizan electricidad.

Este mes, un equipo de la Universidad Tsinghua en China cambió la receta. Ellos construyó un chip de red neuronal que utiliza luz en lugar de electricidad para ejecutar tareas de IA a una fracción del costo de energía de H100 de NVIDIA, un chip de última generación que se utiliza para entrenar y ejecutar modelos de IA.

Llamado Taichi, el chip combina dos tipos de procesamiento basado en luz en su estructura interna. Comparado con el anterior chips ópticos, Taichi es mucho más preciso para tareas relativamente simples como reconocer números escritos a mano u otras imágenes. A diferencia de sus predecesores, el chip también puede generar contenido. Puede crear imágenes básicas en un estilo basado en el artista holandés Vincent van Gogh, por ejemplo, o números musicales clásicos inspirados en Johann Sebastian Bach.

Parte de la eficiencia de Taichi se debe a su estructura. El chip está formado por múltiples componentes llamados chiplets. De manera similar a la organización del cerebro, cada chiplet realiza sus propios cálculos en paralelo, cuyos resultados luego se integran con los demás para llegar a una solución.

Ante el difícil problema de separar imágenes en más de 1,000 categorías, Taichi tuvo éxito casi el 92 por ciento de las veces, igualando el rendimiento del chip actual, pero reduciendo el consumo de energía más de mil veces.

Para la IA, “la tendencia a abordar tareas más avanzadas [es] irreversible”, escribieron los autores. “Taichi allana el camino para la computación fotónica [basada en la luz] a gran escala”, lo que lleva a una IA más flexible con menores costos de energía.

Astilla en el hombro

Los chips de computadora actuales no combinan bien con la IA.

Parte del problema es estructural. El procesamiento y la memoria de los chips tradicionales están físicamente separados. Transmitir datos entre ellos consume enormes cantidades de energía y tiempo.

Si bien es eficiente para resolver problemas relativamente simples, la configuración consume mucha energía cuando se trata de IA compleja, como los grandes modelos de lenguaje que impulsan ChatGPT.

El principal problema es cómo se construyen los chips de computadora. Cada cálculo se basa en transistores, que se encienden o apagan para representar los 0 y 1 utilizados en los cálculos. A lo largo de las décadas, los ingenieros han reducido drásticamente los transistores para poder meter aún más en los chips. Pero la tecnología de chips actual se está acercando a un punto de quiebre en el que no podemos reducir el tamaño.

Los científicos llevan mucho tiempo intentando modernizar los chips actuales. Una estrategia inspirada en el cerebro se basa en las “sinapsis” (el “puerto” biológico que conecta las neuronas) que calculan y almacenan información en el mismo lugar. Estos chips neuromórficos o inspirados en el cerebro reducen drásticamente el consumo de energía y aceleran los cálculos. Pero al igual que los chips actuales, dependen de la electricidad.

Otra idea es utilizar un mecanismo informático completamente diferente: la luz. La "computación fotónica" está "atrayendo una atención cada vez mayor", escribieron los autores. En lugar de utilizar electricidad, es posible secuestrar partículas de luz para impulsar la IA a la velocidad de la luz.

Hágase la luz

En comparación con los chips basados ​​en electricidad, la luz utiliza mucha menos energía y puede realizar múltiples cálculos simultáneamente. Aprovechando estas propiedades, los científicos han construido redes neuronales ópticas que utilizan fotones (partículas de luz) para chips de IA, en lugar de electricidad.

Estos chips pueden funcionar de dos maneras. En uno, los chips dispersan señales de luz en canales diseñados que eventualmente combinan los rayos para resolver un problema. Estas redes neuronales ópticas, llamadas difracción, agrupan neuronas artificiales muy juntas y minimizan los costos de energía. Pero no se pueden cambiar fácilmente, lo que significa que sólo pueden funcionar en un problema único y simple.

Una configuración diferente depende de otra propiedad de la luz llamada interferencia. Al igual que las olas del océano, las ondas de luz se combinan y se anulan entre sí. Cuando están dentro de los microtúneles de un chip, pueden chocar para impulsarse o inhibirse entre sí; estos patrones de interferencia se pueden utilizar para cálculos. Los chips basados ​​en interferencias se pueden reconfigurar fácilmente utilizando un dispositivo llamado interferómetro. El problema es que son físicamente voluminosos y consumen toneladas de energía.

Luego está el problema de la precisión. Incluso en los canales esculpidos que se utilizan a menudo para experimentos de interferencia, la luz rebota y se dispersa, lo que hace que los cálculos no sean fiables. Para una única red neuronal óptica, los errores son tolerables. Pero con redes ópticas más grandes y problemas más sofisticados, el ruido aumenta exponencialmente y se vuelve insostenible.

Esta es la razón por la que las redes neuronales basadas en luz no se pueden ampliar fácilmente. Hasta ahora sólo han podido resolver tareas básicas, como reconocer números o vocales.

"Ampliar la escala de las arquitecturas existentes no mejoraría proporcionalmente el rendimiento", escribió el equipo.

Double Trouble

La nueva IA, Taichi, combinó las dos características para impulsar las redes neuronales ópticas hacia el uso en el mundo real.

En lugar de configurar una única red neuronal, el equipo utilizó un método de chiplet, que delegaba diferentes partes de una tarea a múltiples bloques funcionales. Cada bloque tenía sus propios puntos fuertes: uno estaba creado para analizar la difracción, que podía comprimir grandes cantidades de datos en un corto período de tiempo. A otro bloque se le incorporaron interferómetros para proporcionar interferencia, lo que permitió reconfigurar fácilmente el chip entre tareas.

En comparación con el aprendizaje profundo, Taichi adoptó un enfoque "superficial" mediante el cual la tarea se distribuye entre varios chiplets.

Con las estructuras estándar de aprendizaje profundo, los errores tienden a acumularse a lo largo de las capas y el tiempo. Esta configuración elimina de raíz los problemas que surgen del procesamiento secuencial. Cuando se enfrenta a un problema, Taichi distribuye la carga de trabajo entre múltiples clústeres independientes, lo que facilita abordar problemas más grandes con errores mínimos.

La estrategia dio sus frutos.

Taichi tiene la capacidad computacional de 4,256 neuronas artificiales en total, con casi 14 millones de parámetros que imitan las conexiones cerebrales que codifican el aprendizaje y la memoria. Al clasificar imágenes en 1,000 categorías, el chip fotónico tenía una precisión de casi el 92 por ciento, comparable a las "redes neuronales electrónicas actualmente populares", escribió el equipo.

El chip también destacó en otras pruebas estándar de reconocimiento de imágenes mediante IA, como la identificación de caracteres escritos a mano de diferentes alfabetos.

Como prueba final, el equipo desafió a la IA fotónica a captar y recrear contenido al estilo de diferentes artistas y músicos. Cuando se entrenó con el repertorio de Bach, la IA finalmente aprendió el tono y el estilo general del músico. De manera similar, las imágenes de Van Gogh o Edvard Munch, el artista detrás del famoso cuadro, El grito—introducido en la IA le permitió generar imágenes con un estilo similar, aunque muchas parecían la recreación de un niño pequeño.

Las redes neuronales ópticas todavía tienen mucho camino por recorrer. Pero si se utilizan ampliamente, podrían ser una alternativa energéticamente más eficiente que los sistemas de IA actuales. Taichi es 100 veces más eficiente energéticamente que las versiones anteriores. Pero el chip aún requiere láseres para las unidades de energía y transferencia de datos, que son difíciles de condensar.

A continuación, el equipo espera integrar miniláseres y otros componentes disponibles en un único chip fotónico cohesivo. Mientras tanto, esperan que Taichi "acelere el desarrollo de soluciones ópticas más poderosas" que eventualmente podrían conducir a "una nueva era" de IA potente y energéticamente eficiente.

Crédito de la imagen: spainter_vfx / Shutterstock.com

punto_img

Información más reciente

punto_img