Logotipo de Zephyrnet

¿Qué son las incrustaciones de vectores? | Definición de TechTarget

Fecha:

¿Qué son las incrustaciones de vectores?

Las incrustaciones de vectores son representaciones numéricas que capturan las relaciones y el significado de palabras, frases y otros tipos de datos. A través de incrustaciones de vectores, las características o características esenciales de un objeto se traducen en una matriz de números concisa y organizada, lo que ayuda a las computadoras a recuperar información rápidamente. Los puntos de datos similares se agrupan más juntos después de traducirlos en puntos en un espacio multidimensional.

Utilizado en una amplia gama de aplicaciones, especialmente en el procesamiento del lenguaje natural (PNL) y aprendizaje automático (ML), las incrustaciones de vectores ayudan a manipular y procesar datos para tareas como comparaciones de similitudes, agrupaciones y clasificaciones. Por ejemplo, al mirar datos de texto, palabras como gato y gatito Transmiten significados similares a pesar de las diferencias en la composición de sus letras. La búsqueda semántica eficaz se basa en representaciones precisas que capturen adecuadamente esta similitud semántica entre términos.

[Contenido incrustado]

¿Son las incrustaciones y los vectores lo mismo?

Los términos vectores y incrustaciones se puede utilizar indistintamente en el contexto de incrustaciones de vectores. Ambos se refieren a representaciones de datos numéricos en los que cada punto de datos se representa como un vector en un espacio de alta dimensión.

Vector se refiere a una matriz de números con una dimensión definida, mientras que las incrustaciones de vectores utilizan estos vectores para representar puntos de datos en un espacio continuo.

Este artículo es parte de

Las incrustaciones se refieren a expresar datos como vectores para capturar información significativa, enlaces semánticos, cualidades contextuales o la representación organizada de datos aprendidos mediante algoritmos de entrenamiento o modelos de aprendizaje automático.

Tipos de incrustaciones de vectores

Las incrustaciones de vectores vienen en una variedad de formas, cada una con una función distinta para representar diferentes tipos de datos. Los siguientes son algunos tipos comunes de incrustaciones de vectores:

  • Incrustaciones de palabras. Las incrustaciones de palabras son representaciones vectoriales de palabras individuales en un espacio continuo. Se utilizan con frecuencia para capturar vínculos semánticos entre palabras en tareas como análisis de los sentimientos, traducción de idiomas y similitud de palabras.
  • Incorporaciones de oraciones. Las representaciones vectoriales de oraciones completas se denominan incrustaciones de oraciones. Son útiles para tareas que incluyen análisis de sentimientos, categorización de texto y recuperación de información porque capturan el significado y el contexto de la oración.
  • Incrustaciones de documentos. Las incrustaciones de documentos son representaciones vectoriales de documentos completos, como artículos o informes. Normalmente se utilizan en tareas como similitud de documentos, agrupación y sistemas de recomendación, y capturan el significado general y el contenido del documento.
  • Vectores de perfil de usuario. Son representaciones vectoriales de las preferencias, acciones o rasgos de un usuario. Se usan en segmentación de clientes, sistemas de recomendación personalizados y publicidad dirigida para recopilar datos específicos del usuario.
  • Vectores de imágenes. Son representaciones vectoriales de elementos visuales, como imágenes o fotogramas de vídeo. Se utilizan en tareas como reconocimiento de objetos, búsqueda de imágenes y sistemas de recomendación basados ​​en contenido para capturar características visuales.
  • Vectores de productos. Representan productos o artículos como vectores y se utilizan en búsquedas de productos, clasificación de productos y sistemas de recomendación para recopilar características y similitudes entre productos.
  • Vectores de perfil de usuario. Los vectores de perfil de usuario representan las preferencias, acciones o rasgos de un usuario. Se utilizan en segmentación de usuarios, sistemas de recomendación personalizados y publicidad dirigida para recopilar datos específicos del usuario.

¿Cómo se crean las incrustaciones de vectores?

Las incrustaciones de vectores se generan mediante un enfoque de aprendizaje automático que entrena un modelo para convertir datos en vectores numéricos. Normalmente, una profunda red neuronal convolucional se utiliza para entrenar este tipo de modelos. Las incrustaciones resultantes suelen ser densas (todos los valores son distintos de cero) y de alta dimensión (hasta 2,000 dimensiones). Modelos populares como Word2Vec, GLoVE y BERTI convierta palabras, frases o párrafos en incrustaciones vectoriales para datos de texto.

Los siguientes pasos comúnmente están involucrados en el proceso:

  1. Reúna un gran conjunto de datos. Se reúne un conjunto de datos que captura la categoría de datos específica para la que están destinadas las incrustaciones, ya sea texto o imágenes.
  2. Preprocesar los datos. Dependiendo del tipo de datos, la limpieza, preparación y Preprocesamiento de datos Implica eliminar ruido, cambiar el tamaño de las fotografías, normalizar el texto y realizar operaciones adicionales.
  3. Entrenar a la modelo. Para identificar vínculos y patrones en los datos, el modelo se entrena utilizando el conjunto de datos. Para reducir la disparidad entre los vectores objetivo y predicho, los parámetros del modelo previamente entrenado se cambian durante la fase de entrenamiento.
  4. Genera incrustaciones de vectores. Después del entrenamiento, el modelo puede convertir datos nuevos en vectores numéricos, presentando una representación estructurada y significativa que encapsula de manera efectiva la información semántica de los datos originales.

Se pueden realizar incrustaciones de vectores para una amplia gama de tipos de datos, incluidos datos de series temporales, texto, imágenes, audio, modelos tridimensionales (3D) y vídeo. Debido a la forma en que se forman las incrustaciones, los objetos con semántica similar tendrán vectores en el espacio vectorial cercanos entre sí.

¿Dónde se almacenan las incrustaciones de vectores?

Las incrustaciones de vectores se almacenan dentro de bases de datos especializadas conocidas como bases de datos vectoriales. Estas bases de datos son representaciones matemáticas de alta dimensión de características de datos. A diferencia de las bases de datos escalares estándar o los índices vectoriales independientes, las bases de datos vectoriales proporcionan eficiencias específicas para almacenar y recuperar incrustaciones de vectores a escala. Ofrecen la capacidad de almacenar y recuperar eficazmente grandes cantidades de datos para funciones de búsqueda de vectores.

Las bases de datos vectoriales incluyen varios componentes clave, incluido el rendimiento y Tolerancia a fallos. Para garantizar que las bases de datos vectoriales sean tolerantes a fallos, la replicación y sharding Se utilizan técnicas. La replicación es el proceso de producir copias de datos en numerosos nodos, mientras que la fragmentación es el proceso de dividir datos en varios nodos. Esto proporciona tolerancia a fallos y rendimiento ininterrumpido incluso si falla un nodo.

Las bases de datos vectoriales son efectivas en el aprendizaje automático y la inteligencia artificial (AI) aplicaciones, ya que se especializan en gestionar datos no estructurados y semiestructurados.

Aplicaciones de incrustaciones de vectores

Existen varios usos para la incrustación de vectores en diferentes industrias. Las aplicaciones comunes de incrustaciones de vectores incluyen las siguientes:

  • Sistemas de recomendación. Las incorporaciones de vectores desempeñan un papel crucial en los sistemas de recomendación de los gigantes de la industria, incluidos Netflix y Amazon. Estas incorporaciones permiten a las organizaciones calcular las similitudes entre usuarios y elementos, traduciendo las preferencias del usuario y las características de los elementos en vectores. Este proceso ayuda a entregar sugerencias personalizadas adaptadas a los gustos individuales de los usuarios.
  • Los motores de búsqueda. Los motores de búsqueda Utilice incrustaciones de vectores ampliamente para mejorar la efectividad y eficiencia de la recuperación de información. Dado que las incrustaciones de vectores van más allá de la concordancia de palabras clave, ayudan a los motores de búsqueda a interpretar el significado de palabras y oraciones. Incluso cuando las frases exactas no coinciden, los motores de búsqueda aún pueden encontrar y recuperar documentos u otra información contextualmente relevante modelando palabras como vectores en un espacio semántico.
  • Chatbots y sistemas de respuesta a preguntas. Ayuda para incrustaciones de vectores Chatbots y sistemas generativos de respuesta a preguntas basados ​​en IA. en la comprensión y producción de respuestas similares a las humanas. Al capturar el contexto y el significado del texto, las incrustaciones ayudan a los chatbots a responder a las consultas de los usuarios de una manera lógica y significativa. Por ejemplo, modelos de lenguaje y chatbots de IA, incluidos GPT-4 y procesadores de imagen como Dall-E2, han ganado una inmensa popularidad por producir conversaciones y respuestas similares a las humanas.
  • Detección de fraude y detección de valores atípicos. Las incrustaciones de vectores se pueden utilizar para detectar anomalías o actividades fraudulentas mediante la evaluación de la similitud entre vectores. Los patrones poco comunes se identifican evaluando la distancia entre incrustaciones y señalando outliers.
  • Preprocesamiento de datos. Para transformar datos no procesados ​​en un formato apropiado para ML y modelos de aprendizaje profundo, las incorporaciones se utilizan en actividades de preprocesamiento de datos. Las incrustaciones de palabras, por ejemplo, se utilizan para representar palabras como vectores, lo que facilita el procesamiento y análisis de datos de texto.
  • Aprendizaje de una sola vez y de cero. El aprendizaje de una sola vez y de cero son enfoques de incorporación de vectores que ayudan a los modelos de aprendizaje automático a predecir los resultados de nuevas clases, incluso cuando se les suministran datos etiquetados limitados. Los modelos pueden generalizar y generar predicciones incluso con una pequeña cantidad de instancias de entrenamiento utilizando la información semántica incluida en las incrustaciones.
  • Similitud semántica y agrupamiento. Las incrustaciones de vectores facilitan medir qué tan similares son dos objetos en un entorno de alta dimensión. Esto hace posible realizar operaciones como calcular la similitud semántica, agrupar y ensamblar elementos relacionados en función de sus incrustaciones.
Image showing vector embedding in chatbots.
Las incrustaciones permiten a los chatbots responder a las consultas de los usuarios de una manera lógica y significativa.

¿Qué tipo de cosas se pueden incrustar?

Se pueden representar muchos tipos diferentes de objetos y tipos de datos mediante incrustaciones de vectores. Los tipos comunes de cosas que se pueden incrustar incluyen los siguientes:

Texto

Las palabras, frases o documentos se representan como vectores mediante incrustaciones de texto. Las tareas de PNL, incluido el análisis de sentimientos, la búsqueda semántica y la traducción de idiomas, utilizan con frecuencia incrustaciones.

Universal Sentence Encoder es uno de los modelos de incrustación de código abierto más populares y puede codificar de manera eficiente oraciones individuales y fragmentos de texto completos.

Imágenes

Las incrustaciones de imágenes capturan y representan características visuales de imágenes como vectores. Sus casos de uso incluyen identificación de objetos, clasificación de imágenes y búsqueda inversa de imágenes, a menudo conocida como buscar por imagen.

Las incrustaciones de imágenes también se pueden utilizar para habilitar capacidades de búsqueda visual. Al extraer incrustaciones de imágenes de bases de datos, un usuario puede comparar las incrustaciones de una imagen de consulta con las incrustaciones de las fotos de la base de datos para localizar coincidencias visualmente similares. Esto se usa comúnmente en comercio electrónico aplicaciones, donde los usuarios pueden buscar artículos cargando fotos de productos similares.

Google Lens es una aplicación de búsqueda de imágenes que compara fotografías de cámaras con productos visualmente similares. Por ejemplo, se puede utilizar para combinar productos de Internet que sean similares a un par de zapatillas o una prenda de vestir.

Audio

Las incrustaciones de audio son representaciones vectoriales de señales de audio. Las incorporaciones de vectores capturan propiedades auditivas, lo que permite que los sistemas interpreten los datos de audio de manera más efectiva. Por ejemplo, las incrustaciones de audio se pueden utilizar para recomendaciones musicales, clasificaciones de géneros, búsquedas de similitudes de audio, reconocimiento de voz y verificación de hablantes.

Si bien la IA se utiliza para varios tipos de incrustaciones, la IA de audio ha recibido menos atención que la IA de texto o imágenes. Google Speech-to-Text y OpenAI Whisper son aplicaciones de integración de audio utilizadas en organizaciones como centros de llamadas, tecnología médica, accesibilidad y aplicaciones de voz a texto.

Gráficos

Las incrustaciones de gráficos utilizan vectores para representar nodos y aristas en un gráfico. Ellos son utilizado en tareas relacionadas con el análisis de gráficos como predicción de enlaces, reconocimiento comunitario y sistemas de recomendación.

Cada nodo representa una entidad, como una persona, una página web o un producto y cada borde simboliza el vínculo o conexión que existe entre esas entidades. Estas incrustaciones de vectores pueden lograr de todo, desde recomendar amigos en redes sociales para detectar problemas de ciberseguridad.

Datos de series temporales y modelos 3D.

Las incorporaciones de series temporales capturan patrones temporales en datos secuenciales. Se usan en Internet de las cosas aplicaciones, datos financieros y datos de sensores para actividades que incluyen detección de anomalías, predicción de series de tiempo e identificación de patrones.

Los aspectos geométricos de los objetos 3D también se pueden expresar como vectores utilizando incrustaciones de modelos 3D. Se aplican en tareas como reconstrucción 3D, detección de objetos y coincidencia de formas.

Moléculas

Las incrustaciones de moléculas representan compuestos químicos como vectores. Se utilizan en el descubrimiento de fármacos, la búsqueda de similitudes químicas y la predicción de propiedades moleculares. Estas incorporaciones también se utilizan en química computacional y desarrollo de fármacos para capturar las características estructurales y químicas de las moléculas.

Image showing vector embeddings of objects.
Los conjuntos estructurados de números se utilizan como incrustaciones de vectores para objetos.

¿Qué es Word2Vec?

Word2Vec es un enfoque popular de incrustación de vectores de palabras de PNL. Creado por Google, Word2Vec está diseñado para representar palabras como vectores densos en un espacio vectorial continuo. Puede reconocer el contexto de una palabra en un documento y se usa comúnmente en tareas de PNL como categorización de texto, análisis de sentimientos y máquina traductora para ayudar a las máquinas a comprender y procesar el lenguaje natural de manera más efectiva.

Word2Vec se basa en el principio de que las palabras con significados similares deben tener representaciones vectoriales similares, lo que permite al modelo capturar vínculos semánticos entre palabras.

Word2Vec tiene dos arquitecturas básicas, CBOW (Bolsa continua de palabras) y Skip-Gram:

  • CBOW. Esta arquitectura predice la palabra de destino en función de las palabras de contexto. Al modelo se le da un contexto o palabras circundantes y se le asigna la tarea de predecir la palabra objetivo en el centro. Por ejemplo, en la oración “El veloz zorro marrón salta sobre el perro perezoso”, CBOW usa el contexto o las palabras circundantes para predecir zorro como palabra objetivo.
  • Saltar gramo. A diferencia de CBOW, la arquitectura Skip-Gram predice las palabras de contexto en función de la palabra de destino. Al modelo se le asigna una palabra objetivo y se le pide que prediga los términos del contexto circundante. Tomando la oración de ejemplo anterior de "El veloz zorro marrón salta sobre el perro perezoso", skip-gram tomará la palabra objetivo zorro y descubra palabras de contexto como "El", "rápido", "marrón", "salta", "sobre", "el", "perezoso" y "perro".

Una amplia gama de empresas está empezando a adoptar la IA generativa, lo que demuestra su potencial disruptivo. Examinar cómo se está desarrollando la IA generativa, qué dirección tomará en el futuro y los desafíos que puedan surgir.

punto_img

Información más reciente

punto_img