Khám phá AI sáng tạo nâng cao | VAE có điều kiện

Giới thiệu

Chào mừng bạn đến với bài viết này, nơi chúng ta sẽ khám phá thế giới thú vị của Generative AI. Chúng tôi sẽ chủ yếu tập trung vào Bộ mã hóa tự động biến đổi có điều kiện hoặc CVAE, đây giống như cấp độ nghệ thuật AI tiếp theo, kết hợp các điểm mạnh của Bộ mã hóa tự động biến đổi (VAE) với khả năng làm theo hướng dẫn cụ thể, cho phép chúng tôi kiểm soát tinh chỉnh việc tạo hình ảnh. Trong suốt bài viết này, chúng ta sẽ đi sâu vào CVAE, đồng thời xem cách thức và lý do chúng có thể được sử dụng trong nhiều tình huống thực tế khác nhau, đồng thời thậm chí cung cấp cho bạn một số ví dụ mã dễ hiểu để thể hiện tiềm năng của chúng.

VAE có điều kiện | AI sáng tạo — Nguồn: IBM

Bài báo này đã được xuất bản như một phần của Blogathon Khoa học Dữ liệu.

Mục lục

Tìm hiểu về Bộ mã hóa tự động biến đổi (VAE)

Trước khi đi sâu vào CVAE, hãy tập trung vào các nguyên tắc cơ bản của VAE. VAE là một loại mô hình tổng quát kết hợp bộ mã hóa và mạng bộ giải mã. Chúng được sử dụng để tìm hiểu cấu trúc cơ bản của dữ liệu và tạo ra các mẫu mới.

Hiểu bộ mã hóa tự động biến đổi | VAE có điều kiện | AI sáng tạo

Chắc chắn rồi, hãy sử dụng một ví dụ đơn giản liên quan đến sở thích cà phê để giải thích Bộ mã hóa tự động biến đổi (VAE)

Hãy tưởng tượng bạn muốn thể hiện sở thích về cà phê của mọi người trong văn phòng của mình:

Mã hoá: Mỗi người tóm tắt lựa chọn cà phê của họ (đen, latte, cappuccino) bằng một vài từ (ví dụ: cứng, kem, nhẹ).
Biến thể: Hiểu rằng ngay cả trong cùng một lựa chọn (ví dụ: latte), vẫn có những khác biệt về sữa, độ ngọt, v.v.
Không gian tiềm ẩn: Tạo ra một không gian linh hoạt nơi sở thích về cà phê có thể thay đổi.
Bộ giải mã: Sử dụng những bản tóm tắt này để pha cà phê cho đồng nghiệp, với một chút thay đổi, tôn trọng sở thích của họ.
Năng lượng sáng tạo: Có thể tạo ra những phong cách cà phê mới phù hợp với sở thích cá nhân nhưng không phải là bản sao chính xác.

VAE hoạt động tương tự, tìm hiểu các tính năng cốt lõi và các biến thể trong dữ liệu để tạo ra dữ liệu mới, tương tự với những khác biệt nhỏ.

Đây là cách triển khai Bộ mã hóa tự động biến đổi (VAE) đơn giản bằng cách sử dụng Python và TensorFlow/Keras. Ví dụ này sử dụng tập dữ liệu MNIST để đơn giản nhưng bạn có thể điều chỉnh nó cho phù hợp với các loại dữ liệu khác.

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
import numpy as np # Load and preprocess the MNIST dataset
(x_train, _), (x_test, _) = keras.datasets.mnist.load_data()
x_train = x_train.astype('float32') / 255.0
x_test = x_test.astype('float32') / 255.0 # Define the VAE model
latent_dim = 2 # Encoder
encoder_inputs = keras.Input(shape=(28, 28))
x = layers.Flatten()(encoder_inputs)
x = layers.Dense(256, activation='relu')(x)
z_mean = layers.Dense(latent_dim)(x)
z_log_var = layers.Dense(latent_dim)(x) # Reparameterization trick
def sampling(args): z_mean, z_log_var = args epsilon = tf.keras.backend.random_normal(shape=(tf.shape(z_mean)[0], latent_dim)) return z_mean + tf.exp(0.5 * z_log_var) * epsilon z = layers.Lambda(sampling)([z_mean, z_log_var]) # Decoder
decoder_inputs = keras.Input(shape=(latent_dim,))
x = layers.Dense(256, activation='relu')(decoder_inputs)
x = layers.Dense(28 * 28, activation='sigmoid')(x)
decoder_outputs = layers.Reshape((28, 28))(x) # Define the VAE model
encoder = keras.Model(encoder_inputs, [z_mean, z_log_var, z], name='encoder')
decoder = keras.Model(decoder_inputs, decoder_outputs, name='decoder')
vae_outputs = decoder(encoder(encoder_inputs)[2])
vae = keras.Model(encoder_inputs, vae_outputs, name='vae') # Loss function
def vae_loss(x, x_decoded_mean, z_log_var, z_mean): x = tf.keras.backend.flatten(x) x_decoded_mean = tf.keras.backend.flatten(x_decoded_mean) xent_loss = keras.losses.binary_crossentropy(x, x_decoded_mean) kl_loss = -0.5 * tf.reduce_mean(1 + z_log_var - tf.square(z_mean) - tf.exp(z_log_var)) return xent_loss + kl_loss vae.compile(optimizer='adam', loss=vae_loss)
vae.fit(x_train, x_train, epochs=10, batch_size=32, validation_data=(x_test, x_test))

Giải thích về Bộ mã hóa tự động biến thiên có điều kiện (CVAE)

CVAE mở rộng khả năng của VAE bằng cách đưa vào các đầu vào có điều kiện. CVAE có thể tạo mẫu dữ liệu dựa trên các điều kiện hoặc thông tin cụ thể. Ví dụ: bạn có thể tạo hình ảnh của mèo hoặc chó có điều kiện bằng cách cung cấp cho mô hình nhãn lớp mong muốn làm đầu vào.

Hãy để chúng tôi hiểu bằng cách sử dụng một ví dụ thời gian thực.

Mua sắm trực tuyến với CVAE Hãy tưởng tượng bạn đang mua giày thể thao trực tuyến:

VAE cơ bản (không có điều kiện): Trang web hiển thị cho bạn những đôi giày thể thao ngẫu nhiên.
CVAE (có điều kiện): Bạn chọn tùy chọn của mình – màu sắc (đỏ), kích thước (10) và kiểu dáng (đang chạy).
Mã hoá: Trang web hiểu lựa chọn của bạn và lọc giày thể thao dựa trên các điều kiện này.
Biến thể: Nhận thấy rằng ngay cả trong điều kiện của bạn, vẫn có những biến thể (các sắc thái khác nhau của màu đỏ, kiểu giày chạy bộ), nó sẽ xem xét những điều đó.
Không gian tiềm ẩn: Nó tạo ra một “không gian tùy chỉnh giày thể thao”, nơi cho phép có nhiều biến thể.
Bộ giải mã: Sử dụng các điều kiện được cá nhân hóa của bạn, nó sẽ hiển thị cho bạn những đôi giày thể thao phù hợp nhất với sở thích của bạn.

CVAE, giống như các trang web mua sắm trực tuyến, sử dụng các điều kiện cụ thể (tùy chọn của bạn) để tạo dữ liệu tùy chỉnh (tùy chọn giày thể thao) phù hợp chặt chẽ với lựa chọn của bạn.

Tiếp tục từ ví dụ về Bộ mã hóa tự động biến đổi (VAE), bạn có thể triển khai Bộ mã hóa tự động biến đổi có điều kiện (CVAE). Trong ví dụ này, chúng ta sẽ xem xét tập dữ liệu MNIST và tạo các chữ số có điều kiện dựa trên nhãn lớp.

# Define the CVAE model
encoder = keras.Model([encoder_inputs, label], [z_mean, z_log_var, z], name='encoder')
decoder = keras.Model([decoder_inputs, label], decoder_outputs, name='decoder')
cvae_outputs = decoder([encoder([encoder_inputs, label])[2], label])
cvae = keras.Model([encoder_inputs, label], cvae_outputs, name='cvae')

Bộ mã hóa | Bộ giải mã — Nguồn: ResearchGate

Sự khác biệt giữa VAE và CVAE

UAE

VAE giống như những nghệ sĩ sáng tạo nghệ thuật nhưng có chút ngẫu nhiên.
Họ học cách tạo ra các biến thể dữ liệu đa dạng mà không cần bất kỳ hướng dẫn cụ thể nào.
Hữu ích khi tạo mẫu dữ liệu mới không có điều kiện, chẳng hạn như tác phẩm nghệ thuật ngẫu nhiên.

CVAE

CVAE giống như những nghệ sĩ có thể làm theo những yêu cầu cụ thể
Họ tạo ra dữ liệu dựa trên các điều kiện hoặc hướng dẫn nhất định
Hữu ích cho các tác vụ mà bạn muốn kiểm soát chính xác những gì được tạo ra, chẳng hạn như biến ngựa thành ngựa vằn trong khi vẫn giữ được các tính năng chính

Triển khai CVAE: Ví dụ về mã

Hãy cùng khám phá một ví dụ mã Python đơn giản bằng cách sử dụng TensorFlow và Keras để triển khai CVAE nhằm tạo các chữ số viết tay

# Import necessary libraries
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.models import Model # Define the CVAE model architecture
latent_dim = 2
input_shape = (28, 28, 1)
num_classes = 10 # Encoder network
encoder_inputs = keras.Input(shape=input_shape)
x = layers.Conv2D(32, 3, padding='same', activation='relu')(encoder_inputs)
x = layers.Flatten()(x)
x = layers.Dense(64, activation='relu')(x) # Conditional input
label = keras.Input(shape=(num_classes,))
x = layers.concatenate([x, label]) # Variational layers
z_mean = layers.Dense(latent_dim)(x)
z_log_var = layers.Dense(latent_dim)(x) # Reparameterization trick
def sampling(args): z_mean, z_log_var = args epsilon = tf.keras.backend.random_normal(shape=(tf.shape(z_mean)[0], latent_dim)) return z_mean + tf.exp(0.5 * z_log_var) * epsilon z = layers.Lambda(sampling)([z_mean, z_log_var]) # Decoder network
decoder_inputs = layers.Input(shape=(latent_dim,))
x = layers.concatenate([decoder_inputs, label])
x = layers.Dense(64, activation='relu')(x)
x = layers.Dense(28 * 28 * 1, activation='sigmoid')(x)
x = layers.Reshape((28, 28, 1))(x) # Create the models
encoder = Model([encoder_inputs, label], [z_mean, z_log_var, z], name='encoder')
decoder = Model([decoder_inputs, label], x, name='decoder')
cvae = Model([encoder_inputs, label], decoder([z, label]), name='cvae')
#import csv

Mã này cung cấp cấu trúc cơ bản cho mô hình CVAE. Để đào tạo và tạo hình ảnh, bạn sẽ cần một tập dữ liệu thích hợp và điều chỉnh thêm.

Ứng dụng của CVAE

CVAE có ứng dụng trong nhiều lĩnh vực khác nhau, bao gồm:

Dịch từ hình ảnh sang hình ảnh: Chúng có thể được sử dụng để dịch hình ảnh từ miền này sang miền khác mà vẫn giữ được nội dung. Hãy tưởng tượng bạn có một bức ảnh về một con ngựa và bạn muốn biến nó thành một con ngựa vằn mà vẫn giữ được những nét chính. CVAE có thể làm điều đó:

#import csv# Translate horse image to a zebra image
translated_image = cvae_generate(horse_image, target="zebra")

Chuyển phong cách: CVAE cho phép chuyển phong cách nghệ thuật giữa các hình ảnh. Giả sử bạn có một bức tranh và muốn nó trông giống như một bức tranh nổi tiếng, chẳng hạn như “Đêm đầy sao” của Van Gogh. CVAE có thể áp dụng phong cách đó:

#import csv
# Apply "Starry Night" style to your photo
styled_image = cvae_apply_style(your_photo, style="Starry Night")

Phát hiện bất thường : Chúng có hiệu quả trong việc phát hiện sự bất thường trong dữ liệu. Bạn có một tập dữ liệu về nhịp tim bình thường và bạn muốn phát hiện nhịp tim không đều. CVAE có thể phát hiện những điểm bất thường:

# Detect irregular heartbeats
is_anomaly = cvae_detect_anomaly(heartbeat_data)

Nghiên cứu chế tạo thuốc : CVAE giúp tạo ra các cấu trúc phân tử để khám phá thuốc. Giả sử bạn cần tìm các phân tử mới cho một loại thuốc cứu sống. CVAE có thể giúp thiết kế cấu trúc phân tử:

#import csv# Generate potential drug molecules
drug_molecule = cvae_generate_molecule("anti-cancer")

Các ứng dụng này cho thấy cách CVAE có thể biến đổi hình ảnh, áp dụng phong cách nghệ thuật, phát hiện điểm bất thường và hỗ trợ các nhiệm vụ quan trọng như khám phá thuốc, trong khi vẫn giữ cho dữ liệu cơ bản có ý nghĩa và hữu ích.

Thách thức và xu hướng tương lai

Những thách thức

Thu gọn chế độ: Hãy nghĩ về CVAE giống như một họa sĩ đôi khi quên sử dụng hết màu sắc của mình. Việc thu gọn chế độ xảy ra khi CVAE tiếp tục sử dụng cùng một màu (biểu diễn) cho những thứ khác nhau. Vì vậy, họ có thể sơn tất cả các loài động vật chỉ bằng một màu, làm mất đi sự đa dạng.
Tạo hình ảnh có độ phân giải cao: Hãy tưởng tượng yêu cầu một nghệ sĩ vẽ một bức tranh tường lớn, chi tiết trên một tấm vải nhỏ. Đó là thử thách. CVAE phải đối mặt với thách thức tương tự khi cố gắng tạo ra những bức ảnh lớn, có độ chi tiết cao.

Mục tiêu trong tương lai

Các nhà nghiên cứu muốn làm cho CVAE tốt hơn:

Tránh thu gọn chế độ: Họ đang nỗ lực đảm bảo nghệ sĩ (CVAE) sử dụng tất cả màu sắc (hình ảnh thể hiện) mà họ có, tạo ra kết quả đa dạng và chính xác hơn.
Nghệ thuật độ phân giải cao: Họ nhằm mục đích giúp nghệ sĩ (CVAE) vẽ những bức tranh tường (hình ảnh) lớn hơn và chi tiết hơn bằng cách cải tiến các kỹ thuật được sử dụng. Bằng cách này, chúng ta có thể có được những tác phẩm nghệ thuật ấn tượng, chất lượng cao từ CVAE.

Kết luận

Bộ mã hóa tự động biến đổi có điều kiện thể hiện sự phát triển đột phá trong AI sáng tạo. Khả năng tạo dữ liệu dựa trên các điều kiện cụ thể của họ mở ra vô số khả năng trong các ứng dụng khác nhau. Bằng cách hiểu các nguyên tắc cơ bản và triển khai chúng một cách hiệu quả, chúng tôi có thể khai thác tiềm năng của CVAE để tạo ra hình ảnh nâng cao và hơn thế nữa.

Chìa khóa chính

Tiến bộ AI sáng tạo: Cho phép tạo hình ảnh với đầu vào có điều kiện.
Tương tự cà phê đơn giản: Hãy nghĩ về VAE giống như việc tóm tắt sở thích về cà phê, cho phép các biến thể trong khi vẫn giữ được bản chất.
Mã VAE cơ bản: Một ví dụ mã Python thân thiện với người mới bắt đầu về VAE được cung cấp bằng cách sử dụng bộ dữ liệu MNIST.
Thực hiện CVAE: Bài viết bao gồm một đoạn mã để triển khai CVAE cho việc tạo hình ảnh có điều kiện.
Ví dụ mua sắm trực tuyến: Một sự tương tự với việc mua sắm giày thể thao trực tuyến minh họa khả năng tùy chỉnh dữ liệu dựa trên các điều kiện của CVAE.

Những câu hỏi thường gặp

Q1. VAE có điều kiện khác với VAE như thế nào?

A. Trong khi VAE tạo dữ liệu với một số tính ngẫu nhiên thì CVAE tạo dữ liệu với các điều kiện hoặc ràng buộc cụ thể. VAE giống như những nghệ sĩ tạo ra tác phẩm nghệ thuật ngẫu nhiên.

Q2. Vai trò của VAE có điều kiện trong lĩnh vực AI và học máy là gì?

A. Bộ mã hóa tự động biến thiên có điều kiện (CVAE) rất hữu ích trong thế giới AI. Họ có thể tạo dữ liệu tùy chỉnh dựa trên các điều kiện cụ thể, mở ra cánh cửa cho nhiều ứng dụng.

Câu 3. Thư viện nào là các mô hình nguồn mở hoặc được đào tạo trước cho CVAE?

Đáp. Có, bạn có thể tìm thấy các thư viện nguồn mở như TensorFlow và PyTorch cung cấp các công cụ để xây dựng CVAE. Một số mô hình và ví dụ mã được đào tạo trước có sẵn trong các thư viện này để khởi động dự án của bạn.

Q4. Có sẵn các mô hình CVAE được đào tạo trước cho các nhiệm vụ cụ thể không?

A. Các mô hình CVAE được đào tạo trước ít phổ biến hơn so với các kiến trúc khác như Mạng thần kinh chuyển đổi (CNN). Tuy nhiên, bạn có thể tìm thấy các VAE được đào tạo trước mà bạn có thể điều chỉnh cho phù hợp với nhiệm vụ của mình bằng cách tinh chỉnh mô hình.

Phương tiện hiển thị trong bài viết này không thuộc sở hữu của Analytics Vidhya và được sử dụng theo quyết định riêng của Tác giả.

Sản phẩm liên quan

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Ô tô / Xe điện, Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
ChartPrime. Nâng cao trò chơi giao dịch của bạn với ChartPrime. Truy cập Tại đây.
BlockOffsets. Hiện đại hóa quyền sở hữu bù đắp môi trường. Truy cập Tại đây.
nguồn: https://www.analyticsvidhya.com/blog/2023/09/generative-ai-conditional-vaes/

Trí thông minh dữ liệu tạo