Logo Zephyrnet

Ghi chú giới thiệu về Học sâu

Ngày:

Bài báo này đã được xuất bản như một phần của Blogathon Khoa học Dữ liệu.

Giới thiệu về Deep Learning

Trí tuệ nhân tạo, học sâu, học máy - bất cứ điều gì bạn đang làm nếu bạn không hiểu nó - hãy học nó. Vì nếu không bạn sẽ trở thành khủng long trong vòng 3 năm.

-Mark Cuba

Tuyên bố này của Mark Cuban nghe có vẻ quyết liệt - nhưng thông điệp của nó là đúng! Chúng ta đang ở giữa một cuộc cách mạng - một cuộc cách mạng do lớn Dữ liệu khổng lồ và rất nhiều sức mạnh tính toán.

Trong một phút, hãy nghĩ xem một người sẽ cảm thấy như thế nào vào đầu thế kỷ 20 nếu họ không hiểu về điện. Bạn đã quen với việc làm mọi thứ theo một cách thức cụ thể trong nhiều lứa tuổi và đột nhiên mọi thứ xung quanh bạn bắt đầu thay đổi. Những thứ vốn cần nhiều người nay có thể thực hiện chỉ với một người và điện. Ngày nay, chúng ta đang trải qua một hành trình tương tự với học máy và học sâu.

Vì vậy, nếu bạn chưa khám phá hoặc hiểu sức mạnh của học sâu - bạn nên bắt đầu nó ngay hôm nay. Tôi đã viết bài viết này để giúp bạn hiểu các thuật ngữ phổ biến được sử dụng trong học sâu.

Ai nên đọc bài viết này?

Nếu bạn là người muốn tìm hiểu hoặc hiểu sâu về học sâu, bài viết này là dành cho bạn. Trong bài viết này, tôi sẽ giải thích các thuật ngữ khác nhau được sử dụng phổ biến trong học sâu.

Nếu bạn đang thắc mắc tại sao tôi viết bài này - tôi viết bài này vì tôi muốn bạn bắt đầu hành trình học sâu của mình mà không gặp rắc rối hoặc không bị đe dọa. Khi tôi lần đầu tiên bắt đầu đọc về học sâu, có một số thuật ngữ tôi đã nghe về, nhưng thật đáng sợ khi tôi cố gắng hiểu chúng. Có một số từ được lặp lại khi chúng ta bắt đầu đọc về bất kỳ ứng dụng học sâu nào.

Trong bài viết này, tôi đã tạo một thứ giống như một từ điển học sâu cho bạn mà bạn có thể tham khảo bất cứ khi nào bạn cần định nghĩa cơ bản của các thuật ngữ phổ biến nhất được sử dụng. Tôi hy vọng sau bài viết này, những thuật ngữ này sẽ không ám ảnh bạn nữa.

Các điều khoản liên quan đến Học sâu

Để giúp bạn hiểu các thuật ngữ khác nhau, tôi đã chia chúng thành 3 nhóm khác nhau. Nếu bạn đang tìm một thuật ngữ cụ thể, bạn có thể bỏ qua phần đó. Nếu bạn là người mới sử dụng miền, tôi khuyên bạn nên xem qua chúng theo thứ tự mà tôi đã viết.

  1. Kiến thức cơ bản về mạng thần kinh
    • Các chức năng kích hoạt phổ biến
  2. Mạng lưới thần kinh chuyển đổi
  3. Mạng thần kinh tái diễn

Kiến thức cơ bản về mạng thần kinh

1) Tế bào thần kinh- Giống như nơ-ron tạo thành phần cơ bản của não chúng ta, nơ-ron tạo nên cấu trúc cơ bản của mạng nơ-ron. Chỉ nghĩ về những gì chúng ta làm khi nhận được thông tin mới. Khi chúng tôi nhận được thông tin, chúng tôi xử lý nó và sau đó chúng tôi tạo ra một đầu ra. Tương tự, trong trường hợp của mạng nơ-ron, một nơ-ron nhận đầu vào, xử lý nó và tạo ra đầu ra được gửi đến các nơ-ron khác để xử lý thêm hoặc là đầu ra cuối cùng.

2) Trọng lượng - Khi đầu vào đi vào tế bào thần kinh, nó sẽ được nhân với một trọng số. Ví dụ, nếu một nơ-ron có hai đầu vào, thì mỗi đầu vào sẽ có một trọng số liên quan được gán cho nó. Chúng tôi khởi tạo các trọng lượng một cách ngẫu nhiên và các trọng số này được cập nhật trong quá trình đào tạo mô hình. Mạng nơ-ron sau khi huấn luyện sẽ gán trọng số cao hơn cho đầu vào mà nó coi là quan trọng hơn so với những mạng được coi là ít quan trọng hơn. Trọng số bằng XNUMX biểu thị rằng đối tượng địa lý cụ thể là không đáng kể.

Giả sử đầu vào là a và trọng số được liên kết là W1. Sau đó, sau khi đi qua nút, đầu vào sẽ trở thành * W1

Trọng số - học sâu

3) Sự thiên vị - Ngoài trọng số, một thành phần tuyến tính khác được áp dụng cho đầu vào, được gọi là độ lệch. Nó được thêm vào kết quả của phép nhân trọng lượng vào đầu vào. Về cơ bản, thiên vị được thêm vào để thay đổi phạm vi của đầu vào nhân trọng số. Sau khi thêm thiên vị, kết quả sẽ giống như thiên vị * W1 +. Đây là thành phần tuyến tính cuối cùng của phép biến đổi đầu vào.

4) Chức năng kích hoạt - Khi thành phần tuyến tính được áp dụng cho đầu vào, một hàm phi tuyến tính sẽ được áp dụng cho nó. Điều này được thực hiện bằng cách áp dụng hàm kích hoạt cho tổ hợp tuyến tính. Chức năng kích hoạt chuyển các tín hiệu đầu vào thành tín hiệu đầu ra. Đầu ra sau khi áp dụng hàm kích hoạt sẽ giống như f (a * W1 + b) trong đó f () là hàm kích hoạt.

Trong sơ đồ dưới đây, chúng ta có đầu vào “n” được cho là X1 đến Xn và các trọng số tương ứng Wk1 đến Wkn. Chúng tôi có một thiên vị được đưa ra là bk. Các trọng số đầu tiên được nhân với đầu vào tương ứng của chúng và sau đó được cộng với nhau cùng với độ chệch. Gọi cái này là u.

u = ∑w * x + b

Hàm kích hoạt được áp dụng cho u tức là f (u) và chúng tôi nhận đầu ra cuối cùng từ nơron là yk = f (u)

Chức năng kích hoạt - học sâu

Các chức năng kích hoạt thường được áp dụng

Các chức năng kích hoạt được áp dụng phổ biến nhất là - Sigmoid, ReLU và softmax

a) Sigmoid - Một trong những chức năng kích hoạt phổ biến nhất được sử dụng là Sigmoid. Nó được định nghĩa là:

sigmoid (x) = 1 / (1 + e-x)

Chức năng kích hoạt - học sâu

Nguồn: Wikipedia

Phép biến đổi sigmoid tạo ra một dải giá trị mượt mà hơn từ 0 đến 1. Chúng ta có thể cần quan sát những thay đổi trong đầu ra với những thay đổi nhỏ trong giá trị đầu vào. Các đường cong mượt mà cho phép chúng tôi làm điều đó và do đó được ưa thích hơn các chức năng vượt mức.

b) ReLU (Đơn vị tuyến tính chỉnh lưu) - Thay vì sigmoid, các mạng gần đây thích sử dụng chức năng kích hoạt ReLu cho các lớp ẩn. Hàm được định nghĩa là:

f (x) = max (x, 0).

Đầu ra của hàm là X khi X> 0 và 0 đối với X <= 0. Hàm có dạng như sau:

Đơn vị tuyến tính được chỉnh lưu - học sâu

nguồn: cs231n

Lợi ích chính của việc sử dụng ReLU là nó có giá trị đạo hàm không đổi cho tất cả các đầu vào lớn hơn 0. Giá trị đạo hàm không đổi giúp mạng đào tạo nhanh hơn.

c) Softmax - Các chức năng kích hoạt Softmax thường được sử dụng trong lớp đầu ra cho các bài toán phân loại. Nó tương tự như hàm sigmoid, với sự khác biệt duy nhất là các kết quả đầu ra được chuẩn hóa thành tổng bằng 1. Hàm sigmoid sẽ hoạt động trong trường hợp chúng ta có đầu ra nhị phân, tuy nhiên trong trường hợp chúng ta gặp vấn đề về phân loại đa lớp, softmax sẽ làm cho nó thực sự dễ dàng để gán các giá trị cho mỗi lớp mà có thể dễ dàng hiểu là xác suất.

Rất dễ dàng để thấy nó theo cách này - Giả sử bạn đang cố gắng xác định một số 6 cũng có thể trông giống như số 8. Hàm sẽ gán các giá trị cho mỗi số như bên dưới. Chúng ta có thể dễ dàng thấy rằng xác suất cao nhất được gán cho 6, với xác suất cao nhất tiếp theo được gán cho 8, v.v.

softmax - học sâu

5) Mạng thần kinh - Mạng thần kinh tạo thành xương sống của học sâu. Mục tiêu của mạng nơron là tìm giá trị gần đúng của một hàm chưa biết. Nó được hình thành bởi các tế bào thần kinh liên kết với nhau. Các nơ-ron này có trọng số và độ lệch được cập nhật trong quá trình huấn luyện mạng tùy thuộc vào lỗi. Hàm kích hoạt đặt một phép biến đổi phi tuyến thành kết hợp tuyến tính, sau đó tạo ra đầu ra. Sự kết hợp của các tế bào thần kinh được kích hoạt tạo ra đầu ra.

Mạng nơ-ron được “Liping Yang” định nghĩa tốt nhất là -

"Mạng nơ-ron được tạo thành từ nhiều nơ-ron nhân tạo được khái niệm hóa liên kết với nhau, truyền dữ liệu giữa chúng và có trọng số liên quan được điều chỉnh dựa trên “trải nghiệm” của mạng. Các tế bào thần kinh có các ngưỡng kích hoạt, nếu được đáp ứng bởi sự kết hợp của trọng lượng liên quan và dữ liệu được chuyển cho chúng, sẽ được kích hoạt; sự kết hợp của các tế bào thần kinh được kích hoạt dẫn đến "học tập".

6) Đầu vào / Đầu ra / Lớp ẩn - Đơn giản như tên gọi cho thấy lớp đầu vào là lớp nhận đầu vào và về cơ bản là lớp đầu tiên của mạng. Lớp đầu ra là lớp tạo ra đầu ra hoặc là lớp cuối cùng của mạng. Các lớp xử lý là các lớp ẩn trong mạng. Các lớp ẩn này là những lớp thực hiện các tác vụ cụ thể trên dữ liệu đến và chuyển đầu ra do chúng tạo ra cho lớp tiếp theo. Các lớp đầu vào và đầu ra là những lớp có thể nhìn thấy được đối với chúng ta trong khi các lớp trung gian bị ẩn đi.

Lớp ẩn

Nguồn: cs231n

7) MLP (Perceptron nhiều lớp) - Một tế bào thần kinh đơn lẻ sẽ không thể thực hiện các nhiệm vụ phức tạp cao. Do đó, chúng tôi sử dụng các ngăn xếp tế bào thần kinh để tạo ra các đầu ra mong muốn. Trong mạng đơn giản nhất, chúng ta sẽ có một lớp đầu vào, một lớp ẩn và một lớp đầu ra. Mỗi lớp có nhiều tế bào thần kinh và tất cả các tế bào thần kinh trong mỗi lớp được kết nối với tất cả các tế bào thần kinh trong lớp tiếp theo. Các mạng này cũng có thể được gọi là mạng được kết nối đầy đủ.

Nhận thức nhiều lớp

8) Truyền về phía trước - Chuyển tiếp chuyển tiếp đề cập đến sự di chuyển của đầu vào qua các lớp ẩn đến các lớp đầu ra. Trong quá trình truyền về phía trước, thông tin truyền đi theo một hướng duy nhất là TIẾN BỘ. Lớp đầu vào cung cấp đầu vào cho các lớp ẩn và sau đó đầu ra được tạo ra. Không có chuyển động lùi.

9) Hàm Chi phí - Khi chúng ta xây dựng một mạng, mạng sẽ cố gắng dự đoán kết quả đầu ra càng gần với giá trị thực càng tốt. Chúng tôi đo lường độ chính xác này của mạng bằng cách sử dụng hàm chi phí / tổn thất. Chức năng chi phí hoặc tổn thất cố gắng xử phạt mạng khi nó mắc lỗi.

Mục tiêu của chúng tôi trong khi chạy mạng là tăng độ chính xác của dự đoán và giảm lỗi, do đó giảm thiểu hàm chi phí. Đầu ra được tối ưu hóa nhất là đầu ra có giá trị nhỏ nhất của hàm chi phí hoặc tổn thất.

Nếu tôi định nghĩa hàm chi phí là lỗi bình phương trung bình, nó có thể được viết là:

C = 1 / m ∑ (y - a)2 trong đó m là số lượng đầu vào đào tạo, a là giá trị dự đoán và y là giá trị thực của ví dụ cụ thể đó.

Quá trình học tập xoay quanh việc giảm thiểu chi phí.

10) Đổ dốc màu - Gradient descent là một thuật toán tối ưu hóa để giảm thiểu chi phí. Trực quan để nghĩ về nó, khi leo xuống đồi, bạn nên đi từng bước nhỏ và đi bộ xuống thay vì chỉ nhảy xuống cùng một lúc. Do đó, những gì chúng ta làm là, nếu chúng ta bắt đầu từ điểm x, chúng ta di chuyển xuống một chút tức là delta h, và cập nhật vị trí của chúng ta thành x-delta h và chúng ta tiếp tục làm như vậy cho đến khi chạm đáy. Coi đáy là điểm chi phí tối thiểu.

Gradient descent - học sâu

nguồn

Về mặt toán học, để tìm cực tiểu cục bộ của một hàm, người ta thực hiện các bước tỷ lệ với giá trị âm của gradient của hàm.

Bạn có thể đi qua bài viết này để hiểu chi tiết về độ dốc gradient.

11) Tỷ lệ học tập - Tỷ lệ học tập được định nghĩa là mức tối thiểu hóa trong hàm chi phí trong mỗi lần lặp lại. Nói một cách dễ hiểu, tốc độ mà chúng ta giảm dần về cực tiểu của hàm chi phí là tốc độ học tập. Chúng ta nên lựa chọn tỷ lệ học thật cẩn thận vì nó không được quá lớn khiến giải pháp tối ưu bị bỏ qua cũng như không được quá thấp đến mức phải mất vĩnh viễn để mạng hội tụ.

Tỷ lệ học tập - học sâu

nguồn

12) Nhân giống ngược - Khi chúng tôi xác định một mạng nơ-ron, chúng tôi gán các trọng số và giá trị thiên vị ngẫu nhiên cho các nút của chúng tôi. Khi chúng tôi đã nhận được kết quả đầu ra cho một lần lặp lại, chúng tôi có thể tính toán lỗi của mạng. Sau đó, lỗi này được đưa trở lại mạng cùng với độ dốc của hàm chi phí để cập nhật trọng số của mạng. Các trọng số này sau đó được cập nhật để giảm các lỗi trong các lần lặp tiếp theo. Việc cập nhật trọng số này bằng cách sử dụng gradient của hàm chi phí được gọi là lan truyền ngược.

Trong lan truyền ngược, chuyển động của mạng là ngược lại, lỗi cùng với gradient chảy ngược từ lớp ra ngoài qua các lớp ẩn và trọng số được cập nhật.

13) Hàng loạt - Trong khi đào tạo mạng nơ-ron, thay vì gửi toàn bộ đầu vào trong một lần, chúng tôi chia đầu vào thành nhiều phần có kích thước bằng nhau một cách ngẫu nhiên. Đào tạo dữ liệu theo lô làm cho mô hình tổng quát hơn so với mô hình được xây dựng khi toàn bộ tập dữ liệu được cung cấp cho mạng trong một lần.

14) Kỷ nguyên - Một kỷ nguyên được định nghĩa là một lần lặp lại huấn luyện duy nhất của tất cả các lô trong cả quá trình nhân rộng và nhân giống ngược. Điều này có nghĩa là 1 kỷ nguyên là một lần chuyển tiếp và chuyển tiếp của toàn bộ dữ liệu đầu vào.

Số kỷ nguyên bạn sẽ sử dụng để đào tạo mạng của mình có thể do bạn chọn. Rất có thể nhiều kỷ nguyên số hơn sẽ cho thấy độ chính xác của mạng cao hơn, tuy nhiên, mạng hội tụ cũng sẽ mất nhiều thời gian hơn. Ngoài ra, bạn phải lưu ý rằng nếu số lượng kỷ nguyên quá cao, mạng có thể quá phù hợp.

15) Bỏ học - Bỏ học là một kỹ thuật quy định hóa để ngăn chặn việc lắp mạng quá mức. Như tên cho thấy, trong quá trình đào tạo, một số lượng tế bào thần kinh nhất định trong lớp ẩn sẽ bị rơi ngẫu nhiên. Điều này có nghĩa là quá trình huấn luyện diễn ra trên một số kiến ​​trúc của mạng nơ-ron trên các tổ hợp nơ-ron khác nhau. Bạn có thể coi drop out như một kỹ thuật tổng hợp, trong đó đầu ra của nhiều mạng sau đó được sử dụng để tạo ra đầu ra cuối cùng.

bỏ học - học sâu

nguồn: Bản gốc

16) Chuẩn hóa hàng loạt - Như một khái niệm, bình thường hóa hàng loạt có thể được coi là một con đập mà chúng tôi đã đặt làm các trạm kiểm soát cụ thể trên một con sông. Điều này được thực hiện để đảm bảo rằng việc phân phối dữ liệu giống như lớp tiếp theo hy vọng có được. Khi chúng ta đang huấn luyện mạng nơ-ron, trọng số được thay đổi sau mỗi bước giảm dần độ dốc. Điều này thay đổi cách hình dạng của dữ liệu được gửi đến lớp tiếp theo.

Chuẩn hóa hàng loạt

Nhưng lớp tiếp theo đang mong đợi một phân phối tương tự như những gì nó đã thấy trước đó. Vì vậy, chúng tôi chuẩn hóa dữ liệu một cách rõ ràng trước khi gửi nó đến lớp tiếp theo.

Học kĩ càng

Mạng nơ-ron hợp pháp trong học tập sâu

17) Bộ lọc - Bộ lọc trong CNN giống như một ma trận trọng số mà chúng ta nhân một phần của hình ảnh đầu vào để tạo ra một đầu ra phức tạp. Giả sử chúng ta có một hình ảnh có kích thước 28 * 28. Chúng tôi chỉ định ngẫu nhiên một bộ lọc có kích thước 3 * 3, sau đó được nhân với các phần 3 * 3 khác nhau của hình ảnh để tạo thành một đầu ra phức tạp. Kích thước bộ lọc thường nhỏ hơn kích thước hình ảnh gốc. Các giá trị bộ lọc được cập nhật như giá trị trọng số trong quá trình nhân giống ngược để giảm thiểu chi phí.

Hãy xem xét hình ảnh dưới đây. Bộ lọc ở đây là ma trận 3 * 3 được nhân với mỗi phần 3 * 3 của hình ảnh để tạo thành đối tượng địa lý phức hợp.

Mạng thần kinh chuyển đổi

18) CNN (Mạng nơ-ron hợp hiến) - Về cơ bản, mạng nơ-ron chuyển đổi được áp dụng cho dữ liệu hình ảnh. Giả sử chúng ta có một đầu vào có kích thước (28 * 28 * 3), Nếu chúng ta sử dụng mạng nơ-ron thông thường, sẽ có 2352 (28 * 28 * 3) tham số. Và khi kích thước của hình ảnh tăng lên, số lượng các thông số sẽ trở nên rất lớn. Chúng tôi "biến đổi" các hình ảnh để giảm số lượng tham số (như được hiển thị ở trên trong định nghĩa bộ lọc). Khi chúng ta trượt bộ lọc qua chiều rộng và chiều cao của ổ đĩa đầu vào, chúng ta sẽ tạo ra một Bản đồ kích hoạt 2 chiều cung cấp đầu ra của bộ lọc đó ở mọi vị trí. Chúng tôi sẽ xếp chồng các bản đồ kích hoạt này dọc theo kích thước chiều sâu và tạo ra khối lượng đầu ra.

Bạn có thể xem sơ đồ dưới đây để có hình ảnh rõ ràng hơn.

CNN | Học kĩ càng

Nguồn: cs231n

19) Tổng hợp - Thông thường, định kỳ đưa các lớp gộp vào giữa các lớp tích chập. Điều này về cơ bản được thực hiện để giảm số lượng các tham số và ngăn chặn việc lắp quá mức. Loại gộp chung phổ biến nhất là một lớp gộp có kích thước bộ lọc (2,2) sử dụng phép toán MAX. Những gì nó sẽ làm là, nó sẽ chiếm tối đa mỗi ma trận 4 * 4 của hình ảnh gốc.

Tổng hợp | Học kĩ càng

Nguồn: cs231n

Bạn cũng có thể gộp chung bằng các thao tác khác như gộp Trung bình, nhưng gộp tối đa đã cho thấy hoạt động tốt hơn trong thực tế.

20) Lớp đệm - Padding đề cập đến việc thêm một lớp số không bổ sung trên các hình ảnh để hình ảnh đầu ra có cùng kích thước với đầu vào. Đây được gọi là đệm giống nhau.

Đệm

Sau khi áp dụng các bộ lọc, lớp đối xứng trong trường hợp cùng một vùng đệm có kích thước bằng với hình ảnh thực tế.

Phần đệm hợp lệ đề cập đến việc giữ cho hình ảnh như vậy và có tất cả các pixel của hình ảnh là thực tế hoặc "hợp lệ". Trong trường hợp này, sau khi áp dụng các bộ lọc, kích thước của chiều dài và chiều rộng của đầu ra tiếp tục giảm ở mỗi lớp chập.

21) Tăng cường dữ liệu - Tăng cường dữ liệu đề cập đến việc bổ sung dữ liệu mới bắt nguồn từ dữ liệu đã cho, có thể chứng minh là có lợi cho việc dự đoán. Ví dụ: có thể dễ dàng xem con mèo trong hình ảnh tối hơn nếu bạn làm sáng nó hoặc ví dụ: số 9 trong nhận dạng chữ số có thể hơi nghiêng hoặc xoay. Trong trường hợp này, phép quay sẽ giải quyết được vấn đề và tăng độ chính xác của mô hình của chúng ta. Bằng cách xoay hoặc làm sáng, chúng tôi đang cải thiện chất lượng dữ liệu của mình. Điều này được gọi là Tăng dữ liệu.

Tăng cường dữ liệu

Mạng thần kinh tái diễn trong học sâu

22) Neuron tái phát - Một nơ-ron tái diễn là một nơ-ron trong đó đầu ra của nơ-ron được gửi trở lại nó trong thời gian t tem thời gian. Nếu bạn nhìn vào biểu đồ, đầu ra được gửi lại dưới dạng đầu vào t lần. Tế bào thần kinh không cuộn trông giống như các tế bào thần kinh khác nhau được kết nối với nhau. Ưu điểm cơ bản của nơ-ron này là nó cho đầu ra tổng quát hơn.

Mạng nơ-ron tuần hoàn | học kĩ càng

Nguồn: cs231n

23) RNN (Mạng thần kinh tái phát) - Mạng nơ-ron tuần hoàn được sử dụng đặc biệt cho dữ liệu tuần tự trong đó đầu ra trước đó được sử dụng để dự đoán kết quả tiếp theo. Trong trường hợp này, các mạng có các vòng lặp bên trong chúng. Các vòng lặp bên trong nơ-ron ẩn cung cấp cho chúng khả năng lưu trữ thông tin về các từ trước đó trong một thời gian để có thể dự đoán đầu ra. Đầu ra của lớp ẩn được gửi lại đến lớp ẩn trong t tem thời gian. Nơron chưa mở ra trông giống như sơ đồ trên. Đầu ra của nơ-ron tái phát chỉ chuyển đến lớp tiếp theo sau khi hoàn thành tất cả các dấu thời gian. Đầu ra được gửi có tính khái quát cao hơn và thông tin trước đó được lưu giữ trong thời gian dài hơn.

Sau đó, lỗi sẽ được gắn thẻ ngược theo mạng chưa mở để cập nhật trọng số. Điều này được gọi là sự lan truyền ngược qua thời gian (BPTT).

24) Vanishing Gradient Problem - Vấn đề gradient biến mất phát sinh trong trường hợp gradient của hàm kích hoạt rất nhỏ. Trong quá trình nhân giống ngược khi các trọng số được nhân lên với các gradient thấp này, chúng có xu hướng trở nên rất nhỏ và “biến mất” khi đi sâu hơn nữa trong mạng. Điều này làm cho mạng nơ-ron quên đi sự phụ thuộc tầm xa. Điều này thường trở thành một vấn đề trong các trường hợp mạng nơ-ron lặp lại, nơi các phụ thuộc dài hạn là rất quan trọng đối với mạng cần ghi nhớ.

Điều này có thể được giải quyết bằng cách sử dụng các chức năng kích hoạt như ReLu không có độ dốc nhỏ.

25) Sự cố Gradient bùng nổ - Điều này hoàn toàn ngược lại với vấn đề gradient biến mất, trong đó gradient của hàm kích hoạt quá lớn. Trong quá trình nhân giống ngược, nó làm cho trọng lượng của một nút cụ thể rất cao so với những nút khác hiển thị chúng là không đáng kể. Điều này có thể dễ dàng giải quyết bằng cách cắt bớt gradient để nó không vượt quá một giá trị nhất định.

Ghi chú kết thúc

Tôi hy vọng bạn thích xem qua bài viết. Tôi đã đưa ra một cái nhìn tổng quan ở cấp độ cao về các thuật ngữ học sâu cơ bản. Tôi hy vọng bây giờ bạn đã hiểu cơ bản về các thuật ngữ này. Tôi đã cố gắng giải thích mọi thứ bằng ngôn ngữ dễ hiểu nhất có thể, tuy nhiên trong trường hợp có bất kỳ nghi ngờ / làm rõ nào, vui lòng để lại bình luận của bạn.

Phương tiện hiển thị trong bài viết này không thuộc sở hữu của Analytics Vidhya và được sử dụng theo quyết định riêng của Tác giả.

tại chỗ_img

Tin tức mới nhất

tại chỗ_img

Trò chuyện trực tiếp với chúng tôi (chat)

Chào bạn! Làm thế nào để tôi giúp bạn?