Логотип Зефирнет

Интеллектуальный поиск контента Drupal с помощью Amazon Kendra | Веб-сервисы Amazon

Дата:

Амазон Кендра — это интеллектуальный поисковый сервис, основанный на машинном обучении (ML). Amazon Kendra помогает легко агрегировать контент из различных репозиториев контента в централизованный индекс, который позволяет быстро выполнять поиск по всем корпоративным данным и находить наиболее точный ответ. Drupal это программное обеспечение для управления контентом. Он используется для создания многих веб-сайтов и приложений, которые мы используем каждый день. Drupal имеет отличный набор функций, таких как простота создания контента, надежная производительность и безопасность. Многие организации используют Drupal для хранения своего контента. Одним из ключевых требований для многих клиентов, использующих Drupal, является возможность легко и безопасно находить точную информацию во всех документах в источнике данных.

С помощью коннектора Amazon Kendra Drupal вы можете индексировать контент Drupal, фильтровать типы пользовательского контента, который вы хотите индексировать, и легко выполнять поиск по контенту Drupal с помощью интеллектуального поиска Amazon Kendra.

В этом посте показано, как использовать коннектор Amazon Kendra Drupal для настройки коннектора в качестве источника данных для индекса Amazon Kendra и поиска в документах Drupal. В зависимости от конфигурации соединителя Drupal вы можете синхронизировать его для сканирования и индексирования различных типов контента Drupal, например блогов и вики. Соединитель также принимает информацию о списке управления доступом (ACL) для каждого файла. Информация ACL используется для фильтрация пользовательского контекста, где результаты поиска по запросу фильтруются по тому, к чему пользователь имеет авторизованный доступ.

Предпосылки

Чтобы опробовать коннектор Amazon Kendra для Drupal, используя этот пост в качестве справочного материала, вам понадобится следующее:

Настройте источник данных с помощью коннектора Amazon Kendra для Drupal.

Чтобы добавить источник данных в индекс Amazon Kendra с помощью соединителя Drupal, вы можете использовать существующий индекс или создать новый индекс. Затем выполните следующие шаги. Для получения дополнительной информации по этой теме см. Руководство разработчика по Amazon Kendra.

  1. В консоли Amazon Kendra откройте свой индекс и выберите Источники данных в навигационной панели.
  2. Выберите Добавить источник данных.
  3. Под Drupal, выберите Добавить разъем.
  4. В Укажите сведения об источнике данных раздел, введите название и описание и выберите Следующая.
  5. На Определение доступа и безопасности раздел, для URL-адрес хоста Drupal, введите URL-адрес сайта Drupal.
  6. Чтобы настроить сертификаты SSL, вы можете создать самозаверяющий сертификат для этой настройки, используя команду openssl x509 -in mydrupalsite.pem -out drupal.crt команду и сохраните сертификат в Простой сервис хранения Amazon (Amazon S3) ведро. Более подробную информацию о создании закрытого ключа и сертификата см. Генерация сертификатов.
  7. Выберите Обзор S3 и выберите корзину S3 с SSL-сертификатом.
  8. Под АутентификацияУ вас есть два варианта:
    • Используйте Secrets Manager для создания новых учетных данных аутентификации Drupal. Вам понадобится имя пользователя и пароль администратора Drupal (кроме того, идентификатор клиента и секрет клиента для аутентификации OAuth 2.0).
    • Используйте существующий секрет Secrets Manager, содержащий учетные данные проверки подлинности Drupal, к которым должен получить доступ соединитель (кроме того, идентификатор клиента и секрет клиента для проверки подлинности OAuth 2.0).
  9. Выберите Сохранить и добавить секрет.
  10. Что касается Роль IAM, выберите Создать новую роль или выберите существующую роль IAM, настроенную с соответствующими политиками IAM, чтобы получить доступ к секрету Secrets Manager, индексу Amazon Kendra и источнику данных.

Обратитесь к Роли IAM для источников данных необходимые разрешения для роли IAM.

  1. Выберите Следующая.
  2. В Настройте параметры синхронизации раздел, выберите Статьи, Основные страницы, Базовые блоки, Пользовательские типы контентаи Пользовательские блоки а также возможности сканирования комментариев и вложений по мере необходимости.
  3. При необходимости введите шаблоны включения/исключения для заголовков объектов.
  4. Предоставьте информацию об области синхронизации (только полной или разностной) и укажите график запуска.
  5. Выберите Следующая.

  6. В Установить сопоставления полей Добавьте пользовательские поля Drupal, которые вы хотите синхронизировать, и соответствующие им сопоставления полей Amazon Kendra. Обязательные поля предварительно сопоставлены Amazon Kendra.
  7. Выберите Следующая.
  8. Просмотрите параметры конфигурации и сохраните источник данных.
  9. Выберите Синхронизировать сейчас на созданном источнике данных, чтобы начать синхронизацию данных с индексом Amazon Kendra.

Время, необходимое для сканирования и синхронизации содержимого с Amazon Kendra, зависит от объема контента и пропускной способности.

Теперь вы можете искать проиндексированный контент Drupal с помощью консоли поиска или приложения поиска. При желании вы можете выполнить поиск с помощью ACL, выполнив следующие дополнительные действия.

  1. Перейдите на созданную вами индексную страницу и на Контроль доступа пользователейвкладка l, выбирай Изменить настройки.
  2. Под Настройки контроля доступа, наведите на Да, сохраните значения по умолчанию для Имя пользователя и Группы, выберите JSON для Тип токенаи сохраните расширение группы пользователей как Ничто.
  3. На следующей странице сохраните значения по умолчанию (или измените их в зависимости от требований к емкости) и выберите Обновление ПО.

Выполняйте интеллектуальный поиск с помощью Amazon Kendra

Прежде чем пытаться выполнить поиск в консоли Amazon Kendra или с помощью API, убедитесь, что синхронизация источника данных завершена. Чтобы проверить, просмотрите источники данных и убедитесь, что последняя синхронизация прошла успешно.

  1. Чтобы начать поиск, на консоли Amazon Kendra выберите Поиск по проиндексированному контенту в навигационной панели.

Вы будете перенаправлены на консоль поиска Amazon Kendra. Теперь вы можете искать информацию в документах Drupal, которые вы проиндексировали с помощью Amazon Kendra.

  1. Для этого поста мы ищем документ, хранящийся в источнике данных Drupal.
  2. Расширьте Тестовый запрос с токеном доступа , а затем выбрать Применить токен.
  3. Что касается Имя пользователя, введите адрес электронной почты, связанный с вашей учетной записью Drupal.
  4. Выберите Применить.

Теперь пользователь может видеть только тот контент, к которому у него есть доступ, на основе указанного имени пользователя или группы. В нашем примере пользователь Drupal с test@amazon.com электронная почта не имеет доступа ни к каким документам на Drupal, поэтому ни один из них не отображается.

ограничения

Обратите внимание на следующие ограничения при использовании этого решения:

  • Типы контента (например, статья или базовая страница), не связанные ни с одним представлением, не могут быть просканированы.
  • Если у администратора нет доступа к блоку, вы не сможете сканировать данные из блока.
  • Тело документа для статьи, базовой страницы, базового блока, пользовательского типа контента и пользовательского типа блока отображается в формате HTML. Если HTML-содержимое имеет неправильный формат, теги, связанные с HTML, появятся в теле документа и, следовательно, их можно будет увидеть в результатах поиска Amazon Kendra. То же самое касается комментариев к статье, базовой странице, базовому блоку, пользовательскому типу контента, пользовательскому типу блока.
  • Тип контента или тип блока без описания или тела не будут добавлены в индекс Amazon Kendra, поскольку на стороне Amazon Kendra SDK выполняется проверка. Однако Drupal позволяет создавать тип контента без описания или тела. В индекс Amazon Kendra будут добавлены только комментарии и вложения соответствующих типов контента или типов блоков (если они существуют).

Убирать

Чтобы избежать будущих затрат, очистите ресурсы, созданные вами в рамках этого решения. Если вы создали новый индекс Amazon Kendra во время тестирования этого решения, удалите его. Если вы добавили новый источник данных только с помощью коннектора Amazon Kendra для Drupal, удалите этот источник данных. Удалите всех созданных пользователей IAM.

Заключение

Благодаря коннектору Amazon Kendra Drupal ваша организация может безопасно выполнять поиск по содержимому, хранящемуся на сайте Drupal, с помощью интеллектуального поиска на базе Amazon Kendra. В этом посте мы познакомили вас с интеграцией, но есть много дополнительных функций, которые мы не рассмотрели, например следующие:

  • Вы можете сопоставить дополнительные поля с атрибутами индекса Amazon Kendra и включить их фасетирование, поиск и отображение в результатах поиска.
  • Вы можете интегрировать источник данных Drupal с возможностью пользовательского обогащения документов (CDE) в Amazon Kendra, чтобы выполнять дополнительную логику сопоставления атрибутов и даже настраиваемое преобразование контента во время приема.

Чтобы узнать больше о возможностях Drupal, обратитесь к Руководство разработчика по Amazon Kendra.

Дополнительную информацию о других встроенных коннекторах Amazon Kendra для популярных источников данных см. Соединители Amazon Kendra стр.


Об авторах

Чанна Басавараджа — старший архитектор решений в AWS с более чем двухлетним опытом создания распределенных бизнес-решений. Его области специализации охватывают машинное обучение, разработку приложений и мобильных устройств, событийно-ориентированную архитектуру и Интернет вещей и периферийные вычисления.

Юаньхуа Ван — инженер-программист в AWS с более чем 15-летним опытом работы в технологической отрасли. Его интересы — архитектура программного обеспечения и инструменты для создания облачных вычислений.

Spot_img

Последняя разведка

Spot_img