Zephyrnet-logo

Veilig zoeken naar ongestructureerde gegevens op Windows-bestandssystemen met de Amazon Kendra-connector voor Amazon FSx voor Windows File Server

Datum:

Kritieke informatie kan verspreid zijn over meerdere gegevensbronnen in uw organisatie, inclusief bronnen zoals Windows-bestandssystemen die zijn opgeslagen op Amazon FSX voor Windows-bestandsserver. U kunt nu de Amazon Kendra-connector voor FSx voor Windows-bestandsserver om documenten (HTML, PDF, MS Word, MS PowerPoint en platte tekst) te indexeren die zijn opgeslagen in uw Windows-bestandssysteem op FSX voor Windows File Server en informatie te zoeken in deze inhoud met behulp van intelligent zoeken in Amazon Kendra.

Organisaties slaan ongestructureerde gegevens op in bestanden op gedeelde Windows-bestandssystemen en beveiligen deze met behulp van Windows Access Control Lists (ACL's) om ervoor te zorgen dat gebruikers bestanden kunnen lezen, schrijven en maken volgens hun toegangsrechten die zijn geconfigureerd in het Active Directory-domein (AD) van de onderneming . Om specifieke informatie uit deze gegevens te vinden, moet niet alleen door de bestanden worden gezocht, maar moet er ook voor worden gezorgd dat de gebruiker geautoriseerd is om deze te openen. De Amazon Kendra-connector voor FSx voor Windows-bestandsserver indexeert de bestanden die zijn opgeslagen op FSx voor Windows-bestandsserver en neemt de ACL's op in de Amazon Kendra-index, zodat het antwoord op een zoekopdracht van een gebruiker alleen resultaten bevat van die documenten die de gebruiker is geautoriseerd om te lezen.

Dit bericht neemt het voorbeeld van een set documenten die veilig zijn opgeslagen op een bestandssysteem met behulp van ACL's op FSx voor Windows File Server. Deze documenten worden opgenomen in een Amazon Kendra-index door dit bestandssysteem te configureren en te synchroniseren als een gegevensbron van de index met behulp van de connector voor FSx voor Windows File Server. Vervolgens laten we zien dat wanneer een gebruiker een zoekopdracht uitvoert, de Amazon Kendra-index de ACL's gebruikt op basis van de gebruikersnaam en de groepen waartoe de gebruiker behoort, en alleen die documenten retourneert waartoe de gebruiker toegang heeft. We voegen ook details van de configuratie en schermafbeeldingen toe in elke fase, zodat u dit als referentie kunt gebruiken bij het configureren van de Amazon Kendra-connector voor FSx voor Windows-bestandsserver in uw installatie.

Voorwaarden

Om de Amazon Kendra-connector voor FSx voor Windows File Server uit te proberen, hebt u het volgende nodig:

Oplossingsarchitectuur

Het volgende diagram illustreert de oplossingsarchitectuur:

De documenten in dit voorbeeld zijn opgeslagen op een bestandssysteem (3 in het diagram) op FSx voor Windows File Server (4). De bestanden zijn ingesteld met ACL's op basis van de gebruikers- en groepsconfiguraties in het AD-domein dat is gemaakt met AWS Directory-service (1) waartoe FSx voor Windows File Server behoort. Dit bestandssysteem op FSx voor Windows File Server is geconfigureerd als een gegevensbron voor Amazon Kendra (5). AWS eenmalige aanmelding (AWS SSO) is ingeschakeld met de AD als identiteitsbron en de Amazon Kendra-index is ingesteld om AWS SSO (2) te gebruiken voor het opzoeken van gebruikersnaam en groep voor de gebruikerscontext van de zoekopdrachten van de implementaties van zoekoplossingen van klanten ( 6). Het FSx voor Windows File Server-bestandssysteem, AWS Managed Microsoft AD-server, de Amazon virtuele privécloud (Amazon VPC) en subnetten die in dit voorbeeld zijn geconfigureerd, worden gemaakt met de Snelle start voor FSX voor Windows-bestandsserver.

FSx voor Windows-bestandsserverconfiguratie

De volgende schermafbeelding toont het bestandssysteem op FSx voor Windows-bestandsserver geconfigureerd als onderdeel van een door AWS beheerd Microsoft AD-domein dat in ons voorbeeld wordt gebruikt, zoals te zien op de Amazon FSx-console.

AWS beheerde Microsoft AD-configuratie

De AD waartoe FSx voor Windows File Server behoort, is geconfigureerd als een door AWS beheerde Microsoft AD, zoals te zien is in de volgende schermafbeelding van de Directory Service-console.

Gebruikers, groepen en ACL-configuratie voor voorbeeldgegevensset

Voor dit bericht hebben we een dataset gebruikt die bestaat uit een paar AWS openbaar beschikbare whitepapers en deze opgeslagen in mappen op basis van hun categorieën (Best_Practices, Databases, General, Machine_Learning, Security en Well_Architected) op een bestandssysteem op FSx voor Windows File Server. De volgende schermafbeelding toont de mappen zoals gezien vanaf een Windows bastion-host die deel uitmaakt van het AD-domein waartoe het bestandssysteem behoort.

Gebruikers en groepen worden als volgt geconfigureerd in het AD-domein:

  • kadmin - group_kadmin
  • patricia - group_sa, group_kauthenticated
  • james - group_db_sa, group_kauthenticated
  • John - group_ml_sa, group_kauthenticated
  • maria, julie, tom - group_kauthenticated

De volgende schermafbeelding toont gebruikers en groepen die zijn geconfigureerd in het door AWS beheerde Microsoft AD-domein gezien vanaf de Windows-bastionhost.

De ACL's voor de bestanden in elke directory worden ingesteld op basis van de gebruikers- en groepsconfiguraties in het AD-domein waartoe FSx voor Windows File Server behoort:

  • Alle geverifieerde gebruikers (group_kauthenticated) – Heeft toegang tot de documenten in Best_Practices en General directories
  • Oplossingsarchitecten (group_sa) – Heeft toegang tot de documenten in Best_Practices, General, Security en Well_Architected directories
  • Database onderwerp expert Solutions Architects (group_db_sa) – Heeft toegang tot de documenten in Best_Practices, General, Security, Well_Architected en Database directories
  • Expert op het gebied van machine learning Solutions Architects (group_ml_sa) – Kan toegang krijgen Best_Practices, General, Security, Well_Architected en Machine_Learning directories
  • Beheerder (group_kadmin) – Kan toegang krijgen tot de documenten in een van de zes mappen

De volgende schermafbeelding toont de ACL-configuraties voor elk van de mappen met onze voorbeeldgegevens, zoals te zien vanaf de Windows-bastionhost.

AWS Single Sign-On-configuratie

AWS SSO is geconfigureerd met het AD-domein als identiteitsbron. De volgende schermafbeelding toont de instellingen op de AWS SSO-console.

De groepen worden gesynchroniseerd in AWS SSO vanuit het AD, zoals te zien is in de volgende schermafbeelding.

De volgende schermafbeelding toont de leden van de group_kauthenticated groep gesynchroniseerd vanuit de AD.

Gegevensbronconfiguratie met behulp van Amazon Kendra-connector voor FSX voor Windows-bestandsserver

We configureren een gegevensbron met behulp van de Amazon Kendra-connector voor FSx voor Windows File Server in een Amazon Kendra-index op de Amazon Kendra-console. Jij kan een nieuwe Amazon Kendra-index maken of gebruik een bestaande en voeg een nieuwe gegevensbron toe.

Wanneer u een gegevensbron voor een Amazon Kendra-index toevoegt, kiest u de FSx voor Windows File Server-connector door te kiezen voor Connector toevoegen voor Amazon FSx.

De stappen om een ​​gegevensbronnaam en brontags toe te voegen zijn vergelijkbaar met het toevoegen van een andere gegevensbron, zoals weergegeven in de volgende schermafbeelding.

De details voor het configureren van het specifieke bestandssysteem op Amazon FSx en het type bestandssysteem (FSx voor Windows File Server in dit geval), zijn geconfigureerd voor in de bron sectie. De authenticatiegegevens van een gebruiker met beheerdersrechten voor het bestandssysteem worden geconfigureerd met behulp van een AWS-geheimenmanager geheim.

De VPC en beveiligingsgr
oup-instellingen van de gegevensbronconfiguratie omvatten de details van de VPC, subnetten en beveiligingsgroep van Amazon FSx en de AD-server. In de volgende schermafbeelding maken we ook een nieuwe IAM-rol voor de gegevensbron.

De volgende stap in de gegevensbronconfiguratie omvat het toewijzen van de Amazon FSx-connectorvelden aan de Amazon Kendra-facetten of veldnamen. In de volgende schermafbeelding laten we de configuratie ongewijzigd. De volgende stap omvat het beoordelen van de configuratie en het bevestigen dat de gegevensbron moet worden gemaakt.

Nadat u het bestandssysteem op FSx voor Windows File Server hebt geconfigureerd, waar de voorbeeldgegevens als gegevensbron worden opgeslagen, configureert u de basisbewerkingen van Custom Document Enrichment (CDE) voor deze gegevensbron zodat de Amazon Kendra-index filed _category wordt geconfigureerd op basis van de map waarin een document is opgeslagen. De gegevensbronsynchronisatie wordt gestart na de CDE-configuratie, zodat de _category attributen voor de documenten worden geconfigureerd tijdens de opnameworkflow.

Zoals te zien is in de volgende schermafbeelding, zijn de instellingen voor gebruikerstoegangscontrole van de Amazon Kendra-index geconfigureerd voor het opzoeken van gebruikers en groepen via AWS SSO-integratie. Op JSON-token gebaseerde gebruikerstoegangscontrole is ingeschakeld om te zoeken op basis van gebruikers- en groepsnamen vanuit de Amazon Kendra Search-console.

Zorg ervoor dat in de facetdefinitie voor de Amazon Kendra-index de vakjes facettabel en weergave zijn aangevinkt _category. Hiermee kunt u de _category waarden ingesteld door de CDE-basisbewerkingen als facetten tijdens het zoeken.

Zoeken met Amazon Kendra

Nadat de synchronisatie van de gegevensbron is voltooid, kunnen we beginnen met zoeken vanaf de Amazon Kendra Search-console door te kiezen voor Doorzoek geïndexeerde inhoud in het navigatievenster op de Amazon Kendra-console. Omdat we AWS-whitepapers gebruiken als dataset voor opname in de Amazon Kendra-index, gebruiken we "Wat is DynamoDB?" als de zoekopdracht. Alleen geverifieerde gebruikers hebben geautoriseerde toegang tot de bestanden op het bestandssysteem op FSx voor Windows File Server; daarom, wanneer we deze zoekopdracht gebruiken zonder een gebruikersnaam of groep in te stellen, krijgen we geen resultaten.

Laten we nu de gebruikersnaam instellen op mary@kendra-01.com. De gebruiker mary hoort bij group_kauthenticated, en heeft daarom toegang tot de documenten in de Best_Practices en General mappen. In de volgende schermafbeelding bevat de zoekreactie documenten met het facet category ingesteld op Best Practices en Algemeen. De basisbewerkingen van de CDE bepalen het facet category afhankelijk van de directorynamen in de source_uri. Dit bevestigt dat de ACL's die zijn opgenomen in Amazon Kendra door de connector voor FSx voor Windows File Server, worden afgedwongen in de zoekresultaten op basis van de gebruikersnaam.

Nu veranderen we de gebruikersnaam in patricia@kendra-01.com. De gebruiker patricia hoort bij group_sa, met toegang tot de Security en Well_Architected mappen, in aanvulling op: Best_Practices en General mappen. Het zoekresultaat bevat resultaten uit deze aanvullende mappen.

Nu kunnen we zien hoe de resultaten van de zoekrespons veranderen als we de gebruikersnaam veranderen in james@kendra-01.com, john@kendra-01.com en kadmin@kendra-01.com in de volgende schermafbeeldingen.

Opruimen

Als u een AWS-infrastructuur hebt geïmplementeerd om te experimenteren met de Amazon Kendra-connector voor FSx voor Windows-bestandsserver, ruimt u de infrastructuur als volgt op:

  1. Als je de Snelle start voor FSX voor Windows-bestandsserver, verwijder het AWS CloudFormatie stapel die u hebt gemaakt, zodat alle resources worden verwijderd die het heeft gemaakt.
  2. Als u een nieuwe Amazon Kendra-index hebt gemaakt, verwijdert u deze.
  3. Als u alleen een nieuwe gegevensbron hebt toegevoegd met behulp van de connector, verwijdert u die gegevensbron.
  4. Verwijder de AWS SSO-configuratie.

Conclusie

De Amazon Kendra-connector voor FSx voor Windows File Server maakt veilig en intelligent zoeken mogelijk naar informatie verspreid over ongestructureerde inhoud. De gegevens worden veilig opgeslagen op bestandssystemen op FSx Windows File Server met ACL's en gedeeld met gebruikers op basis van hun Microsoft AD-domeinreferenties.

Voor meer informatie over de Amazon Kendra-connector voor FSx voor Windows File Server, zie: Aan de slag met een Amazon FSx-gegevensbron (console) en Een Amazon FSX-gegevensbron gebruiken.

Voor informatie over verrijking van aangepaste documenten, zie: Metadata van documenten aanpassen tijdens het opnameproces en Verrijk uw inhoud en metadata om uw zoekervaring te verbeteren met aangepaste documentverrijking in Amazon Kendra.


Over de auteur

Abhinav JawadekarAbhinav Jawadekar is Senior Partner Solutions Architect bij Amazon Web Services. Abhinav werkt samen met AWS Partners om hen te helpen bij hun cloudreis.

spot_img

Laatste intelligentie

spot_img