제퍼넷 로고

가속화된 시스템을 위한 스케일 아웃 파일 스토리지를 배포할 때 데이터를 최우선으로 하십시오.

시간

후원 모든 종류의 고성능 컴퓨팅 워크로드에서 컴퓨팅 및 상호 연결에 대해 생각하는 데 많은 시간을 할애하는 것은 쉽지만 해당 워크로드를 지원하는 스토리지에 대해 생각하는 데 많은 시간을 소비하지 않는 것은 어렵습니다. 이러한 애플리케이션에 공급할 데이터의 유형과 볼륨에 대해 생각하는 것이 특히 중요합니다. 이는 다른 어떤 요소보다 조직의 요구 사항을 충족하는 데 있어 해당 워크로드의 성공 또는 실패를 결정하기 때문입니다.

오늘날 IT 인프라와 관련하여 "클라우드 우선" 사고 방식을 갖는 것이 유행하지만 조직에 실제로 필요한 것은 "데이터 우선" 태도이며 클라우드는 가격 책정 체계가 있는 배포 모델일 뿐이며 아마도 – 많은 조직에 익숙한 것보다 더 깊은 리소스 풀. 그러나 이러한 깊은 풀에는 대가가 따릅니다. 데이터를 클라우드로 이동하거나 클라우드에서 생성하여 유지하는 것은 상당히 저렴합니다. 그러나 클라우드에서 데이터를 이동하여 다른 곳에서 사용할 수 있도록 하려면 엄청난 비용이 들 수 있습니다.

대규모로 실행되는 머신 러닝 교육 및 데이터 분석과 같은 새로운 클래스의 HPC 애플리케이션은 대규모 데이터 세트를 제공하거나 생성하는 경향이 있으므로 시스템을 설계할 때 이러한 데이터 우선 태도를 갖는 것이 중요합니다. 하고 싶지 않은 한 가지는 개념 증명과 프로덕션 사이의 어딘가에서 잘못된 스토리지가 있는지 알아내는 것입니다. 더 나쁜 것은 새로운 워크로드가 도입될 때 스토리지가 데이터를 따라갈 수 없다는 것입니다. 생산하고 대성공입니다.

Dell Technologies의 비정형 데이터 스토리지 제품 마케팅 이사인 Brian Henderson은 "현재 및 미래 요구 사항에 대해 잘 생각한 전략 없이 빠른 수정으로 스토리지 하드웨어를 추가하면 종종 문제가 발생합니다. “조직은 일부 서버를 구입하고 일부 스토리지를 연결하고 프로젝트를 시작하고 진행 상황을 확인합니다. 이러한 유형의 접근 방식은 종종 규모 문제, 성능 문제, 데이터 공유 문제로 이어집니다. 이러한 조직에 필요한 것은 모든 이질적인 데이터를 포함하고 모든 데이터를 연결하여 이해 관계자와 애플리케이션이 모두 빠르고 쉽게 액세스하고 공유할 수 있도록 하는 유연한 확장형 파일 스토리지 솔루션입니다.”

따라서 컴퓨팅 및 네트워킹 구성 요소를 구매 주문에 반영하기 전에 몇 가지 주요 데이터 스토리지 요구 사항을 고려하는 것이 중요합니다.

가장 먼저 고려해야 할 사항은 규모이며, 처음부터 규모를 가정한 다음 작게 시작할 수 있지만 데이터를 포함하고 서로 다른 시스템 및 데이터 유형을 제공할 수 있을 만큼 충분히 커질 수 있는 시스템을 찾아야 합니다.

내부 스토리지 또는 시스템이나 클러스터에 연결된 스토리지의 잡동사니에 의존하는 것이 가능할 수도 있지만 HPC 및 AI 워크로드는 NVIDIA의 GPU에 의해 가속화되는 경우가 많습니다. 컴퓨팅, 스토리지 및 네트워킹은 워크로드와 데이터 세트가 증가하고 증가함에 따라 확장되어야 한다고 가정하는 것이 가장 좋습니다. 고려해야 할 다양한 성장 벡터가 있으며 그 중 하나를 잊어버리면 향후 용량 및 성능 문제가 발생할 수 있습니다.

그리고 이 스토리지 규모 문제에 대해 고려해야 할 훨씬 더 미묘한 요소가 있습니다. 데이터는 HPC 및 AI 시스템 모두에 대해 보관됩니다. HPC 애플리케이션은 소량의 초기 조건을 사용하여 실제 세계에 대해 무엇인가를 드러내는 대규모 시뮬레이션 및 시각화를 생성하는 반면, AI 시스템은 일반적으로 구조화된 데이터와 구조화되지 않은 데이터가 혼합된 방대한 양의 정보를 사용하여 모델로 추출할 수 있습니다. 현실 세계를 분석하거나 이에 반응하는 데 사용됩니다. 이러한 초기 데이터 세트와 해당 모델은 데이터 거버넌스 및 규정 준수는 물론 비즈니스상의 이유로 보존되어야 합니다.

원하더라도 이 데이터를 버릴 수는 없습니다.

Dell Technologies의 비정형 데이터 솔루션 팀의 AI 및 분석 글로벌 비즈니스 개발 관리자인 Thomas Henson은 "원한다고 해도 이 데이터를 버릴 수는 없습니다. “자동차, 의료, 운송, 금융 서비스와 같은 수직 산업이 무엇이든 상관없이 알고리즘의 결함을 발견할 수 있으며 소송이 문제입니다. 결함이 있는 결과를 생성한 알고리즘에 제공된 데이터를 보여주거나 그렇지 않다는 것을 증명해야 합니다. 어느 정도 해당 알고리즘의 값은 해당 알고리즘에 제공된 데이터입니다. 그리고 그것은 하나의 작은 예일 뿐입니다.”

따라서 하이브리드 CPU-GPU 시스템의 경우 시스템의 로컬 저장소가 충분하지 않고 많은 비정형 데이터를 저장할 수 있는 외부 저장소가 필요하다고 가정하는 것이 가장 좋습니다. 경제적인 이유로 AI 및 일부 HPC 프로젝트는 아직 개념 증명 단계에 있으므로 소규모로 시작하여 필요한 경우 독립적인 벡터에서 용량과 성능을 빠르게 확장할 수 있는 것이 유용할 것입니다.

Dell Technologies의 OneFS 파일 시스템을 실행하는 PowerScale 올플래시 어레이가 이 스토리지 프로필에 적합합니다. 기본 시스템은 최대 11TB의 원시 스토리지와 250자리 미만의 적당한 가격이 있는 96노드 구성으로 제공되며 최대 XNUMXPB를 저장할 수 있는 공유 스토리지 클러스터에서 최대 XNUMX개 노드까지 실험실에서 테스트되었습니다. 데이터. 그리고 Dell Technologies는 PowerScale 어레이를 이보다 훨씬 더 큰 규모로 실행하는 고객을 보유하고 있지만 정전의 잠재적 폭발 영역을 줄이기 위해 별도의 클러스터를 생성하는 경우가 많습니다. 극히 드문 경우입니다.

PowerScale은 온프레미스에 배포하거나 고객이 추가 컴퓨팅 또는 기타 기본 클라우드 서비스를 활용할 수 있는 다중 클라우드 또는 기본 클라우드 통합 옵션을 사용하여 여러 공용 클라우드로 확장할 수 있습니다.

성능은 기업이 고려해야 하는 규모의 다른 부분이며 GPU로 시스템을 가속화할 때 특히 중요합니다. GPU 컴퓨팅의 초창기부터 NVIDIA는 CPU와 메모리를 방해하지 않고 GPU가 시뮬레이션을 실행하거나 모델을 구축할 때 데이터를 공유하지 못하게 하는 병목 현상(GPUDirect)이 되지 않도록 하기 위해 노력해 왔습니다. GPU가 스토리지에 번개처럼 빠르게 액세스하지 못하도록 합니다(GPUDirect Storage).

이러한 GPU 가속 시스템에 외부 스토리지가 필요한 경우 – XNUMX개 또는 XNUMX개의 GPU가 있는 서버가 대부분의 HPC 및 AI 애플리케이션이 처리하는 데이터 세트를 보유하기에 충분한 스토리지를 가질 수 있는 방법은 없습니다. GPUDirect Storage를 사용하고 빠르게 말할 수 있습니다.

이전 기록 보유자는 2.2PB 스토리지 어레이 및 파일 모드에서 100GB/sec의 속도로 새로운 "Ampere" A100 GPU를 기반으로 하는 DGX-A191 시스템으로 데이터를 읽을 수 있었습니다.. 랩에서 Dell Technologies는 PowerScale 어레이에서 실행되는 GPUDirect Storage 벤치마크 테스트를 마무리하고 있으며 성능을 최소 252GB/초까지 상당히 높일 수 있다고 말합니다. 또한 PowerScale은 단일 네임스페이스에서 252개의 노드로 확장할 수 있으므로 여기서 멈추지 않고 필요한 경우 그 이상으로 확장할 수 있습니다.

"요점은 우리가 이러한 GPU 컴퓨팅 환경에 맞게 최적화하는 방법을 알고 있다는 것입니다."라고 Henderson은 말합니다. 다음은 AI 워크로드를 실행하는 GPU 가속 시스템의 성능과 PowerScale 스토리지의 성능에 대한 일반적인 설명입니다.

다양한 종류의 시스템에 대한 광범위한 지원은 하이브리드 CPU-GPU 시스템을 설계할 때 고려해야 할 또 다른 사항입니다. 공유 저장소의 본질은 공유하는 것이며 공유 저장소의 데이터를 다른 응용 프로그램에 사용할 수 있도록 하는 것이 중요합니다. PowerScale 어레이는 250개 이상의 애플리케이션과 통합되었으며 다양한 종류의 시스템에서 지원되는 것으로 인증되었습니다. 이것이 Isilon 및 PowerScale 스토리지가 전 세계적으로 15,000명이 넘는 고객을 보유하고 있는 이유 중 하나입니다.

고성능 컴퓨팅은 특히 리소스가 제한되고 시스템과 데이터를 제어하는 ​​것이 절대적으로 중요한 엔터프라이즈 환경에서 성능 그 이상입니다. 따라서 GPU 가속 시스템용 스토리지를 설계할 때 다음으로 고려해야 할 사항은 스토리지 관리입니다.

도구화

이러한 측면에서 Dell Technologies는 파티에 여러 도구를 제공합니다. 첫 번째는 InsightIQ, PowerScale 및 이전 버전인 Isilon 스토리지 어레이에 대해 매우 구체적이고 상세한 스토리지 모니터링 및 보고를 수행합니다.

또 다른 도구는 클라우드IQPowerStore, PowerMax, PowerScale, PowerVault, Unity XT, XtremIO, SC 시리즈는 물론 PowerEdge 서버와 컨버지드 및 하이퍼컨버지드를 비롯한 전체 Dell Technologies 인프라 제품을 모니터링하고 관리하는 데 도움이 되는 기계 학습 및 예측 분석 기술을 사용합니다. VxBlock, VxRail 및 PowerFlex와 같은 플랫폼.

그리고 마지막으로 있습니다. 데이터IQ, PowerScale, PowerMax 및 PowerStore 어레이 전반에 걸친 비정형 데이터 세트와 대규모 공용 클라우드의 클라우드 스토리지에 대한 통합 보기를 제공하는 비정형 데이터용 스토리지 모니터링 및 데이터 세트 관리 소프트웨어입니다. DataIQ는 구조화되지 않은 데이터 세트를 보여줄 뿐만 아니라 데이터가 어떻게 사용되는지 추적하고 이를 가장 적절한 스토리지(예: 온프레미스 파일 시스템 또는 클라우드 기반 개체 스토리지)로 이동합니다.

마지막 고려 사항은 모든 엔터프라이즈급 스토리지 플랫폼에서 함께 사용되는 안정성과 데이터 보호입니다. PowerScale 어레이는 Isilon과 Isilon의 OneFS 파일 시스템에 오랜 전통을 갖고 있으며 99.9999년 동안 기업, 정부 및 학계 HPC 기관에서 신뢰를 받아왔습니다. OneFS와 기본 PowerScale 하드웨어는 최대 99.9%의 가용성을 제공하도록 설계되었으며, 비정형 데이터를 처리하는 대부분의 클라우드 스토리지 서비스는 운 좋게도 31%의 가용성에 대한 서비스 계약을 체결했습니다. 전자는 46년에 XNUMX초의 다운타임이 있는 반면 후자는 XNUMX시간 XNUMX분 동안 오프라인 상태입니다.

또한 PowerScale은 스토리지 클러스터의 일부 노드가 유지 관리 또는 구성 요소 장애 후 자체 수리를 위해 다운된 경우에도 우수한 성능을 제공하고 데이터 액세스를 유지하도록 설계되었습니다. (결국 모든 IT 장비는 부품 고장이 불가피하다.)

그러나 요즘 점점 더 중요해지고 있는 또 다른 종류의 복원력이 있습니다. 바로 랜섬웨어 공격으로부터의 복구입니다.

"우리는 API 통합 랜섬웨어 보호 기능을 파워스케일 OneFS 파일 시스템에서 의심스러운 동작을 감지하고 이에 대해 관리자에게 알립니다.”라고 Henderson은 말합니다. “그리고 많은 고객이 물리적으로 분리된 에어 갭 클러스터 설정을 구현하여 모든 데이터의 별도 사본을 유지 관리하고 있습니다. 사이버 공격의 경우 프로덕션 스토리지를 종료하고 데이터를 보유하고 백업 또는 아카이브에서 복원을 시도하지 않습니다. 특히 클라우드 아카이브에서 복원하는 경우 며칠 또는 몇 주가 걸릴 수 있습니다. 페바이트의 데이터에 대해 이야기하면 몇 달이 걸릴 수 있습니다.

“매우 빠른 스토리지 복제 속도로 빠르게 복구할 수 있습니다. 또한 퍼블릭 클라우드를 활용하여 사이버 이벤트에서 데이터를 복구할 수 있는 멀티 클라우드 환경에서 랜섬웨어 방어자 솔루션을 호스팅할 수 있는 옵션이 있습니다.”

Dell에서 후원합니다.

PlatoAi. Web3 재창조. 데이터 인텔리전스 증폭.
액세스하려면 여기를 클릭하십시오.

출처: https://go.theregister.com/feed/www.theregister.com/2021/10/12/data_first_dell/

spot_img

최신 인텔리전스

spot_img

우리와 함께 채팅

안녕하세요! 어떻게 도와 드릴까요?