소셜 네트워크

AI

AI World Executive Summit : 올바른 질문을하는 것이 중요 

화신

게재

on

작성자 : John P. Desmond (AI 트렌드 편집자) 

AI 활동에 대해 올바른 질문을하는 것이 중요합니다. 특히 McKinsey의 최근 설문 조사에 따르면 기업에서 AI 채택을 통해 관리하는 AI 전문가 및 실무자의 초점은 대답해야 할 질문에 대한 생각입니다. 

AI 고성과 기업의 응답자 중 75 명% 전염병으로 인해 비즈니스 기능 전반에 걸친 AI 지출이 증가했다고보고합니다. A에 대한 글로벌 설문 조사저는 2020 년에 McKinsey에서 왔습니다. 이러한 조직은 AI를 사용하여 가치를 창출하고 있으며, 이는 점점 더 새로운 수익의 형태로 나오고 있습니다.  

XNUMX 명의 전문가가 인터뷰에서 AI 트렌드와 함께 이러한 성장의 의미를 논의했습니다. AI World Executive Summit : AI의 미래, 사실상 14 년 2021 월 XNUMX 일에 개최됩니다.  

데이비드 브레이, PhD는 비영리 단체의 창립 이사입니다. 대서양 협의회 GeoTech Center, 그리고 이벤트 프로그램에 기여한 사람; 

앤서니 스크 리피 냐노  PhD, 수석 부사장 겸 최고 데이터 과학자 Dun & Bradstreet; 

과 조앤로, PhD는 Elysian Labs. 

AI World Executive Summit에서 강조하고 싶은 것은 무엇입니까? 

David Bray, PhD, Atlantic Council GeoTech Center 창립 이사

데이비드 : “AI는 어떤 질문에 답해야하는지 파악하는 데 도움이 될 때 최선을 다합니다. 우리는 빠른 속도로 변화하는 세상에 살고 있습니다. 어떤면에서는 이러한 변화의 전체 범위를 아직 알지 못합니다.-특히 COVID-19 유행 기간 동안. 올바른 질문을 아는 것은 우리가 더 나은 세상을 향해 일하는 데 도움이 될 것입니다. AI는 우리가 기업, 정부 및 사회로 운영되는 방식에 디지털 거울을 유지하는 데 도움이 될 수 있습니다. - 자신의 더 나은 버전이되기 위해 노력합니다.”  

그는 AI 시스템이 편향된 결과를 생성하는 경우“그것은 우리가 공급하는 데이터를 반영하며 이는 우리를 반영합니다. 해결책의 일부는 노출되는 데이터를 변경하는 것입니다. "  

조앤 : “찾고 싶은 것에 대한 대략적인 아이디어가있을 때 AI는 질문을 구체화하고 도달 할 수 있도록 도와줍니다. 자동 완성의 스마트 버전이라고 생각하십시오. 하지만 문장을 완성하는 대신 전체 아이디어를 완성하는 것입니다.” 

예를 들어, 내일 운전하고 싶다고 디지털 비서에게 말할 수 있습니다. 당신이 좋아하는 것이 무엇인지, 당신의 역사와 연령대를 알면 내일 해변에 가라는 제안과 함께 돌아옵니다. “그게 무슨 뜻인지 스스로에게 물어봐야합니다. 의사 결정 과정이 기계와의 협력입니까? 기계로 얼마나 작업 할 의향이 있습니까? 얼마나 포기할 의향이 있습니까? 대답은 매우 개인적이며 상황에 따라 다릅니다.”  

그녀는“기계가 나의 최적의 휴가 위치를 알려주기를 원하지만 기계가 내 아이의 이름을 선택하는 것을 원하지 않을 수도 있습니다. 아니면 내가 할 수도 있습니다. 그것은 당신에게 달려 있습니다. 결정은 개인적입니다, which는 당신이 물어야 할 질문은 얼마나 기꺼이 포기할 것인가? 당신의 경계는 무엇입니까?”  

그리고 AI에게 대답하도록 요청하는 질문은 Google에 충분히 간단하지 않은 질문이어야합니다. “학교, 언어 몰입 프로그램, 수학 몰입 프로그램 또는 STEM 연구 프로그램에 자녀를 어디로 보내야하는지에 대한 질문에 대해 Google이 도움을 드릴 수 없다고 확신합니다.그것은 당신에게 달려 있습니다.” 

 

윤리적 AI를 추구하면서 얻은 교훈 

Timnit Gebru과 더 이상 Google을 사용하지 않는 AI 윤리학자인 그녀의 상사 Margaret Mitchell의 경험에서 지금까지 어떤 교훈을 배웠습니까? 

Anthony Scriffignano, PhD, Dun & Bradstreet의 수석 부사장 겸 최고 데이터 과학자

앤서니 : “업계가 무언가를 시도하는 데 앞장서 지 않으면 규제 당국은 그렇게 할 것입니다. 업계가 규제 기관과 잘 협력하는 방법은 자체 규제입니다. 윤리는 취해야 할 엄청난 영역이며 많은 정의가 필요합니다.  

“OECD [Anthony가 AI 전문가로 일하고있는 경제 협력 개발기구]는 AI와 윤리 원칙에 대해 연구하고 있습니다. 전 세계의 전문가들이 정말로 여기에 기대고 있습니다. 모든 사람이 원하는만큼 간단하지 않습니다. 오늘보다 더 쉬울 수 없기 때문에 우리는 그것에 의지하는 것이 좋습니다.” 

Lo의 생각을 떠올리며 그는“우리는 이미 디지털 에이전트로부터 방향을 취하고 있습니다. Outlook에서 모임에 가라고하면 이동합니다. 문제는 우리가 얼마나 기꺼이 포기할 것인가입니다. AI가 더 나은 결정을 내릴 수 있다고 생각하거나, 다른 일을 할 수 있도록 자유를 주거나, 내 자신의 나쁜 결정으로부터 나를 보호 할 수 있다고 생각한다면, 그렇다고 대답하는 경향이 있습니다. " 그러나 그가 윤리와 소외에 대해 생각해야한다면 더 복잡해집니다.   

그는“앞으로 컴퓨터가해야 할 일을 알려주는 것만으로는 충분하지 않을 것입니다. 우리는 그것과 함께 일해야 할 것입니다. AI는 우리가 취할 가능성이 더 높은 조언에 수렴 할 것입니다. " 

데이비드 : 인식ING 문제의 실제 우려와 뉘앙스가 깊이 다루어지지 않는 경우가 많습니다., 그 지원이며, "양측이 원하는 말을 듣고 있습니다." 앞으로 그는 회사 외부의 전문가들과 어느 정도의 참여 또는 감독이 진행되는 것을보고 싶습니다. “대중이 데이터와 AI에 어느 정도 참여한다고 느끼지 않으면 사람들은 자신의 편견으로 공간을 채울 것이며 주변에 잘못된 정보가 생길 것입니다. 이는 기업이 처음부터 옴부즈맨과 같은 다양한 대중 구성원을 참여시키는 방법에 대해 사전에 생각할 필요가 있음을 시사합니다. 우리는 딸꾹질이 발생했을 때 '커튼 뒤에서 무슨 일이 일어나고 있는지 모르겠다'가 아닌 사람들과 함께 AI를 수행하는 방법을 찾아야합니다."  

그는“모든 사람이 최선을 다하기 위해 노력하고 있다고 가정합니다. 그들에게 동기를 부여하는 인센티브는 다른 장소에있을 수 있습니다. 모두가 자신이 옳은 일을하고 있다고 생각한다면, 구조 시스템이 덜 편향적으로 나올 것이라는 확신을 사람들에게 제공하는 데이터와 AI를 추적하는 구조적 솔루션을 어떻게 만들 수 있을까요? 데이터 신뢰를 위해 노력하는 것은 좋은 일입니다. 첫 번째 단계는 데이터에 대한 선택 및 제어 권한이있는 것처럼 느껴야한다는 것입니다. "  

“조직의 비즈니스가 보유한 데이터의 배타성을 중심으로 구축된다면, 사람과 사람과 사람을 "대상으로"AI를 "함께"수행하는 미래를 탐색하기가 더 어려워 질 수 있습니다. 회사에서 커튼 뒤의 마법사에게주의를 기울이지 마십시오. 신뢰를 얻기가 어렵습니다. "  

그는 유럽 국가들이 데이터 프라이버시 및 AI를 포함한 기타 디지털 주제에 대해 더 엄격한 표준을 고려하고 있다고 언급했습니다. "유럽의 노력은 좋은 의도이며 균형을 이루어야합니다." 그가 조언을받은 의료 데이터에 대한 개인 정보 보호 표준을 정의하려는 유럽의 노력은 10 년에서 15 년 동안의 법원 소송에서 해결 될 것이며, 이것이 의료 혁신을 억압할지 아니면 저해할지에 대한 질문을 제기 할 것입니다. 동시에“중국의 모델은 당신의 데이터가 미국이나 유럽이 추구하는 미래가 아닌 정부에 속한다는 것입니다.”   

그는“우리는 신뢰를 불러 일으키는 몇 가지 일반적인 운영 원칙을 찾아야하며 한 가지 방법은 AI 활동을 검토하기 위해 인간 배심원을 통하는 것일 수 있습니다.”라고 덧붙였습니다. 

 

필요한 AI 과실을 검토하는 방법 

AI 과실을 검토하기위한 'AI 배심원'아이디어 :  

Joanne Lo, PhD는 Elysian Labs의 CEO입니다.

조앤 : “제게 가장 중요한 교훈 [에 최근 Google 윤리 경험에서 배울 수있는 것은] 정부와 정책 입안이 기술 개발에서 뒤처지고 있다는 것입니다. 수십 년은 아니더라도 몇 년 동안. 저는 규제 통과에 대해 말하는 것이 아니라 기술이 사회, 특히 미국의 민주주의에 어떻게 영향을 미칠 것인지, 정부가 그것에 대해 말해야하는 것을 이해하는 한 단계 전에 이야기합니다. 그 지점에 도달하면 정책에 대해 이야기 할 수 있습니다.”   

그녀는“정부가 우리 사회에 어떤 기술이 있는지에 대한 결정을 내리는 데 뒤처지고있다. 이러한 정부의 이해 지연은 국가 안보 문제로 발전했습니다. 페이스 북과 모든 소셜 미디어 플랫폼이 정부 개입없이했던 방식을 개발하면 결국 적대적인 카운티가 민주주의의 기초를 이용하고 공격 할 수있는 플랫폼이되는 것입니다.”   

“정부는 그것에 대해 무엇을 할 것인가? 정부는 이것이 옳지 않다고 말하는 엔지니어들과 함께 할 것인가, 우리는 정부가 개입하기를 원하며, 내부 고발자를 보호하기위한 더 나은 법률, 윤리를 지원할 더 나은 조직을 원할까요? 정부가 실제로 뭔가를 할 것인가?” 

앤소니: "그 흥미 롭군요. 특정 원칙에 동의 할 수 있으며 AI가 해당 원칙을 위반하지 않았 음을 증명하기 위해 감사 할 수 있어야합니다. AI가 편파적이라고 비난하면 증명하거나 반증 할 수 있어야합니다-인종 편견이든 확증 편향이든, 또는 경제적으로 한 그룹을 다른 그룹보다 선호합니다. AI가 편향되지 않았지만 데이터에 편향이 있다고 결론을 내릴 수도 있습니다.” 

“이것은 매우 미묘한 것입니다. 동료 12 명의 배심원이라면 '동료'가 중요하다. 그들은 비슷한 교육을 받고 비슷한 경험을해야합니다. 진정한 배심원은 각계 각층에서 나옵니다.”  

에서 자세히 알아보십시오 AI World Executive Summit : AI의 미래, 이러한 토론 및 기타 내용이 계속됩니다. 

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://www.aitrends.com/ai-world/ai-world-executive-summit-important-to-ask-the-right-questions/

AI

Deepfake 탐지기 및 데이터 세트가 인종 및 성별 편견을 나타낸다고 USC 연구에 따르면

화신

게재

on

이번 2021 월 12 일부터 16 일까지 Transform XNUMX에 참여하세요. FO 등록r 올해의 AI 이벤트.


일부 전문가는 머신 러닝 도구를 사용하여 딥 페이크 또는 기존 비디오에있는 사람을 다른 사람의 초상으로 대체하는 비디오를 만들 수 있다는 우려를 표명했습니다. 두려움은 이러한 가짜가 선거 중에 의견을 흔들거나 범죄에 연루되는 것과 같은 일을하는 데 사용될 수 있다는 것입니다. 이미 딥 페이크가 남용되어 음란물 배우의 주요 에너지를 속이고 제작자.

다행히 딥 페이크를 감지하는 자동화 된 방법을 개발하기위한 노력이 진행 중입니다. Amazon 및 Microsoft와 함께 Facebook은 딥 페이크 감지 챌린지, 지난 XNUMX 월에 종료되었습니다. 챌린지의 출시는 시각적 딥 페이크의 큰 코퍼스 Google의 내부 기술 인큐베이터 인 Jigsaw와 협력하여 제작되었으며, 이는 합성 비디오 감지 시스템 개발을 위해 연구원이 무료로 사용할 수있는 벤치 마크에 통합되었습니다. 보다 최근에 Microsoft는 미디어가 인위적으로 조작되지 않았다는 신뢰 수준에 대한 점수를 제공하기 위해 스틸 사진 또는 비디오를 분석 할 수있는 시스템 인 Video Authenticator에서 자체 딥 페이크 전투 솔루션을 출시했습니다.

그러나 서던 캘리포니아 대학의 연구원에 따르면 딥 페이크 탐지 시스템을 훈련하는 데 사용되는 데이터 세트 중 일부는 특정 성별이나 특정 피부색을 가진 사람들을 과소 표현할 수 있습니다. 이 편향은 딥 페이크 탐지기에서 증폭 될 수 있으며 일부 탐지기에서는 인종 그룹에 따라 오류율이 최대 10.7 % 차이가 나기도합니다.

편향된 딥 페이크 감지기

그 결과는 놀랍지 만 컴퓨터 비전 모델이 해롭고 만연한 편견에 취약하다는 이전 연구와 일치합니다. 지난 가을 신문 콜로라도 대학교에서 볼더 연구원은 Amazon, Clarifai, Microsoft 및 기타 업체의 AI가 시스 젠더 남성과 여성의 정확도를 95 % 이상으로 유지했지만 트랜스 남성을 38 %의 시간 동안 여성으로 잘못 인식했음을 입증했습니다. 주요 공급 업체 시스템의 독립적 인 벤치 마크 성별 가리개 프로젝트 NIST (National Institute of Standards and Technology) 안면 인식 기술이 인종 및 성별 편견을 보여주고 현재 안면 인식 프로그램이 매우 부정확 할 수 있으며 시간의 96 %.

University of Southern California 그룹은 "딥 페이크 비디오 탐지에서 입증 된 성공"으로 세 가지 딥 페이크 탐지 모델을 살펴 보았습니다. 모두 Google의 DeepfakeDetection, CelebDF 및 DeeperForensics-1.0을 포함한 말뭉치뿐만 아니라 딥 페이크 감지기에 일반적으로 사용되는 FaceForensics ++ 데이터 세트에서 훈련되었습니다.

벤치 마크 테스트에서 연구원들은 모든 감지기가 더 어두운 검은 색 얼굴, 특히 남성 검은 색 얼굴을 가진 비디오에서 최악의 성능을 보였다는 것을 발견했습니다. 여성 아시아 인 얼굴이 포함 된 동영상의 정확도가 가장 높았지만 데이터 세트에 따라 탐지기는 백인 (특히 남성)과 인도인 얼굴에서도 잘 작동했습니다. .

연구원들에 따르면 딥 페이크 탐지 데이터 세트는 성별 및 인종 그룹 측면에서“강하게”불균형을 보였으며 FaceForensics ++ 샘플 비디오는 여성이 58 % (대부분 백인)가 남성 41.7 %에 비해 더 많았습니다. 실제 동영상의 5 % 미만이 흑인 또는 인도인을 보여 주었고 데이터 세트에는 한 사람의 얼굴이 다른 인종이나 성별의 다른 사람으로 바뀌는 "불규칙한 교체"가 포함되어있었습니다.

이러한 불규칙한 스왑은 완화 바이어스는 사실 탐지기의 바이어스의 적어도 일부에 대한 책임이라고 공동 저자들은 가설을 세웠다. 데이터 세트에 대해 훈련 된 탐지기는 가짜와 예를 들어 아시아 얼굴 특징 간의 상관 관계를 학습했습니다. 한 코퍼스는 아시아 인 얼굴을 여성 백인 얼굴과 여성 히스패닉 얼굴로 바꾼 전경 얼굴로 사용했습니다.

“실제 시나리오에서 여성 아시아 인 또는 여성 아프리카 인의 얼굴 프로필은 백인 남성 프로필보다 가짜로 잘못 분류 될 가능성이 1.5 ~ 3 배 더 높습니다. 가짜로 잘못 식별 된 실제 피험자의 비율이 훨씬 더 클 수 있습니다. 연구자들은 남성보다 여성이 더 많았다.

실제 위험

이 발견은 "최고의"AI 시스템이라고해서 반드시 흠 잡을 데없는 것은 아니라는 사실을 완전히 상기시켜줍니다. 공동 저자가 언급했듯이, 연구에서 적어도 하나의 딥 페이크 탐지기는 테스트 데이터 세트에서 90.1 %의 정확도를 달성했습니다.

연구진은“전체 데이터 세트에 대한 탐지 정확도와 같은 단일 성능 지표를 사용하는 것만으로는 딥 페이크 탐지기의 대규모 상업적 출시를 정당화하기에 충분하지 않습니다. “딥 페이크가 더욱 널리 보급됨에 따라 딥 페이크를 방지하기 위해 자동화 시스템에 대한 의존도가 증가하고 있습니다. 우리는 실무자들이 이러한 고 영향 시스템의 모든 사회적 측면과 결과를 조사해야한다고 주장합니다.”

이 연구는 상업용 딥 페이크 비디오 탐지 시장의 성장에 비추어 특히시기 적절합니다. 암스테르담 기반 Deeptrace Labs 소셜 미디어, 비디오 호스팅 플랫폼 및 허위 정보 네트워크에 업로드 된 딥 페이크를 분류하기위한 모니터링 제품 모음을 제공합니다. 이들 조작 된 비디오의 데이터 세트에 대해 훈련 된 딥 페이크 감지기를 개선하기위한 기술을 제안했습니다. 그리고 Truepic 8 년 2018 월에 XNUMX 만 달러의 기금 모금 비디오 및 사진 딥 페이크 감지 서비스를 제공합니다. 2018 년 XNUMX 월,이 회사는 DARPA에서 가짜 이미지 탐지기를 라이센스 한 또 다른 딥 페이크 "서비스로서의 탐지"스타트 업인 Fourandsix를 인수했습니다.

VentureBeat

VentureBeat의 사명은 기술 의사 결정권자가 혁신적인 기술과 거래에 대한 지식을 습득 할 수있는 디지털 타운 스퀘어가되는 것입니다. 당사 사이트는 데이터 기술 및 전략에 대한 필수 정보를 제공하여 조직을 이끌 때 안내합니다. 다음에 액세스 할 수 있도록 커뮤니티의 일원이되도록 귀하를 초대합니다.

  • 관심있는 주제에 대한 최신 정보
  • 뉴스 레터
  • 금지 된 사고 리더 콘텐츠 및 다음과 같은 소중한 이벤트에 대한 할인 된 액세스 변환 2021: 더 알아보기
  • 네트워킹 기능 등

회원 가입

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://venturebeat.com/2021/05/06/deepfake-detectors-and-datasets-exhibit-racial-and-gender-bias-usc-study-shows/

계속 읽기

AI

AI는 대규모 의료 문제를 해결할 준비가되어 있습니다

화신

게재

on

어떤 질병이 발생하는지 연간 총 경제적 부담이 가장 높습니까? 당뇨병, 암, 심장병 또는 비만을 추측했다면 잘못 추측 한 것입니다. 막대한 재정적 부담에 도달 $ 966 억 2019 년 희귀 질환 비용은 당뇨병 (327 억 달러), 암 (174 억 달러), 심장병 (214 억 달러) 및 기타 만성 질환을 훨씬 앞섰습니다.

인지 지능 또는인지 컴퓨팅 솔루션은 신경망, 기계 학습 및 자연어 처리와 같은 인공 지능 기술을 혼합하고 인간 지능을 모방 할 수 있습니다.

희귀 한 질병이 떠오르지 않았다는 것은 놀라운 일이 아닙니다. 정의에 따라 희귀 질환은 200,000 명 미만의 사람들에게 영향을 미칩니다. 그러나 총체적으로 수천 개의 희귀 질환이 있으며 전 세계적으로 약 400 억 명의 사람들에게 영향을 미칩니다. 희귀 질환 환자의 약 절반은 어린이이며, 전형적인 환자는 젊거나 나이가 많고 XNUMX 년 이상 지속되는 진단 오디세이를 견디며 수많은 검사를 받고 수많은 전문가를 만나 궁극적으로 진단을받습니다.

더 이상 문샷 도전이 아닙니다.

진단 오디세이를 단축하고 관련 비용을 줄이는 것은 최근까지 문샷 문제 였지만 이제는 도달 할 수 있습니다. 희귀 질환의 약 80 %는 유전 적이며, 기술과 AI의 발전이 결합되어 유전자 검사를 광범위하게 이용할 수 있습니다.

전체 인간 DNA를 검사 할 수있는 고급 유전자 검사 인 전체 게놈 시퀀싱은 현재 1,000 달러 미만이며 시장 리더 인 Illumina는 가까운 장래에 100 달러 게놈을 목표로 삼고 있습니다.

나머지 과제는 인간 건강의 맥락에서 데이터를 해석하는 것입니다. 이는 사소한 문제가 아닙니다. 전형적인 인간은 5 백만 개의 고유 한 유전 적 변이를 포함하고 있으며 그중 하나는 질병을 유발하는 변이를 확인하는 데 필요합니다. 최근인지 AI의 발전으로 사람의 전체 게놈 서열을 조사하고 질병을 유발하는 메커니즘을 자동으로 식별하여 인간의 능력을 강화할 수 있습니다.

좁은 AI에서인지 AI 로의 전환

광범위하게 사용 가능한 AI 솔루션으로가는 길에는 좁은 기계 학습 모델에서보다 넓은 기계 학습 모델로의 패러다임 전환이 필요했습니다. 게놈 데이터를 해석하는 과학자들은 다양한 출처에서 수집 된 수천 개의 데이터 포인트를 다양한 형식으로 검토합니다.

인간 게놈 분석에는 100 시간이 소요될 수 있으며 전 세계적으로 자격을 갖춘 과학자는 수천 명에 불과합니다. 우리가 $ XNUMX 게놈에 도달하면 분석가들은 50 천만 ~ 60 천만 명 매년 DNA 염기 서열을 분석합니다. 그들의 건강과 관련하여 생성 된 데이터를 어떻게 분석 할 것인가? 그것이인지 지능이 들어오는 곳입니다.

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://techcrunch.com/2021/05/06/ai-is-ready-to-take-on-a-massive-healthcare-challenge/

계속 읽기

AI

Amazon Translate로 대용량 문서 번역을위한 서버리스 파이프 라인 생성

화신

게재

on

우리의 이전 게시물, 우리는 실시간 번역 API 에 아마존 번역 와 AWS 람다. 그러나이 방법은 너무 큰 파일에는 작동하지 않을 수 있습니다. 너무 많은 시간이 소요되어 15 분 제한 시간 Lambda 함수의. 하나는 사용할 수 있습니다 배치 API, 그러나 이것은 XNUMX 개의 AWS 리전에서만 사용할 수 있습니다 (이 블로그 게시 기준). 일괄 번역이 지원되지 않는 지역에서 대용량 파일을 번역 할 수 있도록 다음 솔루션을 만들었습니다.

이 게시물에서는 대용량 문서의 번역을 수행하는 방법을 안내합니다.

아키텍처 개요

게시물에 소개 된 아키텍처와 비교 Amazon Translate, AWS Lambda 및 새로운 Batch Translate API를 사용하여 문서 번역, 우리 아키텍처에는 한 가지 주요 차이점이 있습니다. AWS 단계 함수, Lambda 함수 및 여러 서비스를 비즈니스 크리티컬 애플리케이션으로 쉽게 시퀀싱 할 수있는 서버리스 함수 오케 스트레이터입니다. Step Functions를 사용하면 번역 실행, 오류 또는 시간 초과시 재시도 관리, 이벤트 중심 워크 플로 조정을 추적 할 수 있습니다.

다음 다이어그램은 솔루션 아키텍처를 보여줍니다.

이 이벤트 기반 아키텍처는 새 문서가 입력에 도달 할 때 작업 흐름을 보여줍니다. 아마존 단순 스토리지 서비스 (Amazon S3) 버킷. 이 이벤트는 Step Functions 워크 플로의 시작점 역할을하는 첫 번째 Lambda 함수를 트리거합니다.

다음 다이어그램은 상태 머신과 작업 흐름을 보여줍니다.

Process Document Lambda 함수는 상태 시스템이 시작될 때 트리거됩니다. 이 기능은 문서 번역에 필요한 모든 활동을 수행합니다. S3 버킷에서 파일에 액세스하고, 함수가 실행되는 환경에서 로컬로 다운로드하고, 파일 내용을 읽고, 실시간 번역 API를 통해 전달할 수있는 문서에서 짧은 세그먼트를 추출하고, API의 출력을 사용합니다. 번역 된 문서를 만듭니다.

Amazon Translate 조절 오류 및 Lambda 함수 시간 초과 처리와 같은 다른 메커니즘은 코드 내에 구현되어 함수 시간 초과 30 초 전에 / temp 폴더에 수행 된 진행 상황을 조치를 취하고 저장하여 저장합니다. 이러한 메커니즘은 큰 텍스트 문서를 처리하는 데 중요합니다.

함수가 처리를 성공적으로 완료하면 영어의 경우 en과 같이 대상 언어 코드 용 폴더 내의 출력 S3 버킷에 번역 된 텍스트 문서를 업로드합니다. Step Functions 워크 플로는 Lambda 함수가 입력 파일을 / drop 폴더에서 입력 S3 버킷 내의 / processed 폴더로 이동하면 종료됩니다.

이제이 작업을 수행 할 수있는 모든 부분이 준비되었습니다.

AWS CloudFormation을 사용하여 솔루션 배포

제공된 AWS 계정을 시작하여이 솔루션을 배포 할 수 있습니다. AWS CloudFormation 스택. CloudFormation 템플릿은 솔루션에 필요한 리소스를 프로비저닝합니다. 템플릿은 us-east-1 리전에 스택을 생성하지만이 템플릿을 사용하여 Amazon Translate를 사용할 수있는 모든 리전에서 스택을 생성 할 수 있습니다. 이 글을 쓰는 시점에서 Amazon Translate는 16 개 상용 리전과 AWS GovCloud (미국 서부)에서 사용할 수 있습니다. 최신 지역 목록은 AWS 지역 서비스 목록.

애플리케이션을 배치하려면 다음 단계를 완료하십시오.

  1. 다음을 선택하여 CloudFormation 템플릿을 시작합니다. 발사 스택:

  1. 선호하는 다음.

또는 AWS CloudFormation 콘솔에서 새 리소스로 스택 생성 (표준), 선택하다 아마존 S3 URL 템플릿 소스로 다음을 입력합니다. https://s3.amazonaws.com/aws-ml-blog/artifacts/create-a-serverless-pipeline-to-translate-large-docs-amazon-translate/translate.yml, 선택 다음.

  1. 스택 이름,이 계정에 대한 고유 한 스택 이름을 입력하십시오. 예를 들어 서버리스 문서 번역입니다.
  2. InputBucketName에서 스택이 생성하는 S3 버킷의 고유 한 이름을 입력합니다. 예 : serverless-translation-input-bucket.

문서는 번역되기 전에이 버킷에 업로드됩니다. 입력 S3 버킷의 이름을 제공 할 때는 소문자 만 사용하고 공백은 사용하지 마십시오. 이 작업은 새 버킷을 생성하므로 기존 버킷의 이름을 사용하지 마십시오. 자세한 내용은 버킷 이름 지정 규칙.

  1. OutputBucketName, 출력 S3 버킷의 고유 이름을 입력하십시오. 예 : serverless-translation-output-bucket.

이 버킷은 번역 된 문서를 저장합니다. 입력 버킷과 동일한 이름 지정 규칙을 따릅니다.

  1. 소스 언어 코드, 입력 문서가있는 언어 코드를 입력하십시오. 이 게시물에서는 지배적 인 언어를 감지하기 위해 auto를 입력합니다.
  2. 대상 언어 코드, 번역 된 문서에 사용할 언어 코드를 입력하십시오. 예를 들어 영어는 en입니다.

지원되는 언어 코드에 대한 자세한 내용은 지원되는 언어 및 언어 코드.

  1. 선호하는 다음.

  1. 스택 옵션 구성 페이지에서 태그를 포함하여 스택에 대한 추가 매개 변수를 설정합니다.
  2. 선호하는 다음.
  3. 고르다 AWS CloudFormation이 사용자 지정 이름으로 IAM 리소스를 생성 할 수 있음을 인정합니다.
  4. 선호하는 스택 생성.

스택 생성을 완료하는 데 약 XNUMX 분이 걸립니다.

문서 번역

이제 drop / 폴더 아래의 입력 S3 버킷으로 번역하려는 텍스트 문서를 업로드 할 수 있습니다.

다음 스크린 샷은 그리스어로 된 문장이 포함 된 샘플 문서를 보여줍니다.

이 작업은 워크 플로를 시작하고 번역 된 문서는 대상 언어 폴더 (이 예에서는 en)의 출력 S3 버킷에 자동으로 표시됩니다. 파일이 표시되는 시간은 입력 문서의 크기에 따라 다릅니다.

번역 된 파일은 다음 스크린 샷과 같습니다.

Step Functions 콘솔에서 또는 관련 API 호출을 사용하여 상태 시스템의 진행 상황을 추적 할 수도 있습니다.

더 큰 파일로 솔루션을 시도해 보겠습니다. test_large.txt 파일에는 여러 AWS 블로그 게시물의 콘텐츠와 독일어로 작성된 기타 콘텐츠가 포함되어 있습니다 (예 : 게시물의 모든 텍스트를 사용합니다. AWS DeepLens (버전 2019) kommt nach Deutschland und in weitere Länder).

이 파일은 이전 테스트의 파일보다 훨씬 큽니다. 입력 버킷의 drop / 폴더에 파일을 업로드합니다.

Step Functions 콘솔에서 상태 머신의 상태를 확인하여 파이프 라인이 실행 중인지 확인할 수 있습니다.

그래프 검사기 페이지에서 주어진 시점에서 상태 머신의 상태에 대한 더 많은 통찰력을 얻을 수 있습니다. 단계를 선택하면 단계 출력 탭에는 완료율이 표시됩니다.

상태 머신이 완료되면 출력 버킷에서 번역 된 파일을 검색 할 수 있습니다.

다음 스크린 샷은 파일이 영어로 번역되었음을 보여줍니다.

문제 해결

출력 S3 버킷에 번역 된 문서가 표시되지 않으면 Amazon CloudWatch Logs 해당 Lambda 함수를 찾고 잠재적 인 오류를 찾습니다. 비용 최적화를 위해 솔루션은 기본적으로 Process Document Lambda 함수에 256MB의 메모리를 사용합니다. 대용량 문서를 처리하는 동안 CloudWatch Logs의 함수에 대해 Runtime.ExitError가 표시되면 함수 메모리를 늘리십시오.

기타 고려 사항

의 힘을 강조 할 가치가 있습니다. 자동 언어 감지 기능 CloudFormation 스택을 배포 할 때 지정한 SourceLanguageCode 필드에 자동으로 캡처 된 Amazon Translate의. 이전 예에서는 그리스어 텍스트와 독일어로 된 다른 파일이 포함 된 파일을 제출했으며 둘 다 성공적으로 영어로 번역되었습니다. 이 솔루션을 사용하면 다른 언어로 소스 파일을 업로드 할 때마다 스택을 다시 배포하거나 Lambda 함수에서 소스 언어 코드를 수동으로 변경할 필요가 없습니다. Amazon Translate는 출발 어를 감지하고 번역 프로세스를 시작합니다. 배포 후 대상 언어 코드를 변경해야하는 경우 새 CloudFormation 스택을 배포하거나 기존 스택을 업데이트 할 수 있습니다.

이 솔루션은 Amazon Translate 동기식 실시간 API를 사용합니다. 문서를 단락 (개행 문자로 끝나는)으로 분할하여 최대 문서 크기 제한 (5,000 바이트)을 처리합니다. 필요한 경우 각 단락을 문장으로 추가 분할합니다 (마침표로 끝남). 소스 텍스트에 따라 이러한 구분 기호를 수정할 수 있습니다. 이 솔루션은 단일 문장에 대해 최대 5,000 바이트를 지원할 수 있으며 파일 확장자가 .txt 또는 .text 인 UTF-8 형식의 텍스트 문서 만 처리합니다. Process Document Lambda 함수에서 Python 코드를 수정하여 다양한 파일 형식을 처리 할 수 ​​있습니다.

Amazon S3 비용 외에도이 솔루션에는 Amazon Translate, Lambda 및 Step Functions의 사용 비용이 발생합니다. 자세한 내용은 Amazon Translate 요금, Amazon S3 요금, AWS Lambda 요금AWS Step Functions 요금.

결론

이 게시물에서는 다음을 사용하여 실시간으로 문서를 번역 할 수있는 서버리스 파이프 라인의 구현을 보여주었습니다. 실시간 번역 Amazon Translate의 기능과 개별 Lambda 함수의 오케 스트레이터로서 Step Functions의 기능. 이 솔루션을 사용하면 더 많은 제어가 가능하고 애플리케이션에 정교한 기능을 추가 할 수 있습니다. Amazon Translate로 고급 문서 번역 파이프 라인을 구축하십시오!

자세한 내용은를 참조 Amazon Translate 개발자 안내서Amazon Translate 리소스. Amazon Translate를 처음 사용하는 경우 첫 번째 번역 요청부터 시작하여 처음 2 개월 동안 무료로 월 12 백만자를 제공하는 프리 티어를 사용해보십시오.


저자에 관하여

제이 라오 AWS의 선임 솔루션 아키텍트입니다. 그는 고객에게 기술 지침을 제공하고 고객이 AWS에서 솔루션을 설계하고 구현하도록 돕는 것을 즐깁니다.

 Seb Kasprzak AWS의 솔루션 아키텍트입니다. 그는 Amazon에서 고객이 Amazon 기술을 사용하여 복잡한 비즈니스 문제를 해결할 수 있도록 도와줍니다.

니키 포로스 보 티스 AWS의 솔루션 아키텍트입니다. 그는 고객이 클라우드 여정에서 성공하도록 돕는 것을 즐기고 있으며 특히 AI / ML 기술에 관심이 있습니다.

바비 쿠 보르 AWS의 디지털 혁신을위한 선임 솔루션 아키텍트로서 고객이 기계 학습, 로봇 공학 및 IoT와 같은 신흥 기술의 까다로운 문제를 해결하도록 돕습니다.

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://aws.amazon.com/blogs/machine-learning/create-a-serverless-pipeline-to-translate-large-documents-with-amazon-translate/

계속 읽기

AI

Genworth가 Amazon SageMaker 및 AWS Glue를 사용하여 AWS에서 서버리스 ML 파이프 라인을 구축 한 방법

화신

게재

on

이 게시물은 Genworth Mortgage Insurance Australia Limited의 데이터 과학자 인 Liam Pearson과 공동으로 작성되었습니다.

Genworth Mortgage Insurance Australia Limited는 호주의 선도적 인 대출 기관 모기지 보험 (LMI) 제공 업체입니다. 그들의 주식은 호주 증권 거래소에서 ASX : GMA로 거래됩니다.

Genworth Mortgage Insurance Australia Limited는 모기지 상환 패턴과 보험 청구 간의 종속성에 대한 데이터를 포함하여 50 년 이상의 경험과 수집 된 데이터를 보유한 대출자 모기지 보험사입니다. Genworth는이 기록 정보를 사용하여 PALM (Predictive Analytics for Loss Mitigation) 기계 학습 (ML) 모델을 학습하고자했습니다. ML 모델을 통해 Genworth는 각 보험 정책에 대한 최근 상환 패턴을 분석하여 가능성 (청구 가능성) 및 영향 (보험 금액)의 내림차순으로 우선 순위를 지정할 수 있습니다. Genworth는 솔루션을 구축하고 운영하기위한 노력의 양을 최소화하면서 ML 모델에 대해 병렬 및 일정에 따라 일괄 추론을 실행하기를 원했습니다. 따라서 Genworth와 AWS는 아마존 세이지 메이커 일괄 변환 작업 및 서버리스 빌딩 블록을 사용하여 데이터를 수집 및 변환하고, ML 추론을 수행하고, 분석 결과를 처리 및 게시합니다.

Genworth의 고급 분석 팀은 AWS 데이터 랩 데이터 랩 엔지니어 및 솔루션 설계자가 이끄는 프로그램. 랩 전 단계에서 그들은 금융 서비스 산업의 특성을 고려할 때 특히 보안 제어와 관련하여 Genworth의 특정 요구 사항에 맞는 솔루션 아키텍처를 만들었습니다. 아키텍처가 승인되고 모든 AWS 빌딩 블록이 식별 된 후 교육 요구 사항이 결정되었습니다. AWS Solutions Architects는 Genworth의 빌더에게 새로운 솔루션을 구축하는 데 필요한 기술을 제공하기 위해 일련의 실습 워크숍을 실시했습니다. Genworth Advanced Analytics 팀은 빌드 단계라고하는 4 일간의 집중적 인 공동 작업에서 아키텍처와 학습을 사용하여 기능 요구 사항에 맞는 ML 파이프 라인을 구축했습니다. 파이프 라인은 완전히 자동화되고 서버리스이므로 유지 관리, 확장 문제 또는 다운 타임이 없습니다. 실습 후 활동은 파이프 라인을 생산하고 다른 ML 사용 사례에 대한 청사진으로 채택하는 데 중점을 두었습니다.

이 게시물에서 우리 (Genworth와 AWS Architects의 공동 팀)는 솔루션의 설계 및 구현에 어떻게 접근했는지, 우리가 따랐던 모범 사례, 사용한 AWS 서비스 및 솔루션 아키텍처의 주요 구성 요소에 대해 설명합니다.

솔루션 개요

Genworth를위한 PALM 솔루션을 구현하기 위해 최신 ML 파이프 라인 패턴을 따랐습니다. 이 패턴을 사용하면 다양한 소스에서 데이터를 수집 한 후 데이터를 변환, 보강 및 정리 한 다음 ML 예측 단계를 수행하여 출력 데이터 랭 글링 유무에 관계없이 사용할 수있는 결과로 마무리 할 수 ​​있습니다.

간단히 말해, 구현 된 솔루션에는 세 가지 구성 요소가 있습니다.

  • 데이터 수집 및 준비
  • 세 가지 사용자 지정 개발 ML 모델을 사용한 ML 일괄 추론
  • 소비를위한 데이터 후 처리 및 게시

다음은 구현 된 솔루션의 아키텍처 다이어그램입니다.

세 가지 구성 요소에 대해 자세히 살펴 보겠습니다.

구성 요소 1 : 데이터 수집 및 준비

Genworth 소스 데이터는 Oracle 온-프레미스 데이터베이스의 스테이징 테이블에 매주 게시됩니다. ML 파이프 라인은 AWS 접착제 작업 (다이어그램의 1 단계, 데이터 수집)을 통해 Oracle 데이터베이스에 연결 AWS Direct Connect 원시 데이터를 수집하고 암호화 된 파일에 저장하기 위해 VPN으로 보안 연결 아마존 단순 스토리지 서비스 (Amazon S3) 버킷. 그런 다음 AWS Glue (2 단계, 데이터 준비)를 사용하여 Python 셸 작업을 실행하여 나중에 ML 추론 단계에서 사용되는 기능을 선택, 정리 및 변환합니다. 결과는 ML 소비를 위해 준비된 선별 된 데이터 세트에 사용되는 다른 암호화 된 S3 버킷에 저장됩니다.

구성 요소 2 : ML 배치 추론

Genworth의 Advanced Analytics 팀은 이미 온 프레미스에서 ML을 사용하고 있습니다. 그들은 사전 훈련 된 모델 아티팩트를 재사용하여 AWS에서 완전히 자동화 된 ML 추론 파이프 라인을 구현하기를 원했습니다. 또한 팀은 향후 ML 실험 및 구현을위한 아키텍처 패턴을 설정하여 통제 된 환경에서 아이디어를 빠르게 반복하고 테스트 할 수 있기를 원했습니다.

PALM 모델을 구성하는 세 가지 기존 ML 아티팩트는 Keras를 사용하여 계층 적 TensorFlow 신경망 모델로 구현되었습니다. 이 모델은 보험 증권이 청구를 제출할 확률, 청구가 지불 될 것으로 예상되는 확률 및 가능한 청구의 규모를 예측합니다.

각 ML 모델은 서로 다른 데이터에 대해 학습되므로 그에 따라 입력 데이터를 표준화해야합니다. 개별 AWS Glue Python 셸 작업은 각 모델에 따라이 데이터 표준화를 수행합니다. 세 가지 ML 모델은 다음을 사용하여 병렬로 호출됩니다. SageMaker 일괄 변환 작업 (3 단계, ML 배치 예측)을 통해 ML 추론을 수행하고 예측 결과를 모델 출력 S3 버킷에 저장합니다. SageMaker 일괄 변환은 컴퓨팅 리소스를 관리하고, ML 모델을 설치하고, Amazon S3와 ML 모델 간의 데이터 전송을 처리하고, 전체 데이터 세트에 대한 추론을 수행하도록 쉽게 확장합니다.

구성 요소 3 : 데이터 후 처리 및 게시

세 가지 ML 모델의 예측 결과를 사용할 준비가되기 전에 AWS Glue Python 셸 작업을 사용하여 수행 된 일련의 후 처리 단계가 필요합니다. 결과는 집계되고 점수가 매겨집니다 (4 단계, PALM Scoring), 적용된 비즈니스 규칙 (5 단계, 비즈니스 규칙), 생성 된 파일 (6 단계, 사용자 파일 생성), 이전에 검증 된 파일의 데이터 (7 단계, 유효성 검사) 이러한 단계의 출력을 온-프레미스 Oracle 데이터베이스의 테이블에 다시 게시합니다 (8 단계, 결과 제공). 솔루션은 아마존 단순 알림 서비스 (Amazon SNS) 및 Amazon CloudWatch 이벤트 새 데이터를 사용할 수있게되거나 문제가 발생하면 이메일을 통해 사용자에게 알립니다 (10 단계, 경고 및 알림).

ML 파이프 라인의 모든 단계는 다음을 사용하여 분리 및 오케스트레이션됩니다. AWS 단계 함수, Genworth는 구현의 용이성, 스캐 폴딩 대신 비즈니스 로직에 집중할 수있는 기능, 향후 실험 및 기타 ML 사용 사례에 필요한 유연성을 제공합니다. 다음 다이어그램은 Step Functions 상태 머신을 사용한 ML 파이프 라인 오케스트레이션을 보여줍니다.

비즈니스 이점과 다음 단계

최신 ML 플랫폼을 구축함으로써 Genworth는 온 프레미스에서 Oracle 데이터베이스의 데이터를 수집하고, ML 작업을 수행하고, 비즈니스가 데이터 기반 결정을 내리는 데 도움이되는 종단 간 ML 추론 프로세스를 자동화 할 수있었습니다. 기계 학습은 Genworth가 손실 완화 팀이 수행하는 고 가치 수동 작업을 단순화하는 데 도움이됩니다.

이 Data Lab 참여는 조직 내 팀이 최신 ML 및 분석 도구를 사용할 수 있도록하는 것의 중요성을 보여주었습니다. 아이디어가 얼마나 빨리 조종되고 성공한다면 생산 될 수 있는지 목격 한 놀라운 경험이었습니다.

이 게시물에서는 AWS Data Analytics 및 ML 서비스를 사용하여 서버리스 ML 파이프 라인을 대규모로 구축하는 것이 얼마나 쉬운 지 보여주었습니다. 앞서 설명한대로 서버리스 관리 형 ETL 처리 작업에는 AWS Glue를 사용하고 모든 ML 요구 사항에는 SageMaker를 사용할 수 있습니다. 빌드에서 최선을 다하십시오!

Genworth, Genworth Financial 및 Genworth 로고는 Genworth Financial, Inc.의 등록 서비스 마크이며 라이선스에 따라 사용됩니다.


저자에 관하여

 리암 피어슨 Genworth Mortgage Insurance Australia Limited의 데이터 과학자로 비즈니스 내 다양한 ​​팀을위한 ML 모델을 구축하고 배포합니다. 여가 시간에 Liam은 라이브 음악 감상, 수영, 진정한 밀레 니얼 세대처럼 으깬 아보카도를 즐깁니다.

마리아 소 콜로 바 Amazon Web Services의 솔루션 아키텍트입니다. 그녀는 기업 고객이 가장 필요한 곳에 기술 전문 지식과 변환 지침을 제공하여 레거시 시스템을 현대화하고 중요한 프로젝트를 가속화하도록 돕습니다.

V암시 크리슈나 에나 보 탈라 AWS의 데이터 랩 솔루션 아키텍트입니다. Vamshi는 사용 사례에서 고객과 협력하고 비즈니스 문제를 해결하기위한 솔루션을 설계하며 확장 가능한 프로토 타입을 구축하도록 지원합니다. 직장 밖에서 Vamshi는 RC 장비 (자동차, 보트, 드론)를 조립하고 가지고 노는 RC 애호가이며 정원 가꾸기도 즐깁니다.

코인 스마트. 유로파 최고의 비트 코인-보르 스
출처 : https://aws.amazon.com/blogs/machine-learning/how-genworth-built-a-serverless-ml-pipeline-on-aws-using-amazon-sagemaker-and-aws-glue/

계속 읽기
블록체인4 일 전

이더 리움이 처음으로 3,000 달러에 도달했으며 이제 뱅크 오브 아메리카보다 커졌습니다.

블록체인4 일 전

Munger 'Anti-Bitcoin'과 Buffett 'Annoyance'가 암호화 산업을 향하여

블록체인2 일 전

Changpeng Zhao에 따르면 Ethereum의 최근 ATH 랠리 이유

블록체인18 시간 전

Chiliz 가격 예측 2021-2025 : $ 1.76 2025 년 말까지

노름5 일 전

새로운 포켓몬 스냅 : 모든 위치를 잠금 해제하는 방법 | 완료 가이드

비행2 일 전

승무원 공격 ​​혐의로 아메리칸 항공 승객 체포

블록체인4 일 전

BNY Mellon, Bitcoin에 투자하는 회사의 주식을 소유하지 않은 것을 후회

블록체인2 일 전

마이닝 비트 코인 : 비트 코인 채굴 방법

자동차4 일 전

Ford Mach-E Co-Pilot360 드라이버 모니터링 시스템은 최대한 빨리 업데이트해야합니다.

블록체인2 일 전

마이닝 비트 코인 : 비트 코인 채굴 방법

Fintech5 일 전

Telcoin, 호주에서 송금 작업 시작

블록체인5 일 전

마이닝 비트 코인 : 비트 코인 채굴 방법

블록체인5 일 전

Thiel Capital 디렉터 : "비트 코인의 단기 손실로 인해 비트 코인에 사로 잡히지 마십시오"

비행4 일 전

영국 항공 기내에서 무질서하게 행동 한 후 벌금형 TV 스타들

블록체인4 일 전

트레이더가 알아야 할 이더 리움의 장기적인 ROI 잠재력은 다음과 같습니다.

Fintech3 일 전

말하는 핀 테크 : 고객 경험과 생산성 혁명

블록체인5 일 전

Coinbase, Crypto Analytics Company Skew 인수

블록체인4 일 전

터키, 두 명의 CEO 형제를 포함한 Thodex 사기와 관련된 6 명의 용의자 수감

AR / VR5 일 전

VR을 탐색하는 클릭 베이트 기사의 위험성

블록체인5 일 전

XNUMX 년 후 : 우즈베키스탄, Cryptocurrency 금지 해제 계획

인기순