태그: 아랍어

최근 휴가를 갔을 때 읽고 있던 전자책에서 메모를 하고 싶었습니다. 하지만 오디오 메모를 하거나 노트에 낙서를 하는 대신 Lens를 사용하여 책의 한 부분을 선택하고 복사하여 문서에 붙여넣었습니다. 궁금한 점이 생겼습니다. 이 모든 일이 내 휴대전화에서 어떻게 된 걸까요? 카메라는 모든 글꼴과 언어로 된 단어를 어떻게 인식합니까?

나는 질문의 근원을 파악하고 이미지를 텍스트로 변환하는 최전선에서 Google 직원 중 한 명인 취리히에 기반을 둔 소프트웨어 엔지니어인 Ana Manasovska와 이야기하기로 결정했습니다.

Ana, Lens에서의 작업에 대해 알려주세요.

저는 텍스트 측면에 관여하고 있으므로 앱이 텍스트를 식별하고 검색을 위해 복사하거나 입력할 필요 없이 번역할 수 있는지 확인합니다. 예를 들어, 휴대전화의 카메라를 외국어 포스터에 대면 앱이 해당 포스터의 텍스트를 번역할 수 있습니다. 그리고 시각 장애인이나 시력이 약한 사람들을 위해 텍스트를 큰 소리로 읽을 수 있습니다. 꽤 인상적입니다.

그래서 우리 팀이 하는 일의 일부는 Lens가 텍스트뿐만 아니라 텍스트의 구조도 인식하도록 하는 것입니다. 우리 인간은 문장과 단락, 블록과 열로 분리된 쓰기를 자동으로 이해하고 함께 연결되는 것을 알고 있습니다. 그러나 기계가 그것을 구별하는 것은 매우 어렵습니다.

이게 머신러닝인가요?

예. 즉, 이미지의 문자와 구조를 식별하도록 훈련한 시스템(모델이라고 함)을 사용합니다. 기존의 컴퓨팅 시스템은 이 작업을 수행할 수 있는 능력이 제한적이었습니다. 그러나 우리의 기계 학습 모델은 거대한 데이터 세트에서 "자체 학습"하도록 구축되었으며 인간과 동일한 방식으로 텍스트 구조를 구별하는 방법을 학습하고 있습니다.

시스템이 다른 언어로 작동할 수 있습니까?

예, 키릴 자모, 데바나가리 자, 중국어 및 아랍어를 포함한 30개의 스크립트를 인식할 수 있습니다. 현재로서는 라틴 알파벳 언어에서 가장 정확하지만 그곳에서도 다양한 유형의 글꼴이 문제를 야기합니다. 일본어와 중국어는 문자에 뉘앙스가 많기 때문에 까다롭습니다. 훈련받지 않은 눈에는 작은 변화처럼 보이는 것이 의미를 완전히 바꿀 수 있습니다.

귀하의 작업에서 가장 어려운 부분은 무엇입니까?

복잡하고 모호한 부분이 많아 도전적이기 때문에 이를 탐색하는 방법을 배워야 했습니다. 그리고 그것은 매우 빠르게 진행됩니다. 상황은 끊임없이 움직이고 필요한 답변을 얻으려면 많은 질문을 하고 많은 사람들과 이야기해야 합니다.

실제 코딩과 관련하여 무엇을 포함합니까?

저는 주로 C++라는 프로그래밍 언어를 사용합니다. 이 언어를 사용하면 이미지에서 단어와 구조를 나타내는 데 필요한 처리 단계를 실행할 수 있습니다.

흠, 이해가 가는군요. 어떻게 생겼나요?

이것이 C++의 모습입니다.

위의 코드는 텍스트 섹션에서 독일어만 추출하는 처리를 보여줍니다. 이미지에 독일어, 프랑스어 및 이탈리아어가 표시되어 있다고 가정해 보겠습니다. 번역을 위해 독일어만 추출됩니다. 말이 돼?

거의! 당신의 직업에 대해 무엇을 좋아하는지 말해주세요.

그것은 문제 해결에 대한 나의 평생의 사랑으로 귀결됩니다. 하지만 일상 생활에서 사용할 수 있는 것을 만들고 있다는 점도 정말 좋습니다. 취리히에 거주하고 있지만 독일어를 잘 못하므로 매일 영어 번역을 위해 Lens를 사용합니다.

코더가 하는 일 디코딩: Ana는 Lens에서 텍스트 인식에 중점을 두고 작업합니다. 그러나 그것은 실제로 무엇을 포함합니까?

세계 최고의 여성 미래학자 목록(업데이트 #5)

크라우드 펀딩2022 년 8 월 11 일

나는 모든 여성 미래학자들이 어디에 있느냐는 질문을 자주 받는다. 미래학자라는 직업이 왜 그렇게 보이는지에 대한 논의는...

도박의 역사

노름2022 년 7 월 21 일

최초의 카지노 최초의 카지노는 1863년 모나코에서 도박꾼들에게 문을 열었습니다. 이탈리아어로 "카지노"는 시골집을 의미합니다. 이런 시골집에...

1...8910 9 페이지 10

생성 데이터 인텔리전스

태그: 아랍어

최신 인텔리전스

이제 Alibaba의 AnyText를 사용하여 이미지의 텍스트를 편집할 수 있습니다

MENA의 크라우드펀딩 및 핀테크 허브로서의 사우디아라비아의 비전

백만장자의 아라비아 여행: 두바이에서 마라케시까지 럭셔리 여행

서울시, 외국인 관광객을 위한 AI 번역 서비스 시범

아부다비, 디지털 경제 활성화 위해 AI 기업 'AI71' 선보여

IESF, 월드 e스포츠 훈련캠프 개최

Valorant 7.10 패치 노트 공개: 교착 상태 버프, 팀 데스매치 변경 사항 등