제퍼넷 로고

태그: 아랍어

ABBYY Teardown – ABBYY 사용의 장단점

ABBYY는 문서 처리, 데이터 캡처 및 언어 기반 기술을 위한 솔루션을 제공하는 글로벌 기술 회사입니다. 그것은 1989 년에 설립되었습니다 ...

캐나다 주택 시장에 떠오르는 할랄 모기지

캐나다 주택 시장에 떠오르는 할랄 모기지 CBC | 아니스 헤이다리 | 21년 2022월 XNUMX일 금융 상품은 독특한...

Dish는 Amazon을 통해 해적 IPTV를 판매한 Texan으로부터 2.1만 달러를 받았습니다.

홈 > 소송 > 앱 및 사이트 > 해적 '슈퍼 아랍 IPTV' 서비스에 대한 액세스 권한을 판매한 텍사스 남성...

9년 2022월 XNUMX일 NCVirtual E-lert(조기 시작 수업 오늘 종료)

9년 2022월 9일 2022년 XNUMX월 XNUMX일 NCVirtual E-lert(Early Start Classes End Today) Filed under: virtual school — Michael K. Barbour...

중국에 다시 초점을 맞추는 미군의 국가 미디어 착취 센터

워싱턴 — 미국 관리들은 FBI, CIA, 국방 정보국 및 국가 안보국을 조정하는 허브인 국립 미디어 착취 센터를 축소할 계획입니다...

28년 2022월 29일 NCVirtual E-lert(학교 ELA 오리엔테이션 1월 XNUMX일 및 XNUMX월 XNUMX일)

29년 2022월 28일 2022년 29월 1일 NCVirtual E-lert(학교 ELA 오리엔테이션 XNUMX월 XNUMX일 및 XNUMX월 XNUMX일) Filed under: virtual school —...

고객 경험을 개선하기 위한 8가지 필수 챗봇 기능

고객 경험을 개선하기 위한 8가지 필수 챗봇 기능 그 어느 때보다 고객은 질문에 거의 즉각적인 응답을 기대합니다. 답으로...

가짜 VPN 앱으로 Android 사용자를 노리는 Bahamut 사이버 용병 그룹

이 활성 캠페인에 사용된 악성 앱은 연락처, SMS 메시지, 녹음된 전화 통화, 심지어 Signal,...

고전 NLP 면접 질문에 대한 종합 안내서

 이 기사는 Data Science Blogathon의 일부로 게시되었습니다. 출처: Arxiv|검색엔진저널 서문 자연어처리가 상식인 만큼...

Techspert에 질문: Lens는 이미지를 텍스트로 어떻게 변환합니까?Techspert에게 질문: Lens는 이미지를 텍스트로 어떻게 변환합니까?키워드 기고자

최근 휴가를 갔을 때 읽고 있던 전자책에서 메모를 하고 싶었습니다. 하지만 오디오 메모를 하거나 노트에 낙서를 하는 대신 Lens를 사용하여 책의 한 부분을 선택하고 복사하여 문서에 붙여넣었습니다. 궁금한 점이 생겼습니다. 이 모든 일이 내 휴대전화에서 어떻게 된 걸까요? 카메라는 모든 글꼴과 언어로 된 단어를 어떻게 인식합니까?

나는 질문의 근원을 파악하고 이미지를 텍스트로 변환하는 최전선에서 Google 직원 중 한 명인 취리히에 기반을 둔 소프트웨어 엔지니어인 Ana Manasovska와 이야기하기로 결정했습니다.

Ana, Lens에서의 작업에 대해 알려주세요.

저는 텍스트 측면에 관여하고 있으므로 앱이 텍스트를 식별하고 검색을 위해 복사하거나 입력할 필요 없이 번역할 수 있는지 확인합니다. 예를 들어, 휴대전화의 카메라를 외국어 포스터에 대면 앱이 해당 포스터의 텍스트를 번역할 수 있습니다. 그리고 시각 장애인이나 시력이 약한 사람들을 위해 텍스트를 큰 소리로 읽을 수 있습니다. 꽤 인상적입니다.

그래서 우리 팀이 하는 일의 일부는 Lens가 텍스트뿐만 아니라 텍스트의 구조도 인식하도록 하는 것입니다. 우리 인간은 문장과 단락, 블록과 열로 분리된 쓰기를 자동으로 이해하고 함께 연결되는 것을 알고 있습니다. 그러나 기계가 그것을 구별하는 것은 매우 어렵습니다.

이게 머신러닝인가요?

예. 즉, 이미지의 문자와 구조를 식별하도록 훈련한 시스템(모델이라고 함)을 사용합니다. 기존의 컴퓨팅 시스템은 이 작업을 수행할 수 있는 능력이 제한적이었습니다. 그러나 우리의 기계 학습 모델은 거대한 데이터 세트에서 "자체 학습"하도록 구축되었으며 인간과 동일한 방식으로 텍스트 구조를 구별하는 방법을 학습하고 있습니다.

시스템이 다른 언어로 작동할 수 있습니까?

예, 키릴 자모, 데바나가리 자, 중국어 및 아랍어를 포함한 30개의 스크립트를 인식할 수 있습니다. 현재로서는 라틴 알파벳 언어에서 가장 정확하지만 그곳에서도 다양한 유형의 글꼴이 문제를 야기합니다. 일본어와 중국어는 문자에 뉘앙스가 많기 때문에 까다롭습니다. 훈련받지 않은 눈에는 작은 변화처럼 보이는 것이 의미를 완전히 바꿀 수 있습니다.

귀하의 작업에서 가장 어려운 부분은 무엇입니까?

복잡하고 모호한 부분이 많아 도전적이기 때문에 이를 탐색하는 방법을 배워야 했습니다. 그리고 그것은 매우 빠르게 진행됩니다. 상황은 끊임없이 움직이고 필요한 답변을 얻으려면 많은 질문을 하고 많은 사람들과 이야기해야 합니다.

실제 코딩과 관련하여 무엇을 포함합니까?

저는 주로 C++라는 프로그래밍 언어를 사용합니다. 이 언어를 사용하면 이미지에서 단어와 구조를 나타내는 데 필요한 처리 단계를 실행할 수 있습니다.

흠, 이해가 가는군요. 어떻게 생겼나요?

흰색 배경에 대한 일부 C++ 코드의 스크린샷.

이것이 C++의 모습입니다.

위의 코드는 텍스트 섹션에서 독일어만 추출하는 처리를 보여줍니다. 이미지에 독일어, 프랑스어 및 이탈리아어가 표시되어 있다고 가정해 보겠습니다. 번역을 위해 독일어만 추출됩니다. 말이 돼?

거의! 당신의 직업에 대해 무엇을 좋아하는지 말해주세요.

그것은 문제 해결에 대한 나의 평생의 사랑으로 귀결됩니다. 하지만 일상 생활에서 사용할 수 있는 것을 만들고 있다는 점도 정말 좋습니다. 취리히에 거주하고 있지만 독일어를 잘 못하므로 매일 영어 번역을 위해 Lens를 사용합니다.

코더가 하는 일 디코딩: Ana는 Lens에서 텍스트 인식에 중점을 두고 작업합니다. 그러나 그것은 실제로 무엇을 포함합니까?

세계 최고의 여성 미래학자 목록(업데이트 #5)

나는 모든 여성 미래학자들이 어디에 있느냐는 질문을 자주 받는다. 미래학자라는 직업이 왜 그렇게 보이는지에 대한 논의는...

도박의 역사

최초의 카지노 최초의 카지노는 1863년 모나코에서 도박꾼들에게 문을 열었습니다. 이탈리아어로 "카지노"는 시골집을 의미합니다. 이런 시골집에...

최신 인텔리전스

spot_img
spot_img