제퍼넷 로고

Techspert에 질문: Lens는 이미지를 텍스트로 어떻게 변환합니까?Techspert에게 질문: Lens는 이미지를 텍스트로 어떻게 변환합니까?키워드 기고자

시간

최근 휴가를 갔을 때 읽고 있던 전자책에서 메모를 하고 싶었습니다. 하지만 오디오 메모를 하거나 노트에 낙서를 하는 대신 Lens를 사용하여 책의 한 부분을 선택하고 복사하여 문서에 붙여넣었습니다. 궁금한 점이 생겼습니다. 이 모든 일이 내 휴대전화에서 어떻게 된 걸까요? 카메라는 모든 글꼴과 언어로 된 단어를 어떻게 인식합니까?

나는 질문의 근원을 파악하고 이미지를 텍스트로 변환하는 최전선에서 Google 직원 중 한 명인 취리히에 기반을 둔 소프트웨어 엔지니어인 Ana Manasovska와 이야기하기로 결정했습니다.

Ana, Lens에서의 작업에 대해 알려주세요.

저는 텍스트 측면에 관여하고 있으므로 앱이 텍스트를 식별하고 검색을 위해 복사하거나 입력할 필요 없이 번역할 수 있는지 확인합니다. 예를 들어, 휴대전화의 카메라를 외국어 포스터에 대면 앱이 해당 포스터의 텍스트를 번역할 수 있습니다. 그리고 시각 장애인이나 시력이 약한 사람들을 위해 텍스트를 큰 소리로 읽을 수 있습니다. 꽤 인상적입니다.

그래서 우리 팀이 하는 일의 일부는 Lens가 텍스트뿐만 아니라 텍스트의 구조도 인식하도록 하는 것입니다. 우리 인간은 문장과 단락, 블록과 열로 분리된 쓰기를 자동으로 이해하고 함께 연결되는 것을 알고 있습니다. 그러나 기계가 그것을 구별하는 것은 매우 어렵습니다.

이게 머신러닝인가요?

예. 즉, 이미지의 문자와 구조를 식별하도록 훈련한 시스템(모델이라고 함)을 사용합니다. 기존의 컴퓨팅 시스템은 이 작업을 수행할 수 있는 능력이 제한적이었습니다. 그러나 우리의 기계 학습 모델은 거대한 데이터 세트에서 "자체 학습"하도록 구축되었으며 인간과 동일한 방식으로 텍스트 구조를 구별하는 방법을 학습하고 있습니다.

시스템이 다른 언어로 작동할 수 있습니까?

예, 키릴 자모, 데바나가리 자, 중국어 및 아랍어를 포함한 30개의 스크립트를 인식할 수 있습니다. 현재로서는 라틴 알파벳 언어에서 가장 정확하지만 그곳에서도 다양한 유형의 글꼴이 문제를 야기합니다. 일본어와 중국어는 문자에 뉘앙스가 많기 때문에 까다롭습니다. 훈련받지 않은 눈에는 작은 변화처럼 보이는 것이 의미를 완전히 바꿀 수 있습니다.

귀하의 작업에서 가장 어려운 부분은 무엇입니까?

복잡하고 모호한 부분이 많아 도전적이기 때문에 이를 탐색하는 방법을 배워야 했습니다. 그리고 그것은 매우 빠르게 진행됩니다. 상황은 끊임없이 움직이고 필요한 답변을 얻으려면 많은 질문을 하고 많은 사람들과 이야기해야 합니다.

실제 코딩과 관련하여 무엇을 포함합니까?

저는 주로 C++라는 프로그래밍 언어를 사용합니다. 이 언어를 사용하면 이미지에서 단어와 구조를 나타내는 데 필요한 처리 단계를 실행할 수 있습니다.

흠, 이해가 가는군요. 어떻게 생겼나요?

spot_img

최신 인텔리전스

spot_img