태그: 코더

최근 휴가를 갔을 때 읽고 있던 전자책에서 메모를 하고 싶었습니다. 하지만 오디오 메모를 하거나 노트에 낙서를 하는 대신 Lens를 사용하여 책의 한 부분을 선택하고 복사하여 문서에 붙여넣었습니다. 궁금한 점이 생겼습니다. 이 모든 일이 내 휴대전화에서 어떻게 된 걸까요? 카메라는 모든 글꼴과 언어로 된 단어를 어떻게 인식합니까?

나는 질문의 근원을 파악하고 이미지를 텍스트로 변환하는 최전선에서 Google 직원 중 한 명인 취리히에 기반을 둔 소프트웨어 엔지니어인 Ana Manasovska와 이야기하기로 결정했습니다.

Ana, Lens에서의 작업에 대해 알려주세요.

저는 텍스트 측면에 관여하고 있으므로 앱이 텍스트를 식별하고 검색을 위해 복사하거나 입력할 필요 없이 번역할 수 있는지 확인합니다. 예를 들어, 휴대전화의 카메라를 외국어 포스터에 대면 앱이 해당 포스터의 텍스트를 번역할 수 있습니다. 그리고 시각 장애인이나 시력이 약한 사람들을 위해 텍스트를 큰 소리로 읽을 수 있습니다. 꽤 인상적입니다.

그래서 우리 팀이 하는 일의 일부는 Lens가 텍스트뿐만 아니라 텍스트의 구조도 인식하도록 하는 것입니다. 우리 인간은 문장과 단락, 블록과 열로 분리된 쓰기를 자동으로 이해하고 함께 연결되는 것을 알고 있습니다. 그러나 기계가 그것을 구별하는 것은 매우 어렵습니다.

이게 머신러닝인가요?

예. 즉, 이미지의 문자와 구조를 식별하도록 훈련한 시스템(모델이라고 함)을 사용합니다. 기존의 컴퓨팅 시스템은 이 작업을 수행할 수 있는 능력이 제한적이었습니다. 그러나 우리의 기계 학습 모델은 거대한 데이터 세트에서 "자체 학습"하도록 구축되었으며 인간과 동일한 방식으로 텍스트 구조를 구별하는 방법을 학습하고 있습니다.

시스템이 다른 언어로 작동할 수 있습니까?

예, 키릴 자모, 데바나가리 자, 중국어 및 아랍어를 포함한 30개의 스크립트를 인식할 수 있습니다. 현재로서는 라틴 알파벳 언어에서 가장 정확하지만 그곳에서도 다양한 유형의 글꼴이 문제를 야기합니다. 일본어와 중국어는 문자에 뉘앙스가 많기 때문에 까다롭습니다. 훈련받지 않은 눈에는 작은 변화처럼 보이는 것이 의미를 완전히 바꿀 수 있습니다.

귀하의 작업에서 가장 어려운 부분은 무엇입니까?

복잡하고 모호한 부분이 많아 도전적이기 때문에 이를 탐색하는 방법을 배워야 했습니다. 그리고 그것은 매우 빠르게 진행됩니다. 상황은 끊임없이 움직이고 필요한 답변을 얻으려면 많은 질문을 하고 많은 사람들과 이야기해야 합니다.

실제 코딩과 관련하여 무엇을 포함합니까?

저는 주로 C++라는 프로그래밍 언어를 사용합니다. 이 언어를 사용하면 이미지에서 단어와 구조를 나타내는 데 필요한 처리 단계를 실행할 수 있습니다.

흠, 이해가 가는군요. 어떻게 생겼나요?

이것이 C++의 모습입니다.

위의 코드는 텍스트 섹션에서 독일어만 추출하는 처리를 보여줍니다. 이미지에 독일어, 프랑스어 및 이탈리아어가 표시되어 있다고 가정해 보겠습니다. 번역을 위해 독일어만 추출됩니다. 말이 돼?

거의! 당신의 직업에 대해 무엇을 좋아하는지 말해주세요.

그것은 문제 해결에 대한 나의 평생의 사랑으로 귀결됩니다. 하지만 일상 생활에서 사용할 수 있는 것을 만들고 있다는 점도 정말 좋습니다. 취리히에 거주하고 있지만 독일어를 잘 못하므로 매일 영어 번역을 위해 Lens를 사용합니다.

코더가 하는 일 디코딩: Ana는 Lens에서 텍스트 인식에 중점을 두고 작업합니다. 그러나 그것은 실제로 무엇을 포함합니까?

1...9 101111 페이지 11

생성 데이터 인텔리전스

태그: 코더

최신 인텔리전스

Nintendo의 Yuzu 소송은 모든 에뮬레이터에 바나나 껍질을 붓는 것을 목표로합니다

Apple Car 프로젝트가 충돌하여 이제 거의 죽었습니다.

금주의 10가지 최대 자금 조달 라운드: Lambda가 메가딜을 위한 대규모 주간 주도

기업을 위한 생성적 AI 사용 사례 - IBM 블로그

크라우드소싱 보안 스타트업 Bugcrowd, 102억 XNUMX만 달러 확보

ANZ 은행은 GitHub Copilot이 코더의 생산성을 높여준다는 사실을 발견했습니다.

이번 주 웹에서 제공하는 멋진 기술 이야기 (10 월 XNUMX 일까지)