제퍼넷 로고

태그: 코더

DeFi 프로젝트가 데이터를 추적하는 것이 잘못된 것입니까?

현재 암호화폐 시장에 불행이 충분하지 않은 것처럼 DeFi 애호가들은 이제 Uniswap,...

2023년에 비즈니스 사용자의 로우코드 앱으로 인한 주요 보안 침해가 발생할 수 있다고 분석가들이 경고했습니다.

최근 보고서에서 Forrester 분석가는 2023년 대기업에서 다음을 사용하는 비즈니스 사용자에 뿌리를 둔 대규모 보안 침해가 발생할 것이라고 경고했습니다.

Bitcoin은 Bear의 두 번째 해에 들어갑니다.

비트코인은 14년 2021월 XNUMX일에 정점을 찍었으며 약세장이 시작된 지 XNUMX년이 넘었습니다. 황소는 상승으로 정의되었습니다 ...

인기 있는 Backstage 개발 도구의 Log4Shell과 유사한 코드 실행 구멍

"문자열 보간"이라고도 하는 오래된 "문자열 템플릿"이 다시 주목받고 있습니다...

OpenAI, Microsoft, GitHub, Copilot에 대한 소송으로 타격

간단히 말해서 OpenAI, Microsoft 및 GitHub는 AI 코드 생성 소프트웨어 Copilot이 저작권법을 위반한다고 주장하는 집단 소송에서 지명되었습니다. 변호사와 개발자...

Techspert에 질문: Lens는 이미지를 텍스트로 어떻게 변환합니까?Techspert에게 질문: Lens는 이미지를 텍스트로 어떻게 변환합니까?키워드 기고자

최근 휴가를 갔을 때 읽고 있던 전자책에서 메모를 하고 싶었습니다. 하지만 오디오 메모를 하거나 노트에 낙서를 하는 대신 Lens를 사용하여 책의 한 부분을 선택하고 복사하여 문서에 붙여넣었습니다. 궁금한 점이 생겼습니다. 이 모든 일이 내 휴대전화에서 어떻게 된 걸까요? 카메라는 모든 글꼴과 언어로 된 단어를 어떻게 인식합니까?

나는 질문의 근원을 파악하고 이미지를 텍스트로 변환하는 최전선에서 Google 직원 중 한 명인 취리히에 기반을 둔 소프트웨어 엔지니어인 Ana Manasovska와 이야기하기로 결정했습니다.

Ana, Lens에서의 작업에 대해 알려주세요.

저는 텍스트 측면에 관여하고 있으므로 앱이 텍스트를 식별하고 검색을 위해 복사하거나 입력할 필요 없이 번역할 수 있는지 확인합니다. 예를 들어, 휴대전화의 카메라를 외국어 포스터에 대면 앱이 해당 포스터의 텍스트를 번역할 수 있습니다. 그리고 시각 장애인이나 시력이 약한 사람들을 위해 텍스트를 큰 소리로 읽을 수 있습니다. 꽤 인상적입니다.

그래서 우리 팀이 하는 일의 일부는 Lens가 텍스트뿐만 아니라 텍스트의 구조도 인식하도록 하는 것입니다. 우리 인간은 문장과 단락, 블록과 열로 분리된 쓰기를 자동으로 이해하고 함께 연결되는 것을 알고 있습니다. 그러나 기계가 그것을 구별하는 것은 매우 어렵습니다.

이게 머신러닝인가요?

예. 즉, 이미지의 문자와 구조를 식별하도록 훈련한 시스템(모델이라고 함)을 사용합니다. 기존의 컴퓨팅 시스템은 이 작업을 수행할 수 있는 능력이 제한적이었습니다. 그러나 우리의 기계 학습 모델은 거대한 데이터 세트에서 "자체 학습"하도록 구축되었으며 인간과 동일한 방식으로 텍스트 구조를 구별하는 방법을 학습하고 있습니다.

시스템이 다른 언어로 작동할 수 있습니까?

예, 키릴 자모, 데바나가리 자, 중국어 및 아랍어를 포함한 30개의 스크립트를 인식할 수 있습니다. 현재로서는 라틴 알파벳 언어에서 가장 정확하지만 그곳에서도 다양한 유형의 글꼴이 문제를 야기합니다. 일본어와 중국어는 문자에 뉘앙스가 많기 때문에 까다롭습니다. 훈련받지 않은 눈에는 작은 변화처럼 보이는 것이 의미를 완전히 바꿀 수 있습니다.

귀하의 작업에서 가장 어려운 부분은 무엇입니까?

복잡하고 모호한 부분이 많아 도전적이기 때문에 이를 탐색하는 방법을 배워야 했습니다. 그리고 그것은 매우 빠르게 진행됩니다. 상황은 끊임없이 움직이고 필요한 답변을 얻으려면 많은 질문을 하고 많은 사람들과 이야기해야 합니다.

실제 코딩과 관련하여 무엇을 포함합니까?

저는 주로 C++라는 프로그래밍 언어를 사용합니다. 이 언어를 사용하면 이미지에서 단어와 구조를 나타내는 데 필요한 처리 단계를 실행할 수 있습니다.

흠, 이해가 가는군요. 어떻게 생겼나요?

흰색 배경에 대한 일부 C++ 코드의 스크린샷.

이것이 C++의 모습입니다.

위의 코드는 텍스트 섹션에서 독일어만 추출하는 처리를 보여줍니다. 이미지에 독일어, 프랑스어 및 이탈리아어가 표시되어 있다고 가정해 보겠습니다. 번역을 위해 독일어만 추출됩니다. 말이 돼?

거의! 당신의 직업에 대해 무엇을 좋아하는지 말해주세요.

그것은 문제 해결에 대한 나의 평생의 사랑으로 귀결됩니다. 하지만 일상 생활에서 사용할 수 있는 것을 만들고 있다는 점도 정말 좋습니다. 취리히에 거주하고 있지만 독일어를 잘 못하므로 매일 영어 번역을 위해 Lens를 사용합니다.

코더가 하는 일 디코딩: Ana는 Lens에서 텍스트 인식에 중점을 두고 작업합니다. 그러나 그것은 실제로 무엇을 포함합니까?

e스포츠: 디지털 엔터테인먼트의 새로운 영역 개요

2022년 XNUMX월 Andrea Rizzi 및 Francesco de Rugeriis, Andrea Rizzi & Partners, 이탈리아 밀라노 실례합니다: 전자… Oxford Advanced의 정의에 따르면...

2023년 최고의 Cardano 프로젝트: 알아야 할 최고의 Cardano DApp!

카르다노는 업계에서 가장 혁신적이고 흥미진진한 블록체인 프로젝트 중 하나로 많은 사람들이 언급하고 있습니다.

소프트웨어 테스트와 품질 보증(QA)은 어떻게 다릅니까?

소프트웨어 QA 서비스는 소프트웨어가 개발 프로세스 전반에 걸쳐 성능 및 사용성 기준을 충족하도록 보장하는 데 사용되는 기술입니다. 테스트 및 QA는 ...

최신 인텔리전스

spot_img
spot_img