Nové rozšírenie prehliadača Google Chrome umožňuje kopírovať a odstraňovať text v obraze

Anonim

Nové rozšírenie prehliadača Google Chrome umožňuje kopírovať a odstraňovať text v obraze

Počítače

Stu Robarts

25. apríla 2014

Nové rozšírenie Chrome s názvom Project Naptha umožňuje používateľom kopírovať a odstraňovať text z obrázkov

Všeobecne platí, že text vložený do obrázkov na webe je nedostupný. Pretože sú obrázky vykresľované ako jedna vrstva, to je tak ako to je ... alebo bolo, pretože nové rozšírenie pre Google Chrome s názvom Project Naptha teraz umožňuje používateľom zvýrazniť a kopírovať text z obrázkov.

Prvá vec, ktorú možno povedať, je, že táto funkcia existuje inde. Niektoré súčasti softvéru, ako napríklad Microsoft OneNote, Disk Google a Google Street View, používajú na rozpoznávanie textu v obrazoch optické rozpoznávanie znakov (OCR).

Projekt Naptha na druhej strane používa metódu Call Stroke Width Transform (SWT), ktorú vyvinula spoločnosť Microsoft Research. Nespokojný s dostupnými algoritmami OCR s otvoreným zdrojom, vývojár Kevin Kwok strávil čas snažiac sa nájsť riešenie. Povedal Gizmagu, že strávil týždne hľadaním písmen ako "kryptogramovými hádankami" a rozpoznával text s pokročilým jazykovým modelom, ako aj niekoľko týždňov, "pokúšajúc sa vytvoriť akýsi druh rozpoznávača textu na hrubej sile."

Nakoniec sa rozhodne použiť SWT. Tento prístup používa šírku riadkov, ktoré tvoria písmená, ako prostriedok na identifikáciu prvkov, ktoré by mohli byť textom, a nie ako pokus o zaznamenanie vopred určených samostatných funkcií ako značky textu. To mu dáva určité výhody oproti OCR.

"[Transformácia šírky ťahu] je schopná identifikovať oblasti textu v jazykovo-agnostickom spôsobe, " vysvetľuje Kwok. "V určitom zmysle, aký je to, čo môže človek urobiť, môžeme si uvedomiť, že označenie nesie písaný jazyk bez toho, aby vedel, v akom jazyku je to napísané, bez ohľadu na to, čo to znamená."

Spoločnosť SWT tiež dokáže detekovať na fotografiách šikmý text a text a naozaj bola skutočne navrhnutá na účely posledného. To znamená, že nie je obmedzený na vytváranie textu v prehľadávaní vytlačených listov alebo snímok obrazovky z webu, v ktorých je text výskytu bežnejšie známy tomu, čo produkujú počítače, a preto je ľahšie vyberať.

Kwok vysvetľuje Gizmagu, že projekt Naptha bol niečo, čo pôvodne pracoval ako súčasť hackatónu v MIT (na ktorom získal 2. miesto). "Výber textu v obraze bol niečo, čo bolo dosť možné na technickej úrovni, to znamená, že technológia, ktorú potrebuje na fungovanie, existuje a to už dlho, " vysvetľuje. "Ale z nejakého nevysvetliteľného dôvodu to nebolo vykonané predtým. Všetko ostatné, prepísanie, preklad, vymazanie textu a modifikácia len prišiel ako zrejmé a triviálne pridanie, akonáhle je prvý, druh zbytočnej časti myšlienka bola splnená. "

Kwok prináša niekoľko príkladov zdrojov, pomocou ktorých je možné použiť projekt Naptha vrátane skenov, fotografií s textom, diagramov s popismi, snímok obrazoviek a obrázkov s textovými prekryvami. Tiež demonštruje možnosť odstránenia prekryvných textov z obrázkov a obrázkov, ako aj zvýraznenie textu v obrázkoch, ktoré sa majú preložiť. Aby Naptha poskytla používateľovi bezproblémové skúsenosti, sleduje pohyb kurzora a priebežne extrapoluje druhú dopredu na základe svojej polohy a rýchlosti, takže môže začať spracúvať ľubovoľný potenciálny text, ktorý by mohol používateľ vyberať z obrázka.

Kwok uznáva, že veľa funkčnosti v projekte Naptha sa musí zlepšiť a naznačuje, že v priebehu času sa môže rozvinúť ďalšie rozpoznávanie textu, prekladanie a vymazávanie textu (v skutočnosti píše v tweetu, že dôvod, prečo začal teraz, je využiť z nejakého kreditu, ktorý má so spoločnosťou Google, ktorý mal byť vyčerpaný). Napriek tomu je základná funkčnosť veľmi použiteľná a potenciál pre pokročilejšie technológie je vzrušujúci.

"Myslím si, že skutočná hodnota, ktorú ponúka Naptha, je skúsenosť, ktorá, pokiaľ som si vedomá, je bezprecedentná, " hovorí Kwok. "Pokiaľ ide o rôzne subkomponenty a algoritmy, je to pravdepodobne za niekoľko rokov za najnovším stavom techniky a jednou z vzrušujúcich vecí by bola možnosť tímu preklenúť túto medzeru medzi výskumom a spotrebiteľským využitím. "

Ak by ste sa zaujímali, názov Naptha je odvodený z použitia látky nazývanej naptha v ľahších palivách a proces vysokého osvetľovacieho textu.

Ďalšie informácie o projekte Project Naptha a testovacej skúške nájdete na webovej stránke projektu Project Naptha.

Rozšírenie prehliadača Chrome: Project Naptha

Nové rozšírenie Chrome s názvom Project Naptha umožňuje používateľom kopírovať a odstraňovať text z obrázkov