SKENIRANJE I PREPOZNAVANJE TEKSTA

Send

Dobar dan

Vjerovatno se svatko od nas suočio sa zadatkom kada je bilo potrebno prevesti papirnati dokument u elektronski oblik. Ovo je posebno često potrebno onima koji studiraju, rade sa dokumentacijom, prevode tekstove koristeći elektronske rječnike itd.

U ovom bih članku želio podijeliti neke osnove ovog procesa. Općenito, skeniranje i prepoznavanje teksta zahtijeva mnogo vremena, jer će se većina operacija morati obaviti ručno. Pokušat ćemo otkriti što, kako i zašto.

Ne shvataju svi odmah jednu stvar. Nakon skeniranja (uklapanje svih listova na skener) imate slike u BMP, JPG, PNG, GIF formatu (mogu biti i drugi formati). Dakle, iz ove slike treba da dobijete tekst - ovaj postupak se naziva prepoznavanje. Ovim redoslijedom biće dolje navedena izjava.

Sadržaj

1. Šta je potrebno za skeniranje i prepoznavanje?
2. Opcije skeniranja teksta
3. Prepoznavanje teksta dokumenta
- 3.1 Tekst
- 3.2 Slike
- 3.3 Tabele
- 3.4 Nepotrebni predmeti
4. Prepoznavanje PDF / DJVU datoteka
5. Provjera grešaka i spremanje rezultata rada

1. Šta je potrebno za skeniranje i prepoznavanje?

1) Skener

Da biste pretvorili ispisane dokumente u tekst, prvo vam je potreban skener, a samim tim i "nativni" programi i upravljački programi koji su dobili s njim. Pomoću njih možete skenirati dokument i spremiti ga za daljnju obradu.

Možete koristiti i druge analoge, ali softver koji je stigao sa skenerom u kompletu obično radi brže i ima više mogućnosti.

Ovisno o tome koji skener imate, brzina rada može značajno varirati. Postoje skeneri koji za 10 sekundi mogu dobiti sliku s lista, a tu su i za 30 sekundi. Ako skenirate knjigu na 200-300 listova - mislim da nije teško izračunati koliko će puta biti vremenske razlike?

2) Program za prepoznavanje

U našem ćemo vam članku pokazati rad u jednom od najboljih programa za skeniranje i prepoznavanje apsolutno svih dokumenata - ABBYY FineReader. Jer Pošto se program plaća, odmah ću dati vezu do drugog - svog besplatnog analoga Cunei forme. Istina, ne bih ih uspoređivao, zbog činjenice da FineReader pobjeđuje u svakom pogledu, ipak preporučujem da je isprobate.

ABBYY FineReader 11

Službena web stranica: //www.abbyy.ru/

Jedan od najboljih takvih programa. Dizajniran je za prepoznavanje teksta na slici. Ugrađene su brojne mogućnosti i funkcije. Može raščistiti gomilu fontova, podržava čak i rukopisne opcije (mada to osobno nisam pokušao, mislim da je vrlo malo vjerovatno da će prepoznati rukopisnu verziju, osim ako nemate savršen kaligrafski rukopis). Više detalja o radu s njim bit će opisano u nastavku. Ovdje također napominjemo da će članak govoriti o radu u verziji 11 programa.

U pravilu se različite verzije ABBYY FineReader-a ne razlikuju međusobno. To lako možete učiniti i u drugom. Glavne razlike mogu biti u praktičnosti, brzini programa i njegovim mogućnostima. Na primjer, starije verzije odbijaju otvaranje PDF-a i DJVU-a ...

3) Dokumenti za skeniranje

Da, tako, odlučio sam da dokumente napravim u posebnu kolonu. U većini slučajeva neki se udžbenici, novine, članci, časopisi itd. Skeniraju. te knjige i literatura koja je tražena. Čemu ja vodim? Iz ličnog iskustva mogu reći da je mnogo toga što želite skenirati verovatno već na mreži! Koliko puta sam lično uštedio vrijeme kad sam pronašao određenu knjigu već skeniranu na mreži. Morao sam samo kopirati tekst u dokument i nastaviti raditi s njim.

Iz ovoga, jednostavan savjet - prije nego što nešto skenirate provjerite je li netko već skenirao i nemate potrebe gubiti vrijeme.

2. Opcije skeniranja teksta

Ovdje neću govoriti o vašim upravljačkim programima za skener, programima koji su bili uz njega, jer su svi modeli skenera različiti, softver je također svugdje drugačiji i nerealno je pretpostaviti kako izvesti operaciju.

Ali svi skeneri imaju iste postavke, što može u velikoj mjeri utjecati na brzinu i kvalitet vašeg rada. Ovdje ćemo samo razgovarati o njima. Navest ću po redoslijedu.

1) Kvaliteta skeniranja - DPI

Prvo postavite kvalitetu skeniranja u opcijama na barem 300 DPI. Čak je preporučljivo postaviti više, ako je moguće. Što je viši DPI indikator, jasnija će vam biti slika, a samim tim i daljnja obrada će biti brža. Pored toga, što je veća kvaliteta skeniranja, manje ćete grešaka morati kasnije ispraviti.

Najbolja opcija obično pruža 300-400 DPI.

2) Boja

Ovaj parametar utječe na vrijeme skeniranja (usput, DPI također utječe, ali oni su toliko jaki i to samo kad korisnik postavi visoke vrijednosti).

Obično postoje tri načina:

- crno-bijelo (pogodno za običan tekst);

- siva (pogodna za tekst sa tablicama i slikama);

- boja (za časopise u boji, knjige, knjige, dokumente tamo gdje je boja bitna).

Obično vrijeme skeniranja ovisi o izboru boje. Doista, ako imate veliki dokument, čak i dodatnih 5-10 sekundi na stranici u cjelini će se izliti u pristojno vrijeme ...

3) Fotografije

Dokument možete dobiti ne samo skeniranjem, već i fotografiranjem. U pravilu ćete u ovom slučaju imati još neke probleme: izobličenje slike, zamagljivanje. Zbog toga će biti potrebna dalja daljnja obrada i obrada primljenog teksta. Osobno ne preporučujem upotrebu kamera za ovaj posao.

Važno je napomenuti da nije svaki takav dokument moguće prepoznati, jer kvaliteta skeniranja može biti izuzetno niska ...

3. Prepoznavanje teksta dokumenta

Pretpostavljamo da ste primili dragocjene skenirane stranice. Najčešće su to formati: tif, bmb, jpg, png. Općenito, za ABBYY FineReader - to i nije baš važno ...

Nakon otvaranja slike u ABBYY FineReader, program po pravilu automatski bira područja i prepoznaje ih na uređaju. Ali ponekad to čini pogrešno. Za to ćemo razmotriti odabir potrebnih područja ručno.

Važno! Nisu svi odmah razumjeli da se nakon otvaranja dokumenta u programu, izvorni dokument prikazuje u lijevom prozoru u kojem odabirete različita područja. Nakon klika na gumb "prepoznavanje" program u prozoru s desne strane prikazat će vam gotov tekst. Nakon prepoznavanja, usput rečeno, preporučljivo je provjeriti tekst na pogreške u istom FineReader-u.

3.1 Tekst

Ovo se područje koristi za isticanje teksta. Slike i tablice trebaju biti isključene iz nje. Rijetke i neobične fontove morat ćete unijeti ručno ...

Za odabir područja teksta obratite pažnju na ploču na vrhu FineReader-a. Postoji dugme "T" (pogledajte snimku zaslona u nastavku, pokazivač miša je upravo na ovom gumbu). Kliknite na nju, a zatim na slici ispod odaberite uredno pravokutno područje u kojem se tekst nalazi. Usput, u nekim slučajevima morate kreirati blokove teksta od 2-3, a ponekad i 10-12 po stranici, jer formatiranje teksta može biti različito i jedan pravokutnik ne bira cijelo područje.

Važno je napomenuti da slike ne bi smjele pasti u područje teksta! To će vam u budućnosti uštedjeti puno vremena ...

3.2 Slike

Koristi se za isticanje slika i područja koja je teško prepoznati zbog loše kvalitete ili neobičnog fonta.

Na slici ispod, pokazivač miša nalazi se na gumbu koji se koristi za odabir područja "slika". Usput, u ovom području možete odabrati apsolutno bilo koji dio stranice, a FineReader će ga zatim umetnuti u dokument kao normalnu sliku. I.e. samo "glupo" kopiranje ...

Obično se ovo područje koristi za isticanje slabo skeniranih tablica, za isticanje nestandardnog teksta i fonta, slika.

3.3 Tabele

Snimak zaslona ispod prikazuje gumb za isticanje tablica. Generalno, osobno ga koristim izuzetno rijetko. Činjenica je da ćete morati prilično rutinski crtati (u stvari) svaku liniju na stolu i pokazati šta i kako napraviti programu. Ako je tablica mala i ne baš dobrog kvaliteta, preporučujem vam da se u te svrhe koristite području "slika". Tako uštedite puno vremena, a tablica se nakon toga može brzo napraviti u Wordu na osnovu slike.

3.4 Nepotrebni predmeti

Važno je napomenuti. Ponekad na stranici postoje nepotrebni elementi koji ometaju prepoznavanje teksta ili vam čak onemogućavaju da istaknete željeno područje. Mogu se ukloniti gumicom u potpunosti.

Da biste to učinili, idite na režim za uređivanje slika.

Odaberite alat za brisanje i odaberite nepotrebno područje. Biće izbrisana i na njenom mjestu će biti bijeli list papira.

Usput, preporučujem vam da ovu opciju koristite što je češće moguće. Isprobajte sva odabrana područja teksta gdje vam nije potreban dio teksta ili su nepotrebne točkice, zamagljivanje, distorzije - izbrišite gumicom. Zahvaljujući tome prepoznavanje će biti brže!

4. Prepoznavanje PDF / DJVU datoteka

Općenito, ovaj format prepoznavanja neće se razlikovati od ostalih - tj. sa njim možete raditi baš kao sa slikama. Jedino je što program ne bi trebao biti previše star ako se PDF / DJVU datoteke ne otvore za vas - nadogradite na verziju 11.

Mali savjet. Nakon otvaranja dokumenta u FineReaderu - automatski će početi prepoznavati dokument. Često u PDF / DJVU datotekama određeno područje stranice nije potrebno u cijelom dokumentu! Da biste uklonili takvo područje na svim stranicama, učinite sljedeće:

1. Idite na odjeljak za uređivanje slika.

2. Uključite opciju "obrezivanje".

3. Odaberite područje koje želite na svim stranicama.

4. Kliknite primijeni na sve stranice i obrezivanje.

5. Provjera grešaka i spremanje rezultata rada

Čini se da bi mogli još postojati problemi kada bi se sve oblasti označile, a zatim prepoznale - uzmi i sačuvaj ... Eto!

Prvo vam treba provjera dokumenta!

Da biste ga omogućili, nakon prepoznavanja, u prozoru s desne strane pojavit će se tipka za provjeru, pogledajte snimak slike dolje. Nakon klika na njega program FineReader automatski će vam pokazati područja na kojima program ima greške i nije bio u mogućnosti pouzdano identificirati određeni znak. Morate samo odabrati, ili se slažete sa mišljenjem programa, ili unesite svoj lik.

Usput, u polovici slučajeva, otprilike, program će vam ponuditi spremnu ispravnu riječ - samo morate odabrati potrebnu opciju mišem.

Drugo, nakon provjere trebate odabrati format u koji ćete spremati rezultat svog rada.

Ovdje vam FineReader omogućuje da se maksimalno okrenete: informacije možete jednostavno prenijeti u Word jedan na jedan ili ih možete spremiti u jednom od desetaka formata. Ali želio bih istaknuti još jedan važan aspekt. Koji god format da odaberete, važnije je odabrati vrstu kopije! Razmotrite najzanimljivije opcije ...

Tačna kopija

Sva područja koja ste istaknuli na stranici u prepoznatom dokumentu podudarat će se sa originalnim dokumentom. Vrlo povoljna opcija kada vam je važno da ne izgubite formatiranje teksta. Usput, fontovi će također biti vrlo slični originalu. Ovom opcijom preporučujem da dokument prebacite u Word kako bi se mogao nastaviti s daljnjim radom na njemu.

Izmjena kopija

Ova je opcija dobra jer dobivate već formatiranu verziju teksta. I.e. uvlačenje sa "kilometrom", koje je moglo biti u izvornom dokumentu - nećete sresti. Korisna opcija kada ćete značajno urediti podatke.

Istina, ne biste trebali birati je li vam važno da sačuvate stil dizajna, fontove, uvlake. Ponekad, ako prepoznavanje nije veoma uspešno, vaš dokument može „iskriviti“ zbog izmenjenog oblikovanja. U tom je slučaju preporučljivo odabrati točnu kopiju.

Običan tekst

Opcija za one kojima je potreban samo tekst sa stranice bez svega ostalog. Pogodno za dokumente bez slika i tablica.

O ovom članku o skeniranju i prepoznavanju dokumenta došao je kraj. Nadam se da ćete pomoću ovih jednostavnih savjeta riješiti svoje probleme ...

Sretno

Send