Prepoznajte tekst u PDF datoteci na mreži

Pin
Send
Share
Send


Daleko je moguće izvući tekst iz PDF datoteke redovitim kopiranjem. Na stranicama takvih dokumenata često se skeniraju sadržaji njihovih papirnatih verzija. Za pretvaranje takvih datoteka u tekstualne podatke koji se mogu potpuno uređivati ​​koriste se posebni programi s funkcijom optičkog prepoznavanja znakova (OCR).

Takve odluke je vrlo teško provesti, pa stoga koštaju mnogo novca. Ako morate redovno prepoznavati tekst iz PDF-a, preporučljivo je kupiti odgovarajući program. U rijetkim će slučajevima biti logičnije koristiti jednu od dostupnih internetskih usluga sa sličnim funkcijama.

Kako prepoznati tekst iz PDF-a na mreži

Naravno, raspon značajki OCR mrežnih usluga u usporedbi s cjelovitim rješenjima za stolna računala je ograničeniji. Ali sa takvim sredstvima možete raditi i besplatno ili uz nominalnu naknadu. Glavna stvar je da se sa svojim glavnim zadatkom, odnosno s prepoznavanjem teksta, odgovarajuće web aplikacije također odlično nose.

1. metoda: ABBYY FineReader Online

Firma za razvoj usluga jedna je od lidera na polju optičkog prepoznavanja dokumenata. ABBYY FineReader za Windows i Mac moćno je rješenje za pretvaranje PDF-a u tekst i daljnji rad s njim.

Internetski analogni program, naravno, inferiorniji mu je u funkcionalnosti. Ipak, usluga može prepoznati tekst skeniranja i fotografija na više od 190 jezika. Pretvorite PDF datoteke u Word, Excel itd. Dokumenti su podržani.

ABBYY FineReader Online servis

  1. Prije nego što počnete raditi s alatom, otvorite račun na web mjestu ili se prijavite pomoću svog Facebook, Google ili Microsoftovog računa.

    Da biste otvorili prozor za autorizaciju, kliknite na dugme "Ulaz" u gornjoj traci izbornika.
  2. Nakon prijave, uvezite željeni PDF dokument u FineReader pomoću gumba "Pošaljite datoteke".

    Zatim kliknite na "Odaberi brojeve stranica" i odredite željeni interval za prepoznavanje teksta.
  3. Zatim odaberite jezike u dokumentu, format rezultirajuće datoteke i kliknite gumb „Prepoznaj“.
  4. Nakon obrade, čije trajanje u potpunosti ovisi o volumenu dokumenta, gotovu datoteku s tekstualnim podacima možete preuzeti jednostavnim klikom na njegovo ime.

    Ili je izvezite u neku od dostupnih usluga u oblaku.

Usluga se vjerojatno razlikuje po najtačnijim algoritmima za prepoznavanje teksta na slikama i PDF datotekama. Ali, nažalost, njegova besplatna upotreba ograničena je na pet stranica koje se mesečno obrađuju. Da biste radili sa većim dokumentima, morat ćete kupiti godišnju pretplatu.

Međutim, ako je OCR rijetko potreban, ABBYY FineReader Online odlična je opcija za izdvajanje teksta iz malih PDF datoteka.

2. metod: Besplatni online OCR

Jednostavna i praktična usluga za digitalizaciju teksta. Bez registracije, resurs vam omogućava prepoznavanje 15 punih PDF stranica na sat. Besplatno online OCR u potpunosti radi s dokumentima na 46 jezika i bez autorizacije podržava tri formata izvoza teksta - DOCX, XLSX i TXT.

Prilikom registracije korisnik dobiva mogućnost obrade dokumenata s više stranica, ali besplatni broj tih istih stranica ograničen je na 50 jedinica.

Besplatna internetska usluga OCR

  1. Da biste prepoznali tekst iz PDF-a kao "gosta", bez autorizacije na resoru, koristite odgovarajući obrazac na glavnoj stranici web mjesta.

    Pomoću gumba odaberite željeni dokument Datoteka, odredite glavni jezik teksta, izlazni format, a zatim pričekajte da se datoteka učita i kliknite Pretvori.
  2. Na kraju procesa digitalizacije kliknite "Preuzmi izlaznu datoteku" da biste spremili gotov dokument s tekstom na računar.

Za ovlaštene korisnike redoslijed postupaka je nešto drugačiji.

  1. Upotrijebite tipku "Registracija" ili "Ulaz" na gornjoj traci izbornika u skladu s tim otvoriti Besplatni Online OCR račun ili se prijaviti na njega.
  2. Nakon autorizacije na ploči za prepoznavanje držite tipku CTRL, s dostavljanog popisa odaberite do dva jezika izvornog dokumenta.
  3. Navedite dodatne mogućnosti za izdvajanje teksta iz PDF-a i kliknite Odaberite datoteku da biste dokument poslali u servis.

    Zatim, za početak prepoznavanja, kliknite Pretvori.
  4. Na kraju obrade dokumenta kliknite na vezu s imenom izlazne datoteke u odgovarajućem stupcu.

    Rezultat prepoznavanja bit će odmah sačuvan u memoriji vašeg računala.

Ako morate izdvojiti tekst iz malog PDF dokumenta, možete bez problema koristiti gornji alat. Da biste radili s voluminoznim datotekama, morat ćete kupiti dodatne znakove u programu Free Online OCR ili koristiti drugo rješenje.

Metoda 3: NewOCR

Potpuno besplatna OCR usluga koja vam omogućuje izdvajanje teksta iz gotovo svih grafičkih i elektroničkih dokumenata poput DjVu i PDF. Resurs ne nameće ograničenja na veličinu i broj prepoznatih datoteka, ne zahtijeva registraciju i nudi širok spektar povezanih funkcija.

NewOCR podržava 106 jezika i može ispravno obraditi čak i skeniranje dokumenata loše kvalitete. Moguće je ručno odabrati područje za prepoznavanje teksta na stranici datoteke.

NewOCR Internet usluga

  1. Dakle, možete početi raditi sa resursom odmah, bez potrebe za obavljanjem nepotrebnih radnji.

    Na glavnoj stranici nalazi se obrazac za uvoz dokumenta na web mjesto. Da biste prenijeli datoteku u NewOCR, upotrijebite tipku "Odaberite datoteku" u odeljku "Odaberite datoteku". Onda na terenu "Jezik (e) prepoznavanja" navedite jedan ili više jezika izvornog dokumenta, a zatim kliknite "Pošaljite + OCR".
  2. Postavite željena podešavanja prepoznavanja, odaberite stranicu s koje želite izdvojiti tekst i kliknite na gumb OCR.
  3. Pomičite se po stranici malo dolje i pronađite gumb "Preuzmi".

    Kliknite na nju i na padajućoj listi odaberite potreban format dokumenta za preuzimanje. Nakon toga, gotova datoteka s izvučenim tekstom bit će prebačena na vaše računalo.

Alat je zgodan i prilično visoke kvalitete prepoznaje sve likove. Međutim, obrada svake stranice uvezenog PDF dokumenta mora se započeti neovisno i prikazati u zasebnoj datoteci. Naravno, možete odmah kopirati rezultate prepoznavanja u međuspremnik i kombinirati ih s drugima.

Ipak, s obzirom na gore opisanu nijansu, vrlo je teško izdvojiti velike količine teksta koristeći NewOCR. S malim datotekama, usluga se nosi s praskom.

Metoda 4: OCR.Space

Jednostavan i razumljiv resurs za digitalizaciju teksta, omogućava vam prepoznavanje PDF dokumenata i rezultat ispis u TXT datoteku. Nije ograničenje broja stranica. Jedino ograničenje je da veličina ulaznog dokumenta ne smije biti veća od 5 megabajta.

OCR.Space Online Service

  1. Registracija za rad s alatom nije potrebna.

    Jednostavno slijedite gornju vezu i pomoću računara prenesite PDF dokument na web mjesto sa računara "Odaberite datoteku" ili s mreže - referencom.
  2. Na padajućoj listi "Odaberite OCR jezik" Odaberite jezik uvezenog dokumenta.

    Zatim pokrenite postupak prepoznavanja teksta klikom na gumb "Pokrenite OCR!".
  3. Na kraju obrade datoteke pročitajte rezultat u polju Rezultat OCR-a i kliknite "Preuzmi"za preuzimanje gotovog TXT dokumenta.

Ako samo trebate izdvojiti tekst iz PDF-a i istovremeno njegovo konačno oblikovanje uopće nije važno, OCR.Space je dobar izbor. Jedino je što dokument treba biti „jednojezičan“, jer prepoznavanje dva ili više jezika istovremeno nije predviđeno u službi.

Pogledajte također: Besplatni analozi FineReader-a

Procjenjujući mrežne alate predstavljene u članku, treba napomenuti da FineReader Online iz ABBYY-a rukuje OCR funkcijom najpreciznije i najučinkovitije. Ako vam je važna maksimalna tačnost prepoznavanja teksta, najbolje je posebno razmotriti ovu opciju. Ali najverovatnije ćete morati platiti i to.

Ako trebate digitalizirati male dokumente i spremni ste samostalno ispraviti pogreške na usluzi, preporučljivo je koristiti NewOCR, OCR.Space ili Free Online OCR.

Pin
Send
Share
Send

Pogledajte video: HOW TO MEMORIZE THE IRREGULAR VERBS IN THE PAST ACTIVATE THE SUBTITLES pdf for subscribers (Septembar 2024).