Szöveg kivonása a képekből a legjobb OCR szoftverrel

2019

Manapság szinte minden (pl. Fényképek, zene, videók) digitálisan ment (és ez értelme, mivel a digitális tartalom kényelmesen kezelhető, szerkeszthető és megosztható). Szóval hogyan maradhatnak le a szöveges dokumentumok. Az optikai karakterfelismerés (OCR) technikák fejlődésének köszönhetően a szöveges anyag digitalizálása a nyomtatott / kézzel írt dokumentumokban egyszerűbb, mint valaha, így szövegszerkesztő programokkal szerkeszthetővé válik.

Ehhez szükséged van egy igazán jó OCR szoftveralkalmazásra, és ez pontosan ez a cikk. Ezek a szoftverek beszerezhetik a forrásnyomtatott dokumentumokat képként a szkennereszközökről, vagy a saját dokumentumképeket a szerkeszthető szöveggé konvertálhatják. Kíváncsivá? Hát akkor ne verjük meg a bokrot, és menjünk az 5 legjobb OCR szoftverhez .

1. ABBYY FineReader

Amikor az optikai karakterfelismerésről van szó, az ABBYY FineReaderhez még közel sem juthat. Az ABBYY FineReader mindenféle képből kivágja a szélsőségét egy őrült mennyiségű erőmű tulajdonságokkal.

Annak ellenére, hogy az ABBYY FineReader teljes körű és széleskörű szolgáltatásokat kínál, könnyen használható. Szinte mindenféle népszerű képformátumból, például PNG-ből, JPG-ből, BMP-ből és TIFF-ből nyerhet szöveget. És ez még nem minden. Az ABBYY FineReader PDF és DJVU fájlokból is kivonhat szöveget. Miután a forrásfájl vagy a kép (amelynek az optimális szkenneléshez legalább 300 dpi felbontásnak kell lennie) van feltöltve, a program elemzi és automatikusan meghatározza a kivonatolható szöveg különböző részeit. Lehet, hogy az összes szöveget kivonja, vagy csak bizonyos részeket választhat. Ezt követően mindössze annyit kell tennie, hogy a Save (mentés) lehetőséget választja a kimeneti formátum kiválasztásához, és az ABBYY FIneReader gondoskodik a többitől. Számos kimeneti formátum támogatott, mint például a TXT, a PDF, az RTF és az EPUB.

A kimeneti szöveg tökéletesen szerkeszthető, és a legszélesebb tartalmú dokumentumokból származó szöveg (pl. Többszörös oszlopok és összetett elrendezések) hibátlanul kinyerhető. Más funkciók közé tartozik a kiterjedt nyelvtámogatás, számos betűstílus / méret, valamint a szkennerekből és kamerákból származó fájlok korrekciós eszközei.

Dióhéjban, ha azt szeretné, hogy az abszolút legjobb OCR szoftver ott legyen, kiterjedt bemeneti / kimeneti formátummal és feldolgozási támogatással, menjen az ABBYY FineReader-hez.

Platform elérhetősége: Windows 10, 8, 7, Vista és XP; Mac OS X 10.6 és újabb

Ár: A fizetett verziók 169.99 $ -tól kezdődnek, 30 napos ingyenes próbaverzióval

Letöltés

2. Readiris

Egy rendkívül nagy teljesítményű OCR-szoftver vadászatában, amely nehézkes a funkciókra, de nem igazán vesz egy csomó erőfeszítést az elkezdéshez? Vessen egy pillantást a Readirisre, hiszen ez csak az, amire szüksége van.

A professzionális minőségű alkalmazás, a Readiris rendelkezik egy széles körű funkciókészlettel, amely nagyrészt megegyezik a korábban tárgyalt ABBYY FineReaderrel. A BMP-től a PNG-ig, és a PCX-től a TIFF-ig a Readiris számos képformátumot támogat. Ettől eltekintve a PDF és a DJVU fájlok ugyanúgy feldolgozhatók. A képek szkenner eszközökről származnak, és az alkalmazás lehetővé teszi az egyedi feldolgozási paraméterek beállítását a forrásfájlokhoz / képekhez, például a simításhoz és a DPI beállításához, mielőtt elemezné őket. Bár a Readiris csak finom felbontású képeket képes feldolgozni, az optimális felbontásnak legalább 300 dpi-nek kell lennie. Az elemzés elvégzése után a Readiris meghatározza a szövegszakaszokat (vagy zónákat), és a szöveget kiválaszthatja egy adott zónából, vagy a teljes fájlból. A kivont szöveg szerkeszthető, és számos formátumban menthető, például PDF, DOCX, TXT, CSV és HTM.

Ráadásul a Readiris Pro felhőtakarékos funkciója segítségével közvetlenül mentheti a kivont szöveget különböző felhőtárolási szolgáltatásokhoz, mint például a Dropbox, a OneDrive, a GoogleDrive, majd még néhány. A szövegszerkesztő / -feldolgozási funkciók száma is egészséges, sőt akár vonalkódok is beolvashatók.

Mindent összevetve, a Readiris-t akkor kell használni, ha robusztus szövegkivonási / szerkesztési funkciókat szeretne használni egy egyszerű használatú csomagban, amely kiterjedt bemeneti / kimeneti formátumú támogatással rendelkezik. A Readiris azonban egy kicsit meghibásodik, ha olyan dokumentumokat dolgoz fel, amelyek összetett elrendezésűek, mint például több oszlop, táblázat stb.

Platform elérhetősége: Windows 10, 8, 7, Vista és XP; Mac OS X 10.7 és újabb

Ár: A fizetett verziók 99 $, 10 napos ingyenes próbaverzióból indulnak

Letöltés

3. FreeOCR

Ha egy egyszerű és nem okos OCR szoftvert keres, tisztességes szövegfelismerő képességekkel, nézze meg a FreeOCR-t . Bár nem lehet túlterhelt mindenfajta díszes funkcióval, mégis rendkívül jól működik, ami az.

A rendkívül népszerű, a Google által támogatott Tesseract OCR motor alapján a FreeOCR rendkívül könnyen használható. A szkennerek segítségével beolvasott nyomtatott dokumentumokat is beszerezhet, valamint szöveges tartalmú képeket is feltölthet. Nemcsak az, hogy a szöveget kivonatosan formázott többoldalas dokumentumokból is kinyerheti. Az alkalmazás kivonhatja az összes szöveget a bemeneti PDF-ből / képből, vagy meghatározhat egy adott szövegrészt. A konverziós sebességek meglehetősen jóak, és az átalakított szöveg menthető formátumokban, például TXT és RTF formátumban, vagy közvetlenül exportálható a Microsoft Word-be. A FreeOCR minden fontosabb képformátumot támogat, mint a PNG, a JPG és a TIFF.

A FreeOCR-nek ugyanakkor van néhány hiányossága. Túl alapos, és nincs szöveges utófeldolgozási funkciója. Ezenkívül a kivont szöveg elrendezése gyakran átfedésbe kerül, átfedő vonalakkal és oszlopokkal. Csak akkor használja, ha az OCR-funkciót bizonyos alkalmakkor használja.

Platform elérhetősége: Windows 10, 8, 7, Vista és XP

Ár: Ingyenes

Letöltés

4. Microsoft OneNote

A OneNote egy lenyűgöző, gazdag jegyzetelő alkalmazás, amely könnyen elindítható. A jegyzetelés azonban nem az egyetlen dolog, ami jó. Ha a munkafolyamat részeként a OneNote-t használja, akkor az alapértelmezett szövegszerkesztéshez használhatja a beépített OCR jóságot.

A OneNote használata a képek szöveges kivonásához nevetségesen egyszerű. Ha az asztali alkalmazást használja, mindössze annyit kell tennie, hogy a Beszúrás opciót beilleszti a kép bármelyik notebookjába vagy szakaszába. Ha ez megtörtént, egyszerűen kattintson a jobb egérgombbal a képre, és válassza a Szöveg másolása a képből lehetőséget. A kép teljes szöveges tartalmát a vágólapra másolja, és bárhol, a követelmény szerint beilleszthető (és így szerkeszthető). Akár PNG, JPG, BMP, vagy TIFF, a OneNote szinte minden nagyobb képformátumot támogatja.

Azonban a OneNote szövegkivonási képességei meglehetősen korlátozottak, és nem képes olyan összetett szöveges tartalmakkal rendelkező képekkel foglalkozni, mint a táblák és alszakaszok. Szóval ez valami, amit szem előtt kell tartania.

Platform elérhetősége: Windows 10, 8, 7 és Vista; Mac OS X 10.10 és újabb

Ár: Ingyenes

Letöltés

5. GOCR

Megjegyzés: Mielőtt elkezdené, fontos tudni, hogy bár a GOCR támogatja a rendszeres képformátumokat, például a PNG-t és a JPG-t, a tesztelés során nem sikerült felismerni őket (Windows 10 futó PC-n végzett). Nagyon lehetséges, hogy a Linux-gépeken ezeken a formátumokon dolgozhat, de ha a Windows rendszert használja, akkor a forrásképet PNM formátumra kell konvertálni. Ezt számos online fájl konvertáló eszközzel, például ezekkel lehet elvégezni.

Ami a GOCR-t választja a tételektől eltekintve, az, hogy nincs igazán grafikus felhasználói felület (GUI). Ez egy parancssori eszköz, és mint ilyen, nem igazán a legegyszerűbb használni. De ha már elégedett az alapokkal, a GOCR nagyon hasznosnak bizonyulhat a képek kinyerésében. Érdemes megjegyezni, hogy a GOCR megfelelő működéséhez a forrásképeknek világosan látható szöveges tartalommal kell rendelkezniük, és lehetőleg fehér háttérrel kell rendelkezniük, mivel a segédprogram nem működik komplex forrásfájlokkal. A GOCR kivonja a szöveget a képekből, és elmenti azokat TXT formátumban. Noha néhány argumentumot és funkciót támogat, csak néhánynak kell tudnia, hogy elinduljon. Például, a PNM-mintából származó szöveg kivonásához írja be a következő parancsot a parancssorba.

X: minta mappa g049 -i file.pnm -o file.txt

Itt az X: minta mappa az a hely, ahol a GOCR parancssori eszköze található, és a file.pnm és file.txt a bemeneti és kimeneti fájlok (mindkettő ugyanabban a helyen van, mint a GOCR is; ha a hely más;, a teljes útvonalat meg kell adni). Ha a kép szürkeárnyalatos szintjeit is meg akarja változtatni, számértéket adhat meg argumentumként az l-vel együtt. Kattintson ide a használat részletes ismertetéséhez.

Összefoglalva, a GOCR meglehetősen jó OCR segédprogram, és amikor egyszerű képekből történő kivonásról van szó, rendkívül jól működik. Mindazonáltal a funkciók szigorúan korlátozottak, és nagy mennyiségű erőfeszítést igényel a munkához.

Platform elérhetősége: Windows 10, 8, 7, Vista és XP; Linux; OS / 2

Ár: Ingyenes

Letöltés

Minden beállítva a képeket szövegre konvertálja?

A nyomtatott (és kézzel írt) szöveges tartalom digitalizálása rendkívül hasznos, mivel rendkívül egyszerűvé teszi a szöveg tárolását, szerkesztését és megosztását. A fentiekben leírt OCR-szoftver pedig gyorsan elvégzi a munkát, függetlenül attól, hogy milyen alapvető vagy fejlett a szövegkivonási igény. Szükség van professzionális szintű szövegkivonási funkciókra a legjobb utófeldolgozó eszközökkel? Menjen az ABBYY FineReader vagy a Readiris alkalmazáshoz. Egy egyszerűbb OCR szoftvert szeretne, amely csak az alapokat készíti el? Használja a OneNote-ot vagy a FreeOCR-t. Próbáld ki őket, és nézd meg, hogyan működnek az Ön számára. Ismerje meg a többi OCR szoftvert, amely a fenti listában szerepelhetett volna? Kiabáljon ki az alábbi megjegyzésekben.