cs.phhsnews.com


cs.phhsnews.com / Extrahujte text ze souborů PDF a obrázků

Extrahujte text ze souborů PDF a obrázků


Máte dokument PDF, ze kterého byste chtěli získat celý text? Co obrazové soubory naskenovaného dokumentu, které chcete převést do upravitelného textu? To jsou některé z nejčastějších problémů, které jsem viděl na pracovišti při práci se soubory.

V tomto článku budu mluvit o několika různých způsobech, jak můžete vyjít z pokusu o extrahování textu z PDF nebo z obrázku. Výsledek extrakce se bude lišit v závislosti na typu a kvalitě textu v PDF nebo obrázku. Také se vaše výsledky budou lišit v závislosti na použitém nástroji, takže je nejlepší vyzkoušet co nejvíce možností, jak je to možné, abyste dosáhli nejlepších výsledků.

Extrahujte text z obrázku nebo PDF

Nejjednodušší a nejrychlejší způsob, jak začít, je zkusit online službu extrahování textu ve formátu PDF. Ty jsou obvykle zdarma a mohou vám poskytnout přesně to, co hledáte, aniž byste museli instalovat nic na vašem počítači. Zde jsou dvě, které jsem použil s velmi dobrými až vynikajícími výsledky:

ExtractPDF

ExtractPDF je bezplatný nástroj pro uchopení obrázků, textu a písem ze souboru PDF. Jediným omezením je, že maximální velikost souboru PDF je 10 MB. To je trochu malé; takže pokud máte větší soubor, vyzkoušejte některé z níže uvedených metod. Vyberte soubor a klepněte na tlačítko Odeslat soubor . Výsledky jsou obvykle velmi rychlé a po klepnutí na kartu Text byste měli vidět náhled textu.

Je to také pěkný přínos, který extrahuje obrazy ze souboru PDF také v případě, že potřebujete ty! Celkově funguje online nástroj skvěle, ale dostal jsem se do několika PDF dokumentů, které mi dávají zábavný výstup. Text je extrahován v pohodě, ale z nějakého důvodu bude mít po každém slově řádek! Není to obrovský problém pro krátký soubor PDF, ale určitě problém pro soubory se spoustou textů. Pokud k tomu dojde, vyzkoušejte další nástroj.

Online OCR

Online služba OCR měla většinou tendenci pracovat pro dokumenty, které s nástrojem ExtractPDF nekonvertují správně, takže je dobré vyzkoušet obě služby, abyste zjistili, které z nich vám dávají lepší výstup. Online OCR má také některé hezčí funkce, které se mohou ukázat jako užitečné pro každého s velkým PDF souborem, který potřebuje převést text pouze na několik stránek než na celý dokument.

První věc, kterou chcete udělat, je pokračovat a vytvořit zdarma účet. Je to trochu nepríjemné, ale pokud nevytvoříte účet zdarma, bude pouze částečně převést váš PDF spíše než celý dokument. Také místo toho, abyste mohli pouze nahrát pouze dokument o velikosti 5 MB, můžete nahrát až 100 MB na soubor s účtem.

Nejprve vyberte jazyk a poté vyberte typ výstupních formátů, které chcete pro převedený soubor. Máte několik možností a můžete si vybrat více než jednu, pokud se vám líbí. V dokumentu Více stránek můžete vybrat čísla stránek a vybrat pouze stránky, které chcete převést. Potom vyberte soubor a klikněte na Převést !

Po konverzi se dostanete do sekce Dokumenty (pokud jste přihlášeni), kde můžete vidět, kolik volných bezplatných stránek máte a odkazy ke stažení převedených souborů. Vypadá to, že máte jen 25 stránek zdarma denně, takže pokud budete potřebovat víc, budete muset trochu počkat nebo koupit více stránek.

Online OCR provedl vynikající práci při konverzi souborů PDF, protože dokázal zachovat aktuální rozložení textu. V mém testu jsem vzal dokument Word, který používal kuličky, různé velikosti písma atd. A přeměnil ho na PDF. Pak jsem použil službu Online OCR, aby jej převedl zpět do formátu Word a byl asi 95% stejný jako originál. To je docela působivé pro mě.

Navíc, pokud chcete konvertovat obraz na text, může to provést online OCR stejně snadno jako extrahování textu ze souborů PDF.

Online OCR zdarma

Vzhledem k tomu, že mluvíme o obrázku na text OCR, dovolte mi zmínit další dobré internetové stránky, které fungují opravdu dobře na obrázcích. OCR zdarma byl velmi dobrý a velmi přesný při extrakci textu z mých testovacích obrázků. Vzal jsem pár fotografií z mého iPhone ze stránek knih, brožur apod. A byl jsem překvapen, jak dobře to bylo možné převést na text.

Vyberte soubor a klepněte na tlačítko Nahrát. Na další obrazovce je několik možností a náhled obrázku. Můžete ho oříznout, pokud nechcete OCR celou věc. Pak stačí kliknout na tlačítko OCR a převedený text se zobrazí pod náhledem obrázku. To také nemá žádné omezení, což je opravdu pěkné.

Kromě online služeb existují dva freeware konvertory PDF, které chci zmínit v případě, že potřebujete software, který běží na vašem počítači a provádí konverze. Se službami online budete vždy potřebovat připojení k internetu a to nemusí být možné pro všechny. Všiml jsem si ovšem, že kvalita konverzí z freewarových programů byla výrazně horší než kvalita internetových stránek.

A-PDF Text Extractor

A-PDF Text Extractor je freeware, který dělá poměrně dobrou práci při extrakci textu ze souborů PDF. Po stažení a instalaci klikněte na tlačítko Otevřít a vyberte soubor PDF. Potom spusťte proces kliknutím na položku Extrahovat text.

Bude se vás zeptat na umístění, kam se bude ukládat textový výstupní soubor, a pak se začne extrahovat. Můžete také kliknout na tlačítko Možnosti, které vám umožní vybrat pouze některé stránky, které chcete extrahovat, a typ extrakce. Druhá možnost je zajímavá, protože vytahuje text v různých rozvrženích a stojí za to vyzkoušet všechny tři, aby viděli, které vám dávají nejlepší výstup.

Pilot PDF2Text

Pilot PDF2Text provádí ok extrakci textu. Nemá žádné možnosti; stačí přidat soubory nebo složky, převést a naděkovat na to nejlepší. Na některých formátech PDF fungovalo dobře, ale pro většinu z nich bylo mnoho problémů.

Stačí kliknout na Přidat soubory a pak kliknout na tlačítko Převést . Jakmile je konverze dokončena, klepnutím na tlačítko Procházet otevřete soubor. Během jízdy se vám bude lišit počet kilometrů, takže nečekejte mnoho.

Také stojí za zmínku, že pokud jste v podnikovém prostředí nebo můžete získat ruce na kopii aplikace Adobe Acrobat z práce, můžete skutečně získat mnohem lepší výsledky. Aplikace Acrobat není samozřejmě zdarma, ale má možnosti převodu formátu PDF do formátu aplikace Word, Excel a HTML. To také dělá nejlepší práci zachování struktury původního dokumentu a konverze složitého textu.


Jak vybrat celou oblast v aplikaci Word

Jak vybrat celou oblast v aplikaci Word

Můžete použít přestávky v aplikaci Word, abyste použili jiné rozvržení nebo formátování pro část dokumentu, čísla stránek nebo styl čísla stránky, záhlaví nebo zápatí, atd. Pokud potřebujete vybrat celý obsah v sekci, není k dispozici zkratka SOUVISEJÍCÍ: Jak rychle a snadno vybrat bloky obsahu v aplikaci Word Nicméně máme můžete vybrat celý obsah v jedné sekci.

(how-to)

Jak ručně inovovat své zařízení Nexus pomocí továrních obrázků Google

Jak ručně inovovat své zařízení Nexus pomocí továrních obrázků Google

Zařízení Nexus od Googlu mají přijímat včasné aktualizace, ale rozložené rozmístění znamená, že může trvat několik týdnů, (OTA). Naštěstí existuje rychlejší způsob, jak nainstalovat nejnovější verzi Androidu. Společnost Google poskytuje oficiální obrazy systému pro zařízení Nexus, které si někdo může stáhnout a blesknout samostatně.

(how-to)