Jak se vypořádat s nepřístupnými soubory PDF

8. 11. 2022 | Tým Adaptech | Témata: Speciální software Přístupnost Dolphin OCR

V dnešní novince si řekneme, jak číst běžně nepřístupné soubory ve formátu PDF.

PDF (Portable Document Format) je oblíbeným formátem, ve kterém jsou často distribuovány např. různé návody, ale i faktury atd. Důvod je ten, že do PDF lze vkládat jak text, tak obrázky či další multimediální obsah a soubor graficky naformátovat. Tak, jak jej vytvoříte, se pak bude identicky tisknout nebo zobrazovat napříč různými platformami.

Tyto možnosti však představují zároveň i nevýhodu s ohledem na přístupnost. Vytvoří-li totiž někdo PDF soubor sestávající pouze z vizuální reprezentace tištěné stránky, tedy obsahující jen obrázky a žádný text, čtečka obrazovky si s ním standardně neporadí.

Takové soubory je třeba převést pomocí technologie OCR na text s formátováním. K tomuto převodu můžete použít specializované programy, jako je Abbyy Fine Reader, který je ale placený, anebo např. OCR integrované v programech SuperNova Předčítací lupa, SuperNova Lupa s hlasovou podporou a Dolphin ScreenReader (dále jen „produkty Dolphin s funkcí OCR“).

Jak poznáte, že je dokument PDF jen obrazový (bez textové vrstvy)

K tomu, abyste poznali, zda dokument obsahuje textovou vrstvu, jej stačí otevřít se spuštěným programem SuperNova nebo Dolphin ScreenReader v programu Adobe Reader. Máte-li Adobe Reader správně nastavený (jsou aktivované volby usnadnění přístupu), nejčastěji se zobrazí dialogové okno informující o „čtení netagovaného dokumentu“ („čtením“ je myšlena příprava struktury dokumentu PDF pro asistenční technologii, jako je SuperNova). Až taková příprava dokumentu PDF proběhne, buď se začne číst textový obsah dokumentu PDF, nebo SuperNova oznámí, že dokument PDF neobsahuje žádný text. V tuto chvíli je nutné jej rozpoznat pomocí technologie OCR.

Ani případná textová vrstva však nezaručí bezchybnou interpretaci dokumentu PDF uživateli asistenční technologie. To je dáno právě tzv. tagováním, což je proces přípravy dokumentu PDF pro tyto technologie usnadnění přístupu.

Opatřování dokumentů PDF kvalitní textovou vrstvou má však i další výhody – kromě podpory asistenčních technologií je to možnost jejich archivace a následného prohledávání nástroji třetích stran. K tvorbě takové kvalitní textové vrstvy, aby se stala součástí samotného dokumentu PDF, slouží především komerční produkt Adobe Acrobat, využívaný autory dokumentů PDF. Také již zmíněný ABBYY FineReader disponuje mnohými možnostmi vytváření přístupných dokumentů PDF, to je však téma přesahující rámec této novinky.

I dokumenty PDF s nekvalitní textovou vrstvou lze postupy uvedenými níže kvalitně převést na dokumenty aplikace Word.

Rozpoznání obrazu dokumentů PDF pomocí produktů Dolphin s funkcí OCR

  1. Když je produkt Dolphin s funkcí OCR spuštěn, stiskněte klávesy CAPS LOCK + O. Nemáte-li připojen skener, otevře se dialogové okno „Otevřít“, kde můžete vybrat soubor, který se má zpracovat.
  2. Následně se objeví dialogové okno, ve kterém si můžete zvolit, kolik stránek chcete rozpoznat (obvykle všechny) a jakým způsobem si přejete výsledný soubor otevřít. Když zvolíte „Otevřít v aplikaci Microsoft Word“, výsledkem bude dokument pojmenovaný podle zdrojového souboru, uložený ve složce „Dokumenty“.

Rozpoznání obrazu dokumentů PDF pomocí ABBYY FineReaderu

ABBYY FineReader (dnes pod názvem ABBYY FineReader PDF) je komerční software, jehož dříve jedinou úlohou byl převod obrazu na upravitelný text. Dnes se jedná o software, který umí pracovat hlavně se soubory PDF včetně jejich editace, porovnávání atd., technologie rozpoznávání textu je však stále hlavním motorem tohoto produktu.

Když je produkt nainstalován, lze převod dokumentů PDF provést otevřením kontextové nabídky Průzkumníka souborů (kliknutím pravým tlačítkem na soubor), zvolením příslušné položky nabídky obsahující název aplikace „ABBYY FineReader“ a nakonec volbou položky „Převést na dokument aplikace Word“. V různých verzích aplikace ABBYY FineReader jsou názvy položek a jejich uspořádání v kontextové nabídce mírně odlišné.

Výsledkem bude též dokument aplikace Word, uložený ve vámi zvoleném umístění.

Zatímco asistenční technologie Dolphin ukládá dokumenty aplikace Word ve starší variantě formátu DOCX (v záhlaví aplikace Word se zobrazí text „režim kompatibility“), ABBYY FineReader dokáže dokument uložit v nejnovější verzi dokumentu Word. Záleží tak na každém uživateli, jaká varianta převedeného dokumentu mu bude vyhovovat, a to jak z hlediska kompatibility, tak i výsledného formátování.

Je-li převod zdařilý, měl by Word umožnit úpravu dokumentu, aniž by se výrazně narušila struktura původního dokumentu.

Shrnutí

Jakým způsobem pracujete se soubory ve formátu PDF vy a jak řešíte jejich přístupné čtení? Podělte se o své názory v diskusi na našem Facebooku.