Skip to content

OCR

OCR získává text z obrázků, skenů a snímků dokumentů.

Po rozpoznání můžete výsledek zkopírovat, exportovat jako Markdown, PDF nebo Word, případně stáhnout více formátů společně jako balíček.

Co OCR umí

FunkcePopis
Rozpoznávání textu v obrázkuZískává text z obrázků, screenshotů a skenů.
Rozpoznávání rozložení dokumentuVhodnější pro tabulky, vzorce, razítka a smíšená textově-obrazová rozložení.
Více služebPodporuje Baidu PaddleOCR, Microsoft Azure Vision a Google Vision.
Kopírování výsledkůPo zpracování lze zkopírovat rozpoznaný text.
Export souborůExportuje Markdown, PDF a Word.
Hromadné baleníPo rozpoznání více souborů stáhne výsledky jako balíček.

Nejdřív nastavte OCR služby

Otevřete:

text
System Settings -> Other Settings -> OCR

IP geolokace a OCR

Vyplňte přihlašovací údaje služeb, které chcete použít:

SlužbaCo zadatNejvhodnější pro
Baidu PaddleOCRPaddleOCR TokenDoporučená první volba. Dobré pro dokumenty, obrázky, tabulky a smíšená rozložení.
Microsoft Azure VisionAzure Vision Endpoint a Azure Vision API KeyUžitečné, pokud už používáte cloudové služby Microsoft.
Google VisionGoogle Vision API Key. Service account JSON slouží jen pro dotaz na kvótu.Užitečné, pokud používáte Google Cloud.

Po vyplnění údajů uložte.

Pro první test stačí nastavit jednu službu. Není nutné mít všechny tři.

Nastavení Google Vision

Nastavení Google má dvě části:

CílPožadavek
Použít OCRZapnout Cloud Vision API, potom vytvořit API Key.
Dotaz na využitíVytvořit service account, přidat roli Monitoring Viewer, potom stáhnout service account JSON.

Google API key a service account

Použití Google pro OCR

  1. Otevřete Google Cloud Console.
  2. Přejděte do APIs & Services.
  3. Otevřete Library, vyhledejte Cloud Vision API a zapněte ji.
  4. Vraťte se do Credentials.
  5. Vytvořte API Key.
  6. Otevřete API Key a zkopírujte ho.
  7. Vložte ho do Google Vision API Key v ImgBed.
  8. Uložte.

Potom můžete v dialogu OCR zvolit Google Vision.

Dotaz na využití Google

Dotaz na kvótu není nutný pro samotné rozpoznávání.

Pouze přibližně ukáže, kolik volání Google Vision bylo použito za posledních 30 dní.

  1. V Google Cloud Console otevřete IAM & Admin.
  2. Otevřete Service Accounts.
  3. Vytvořte service account, například vision-monitor.
  4. Přidejte mu roli Monitoring Viewer.
  5. Otevřete detail service account a vytvořte klíč.
  6. Vyberte JSON.
  7. Stáhněte vygenerovaný JSON soubor.
  8. Vraťte se do ImgBed a importujte ho jako service account JSON (volitelné).
  9. Po úspěšném importu klikněte na dotaz na kvótu.

Po importu ImgBed ukáže název projektu, ke kterému service account patří. Při dotazu na využití čte Google monitoring data a ukáže počet volání za tento měsíc.

Stručně:

PoložkaÚčel
Google Vision API KeyProvádí OCR rozpoznávání.
Service account JSONDotazuje, kolik volání Google Vision bylo použito.
Role Monitoring ViewerUmožní service account číst data využití.

Získání Baidu PaddleOCR tokenu

Baidu PaddleOCR vyžaduje access token.

Získání PaddleOCR tokenu

Na stránce Baidu PaddleOCR otevřete okno volání API, klikněte na získání tokenu a zkopírujte ho.

Vraťte se do ImgBed, vložte ho do PaddleOCR Token a uložte.

Spuštění rozpoznávání

Ve Správě souborů vyberte obrázek nebo snímek dokumentu a klikněte na OCR.

OCR rozpoznávání

V dialogu vyberte službu a model rozpoznávání.

Běžné modely PaddleOCR:

ModelNejvhodnější pro
PP-StructureV3Doporučený výchozí model. Dobré pro dokumenty, tabulky, vzorce, razítka a smíšená rozložení.
PP-OCRv5Jednoduché obrázky, běžný text a lehké rozpoznávání.
PaddleOCR-VLVícejazyčné, složité obrázky a obsah podobný grafům.
PaddleOCR-VL-1.5Složitější dokumentové stránky a obnovu rozložení.

Pokud si nejste jistí, začněte s PP-StructureV3.

Pokročilé volby

VolbaPopis
Korekce orientacePoužijte, když je obrázek otočený nebo nakloněný.
Narovnání dokumentuPoužijte pro fotografované dokumenty se zakřivením nebo perspektivou.
Detekce rozloženíPoužijte, když chcete zachovat nadpisy, odstavce, tabulky a strukturu obrázku.
Rozpoznávání grafůPoužijte, když obrázek obsahuje grafy nebo složité struktury.
Vylepšit MarkdownZpřehlední exportovaný Markdown.

U běžných screenshotů nechte voleb minimum. U skenů dokumentů zapněte víc dokumentových voleb.

Zobrazení výsledků

Po dokončení rozpoznávání dialog ukáže výsledek.

Můžete ho zkopírovat přímo nebo vybrat exportní formáty.

Rozpoznávání PDF

U dokumentových stránek může exportovaný PDF zachovat vzhled stránky a zároveň udržet text vyhledatelný. Hodí se to pro archivaci skenů a pozdější hledání obsahu.

Výběr exportního formátu

FormátNejvhodnější pro
Markdown (.md)Poznámky, dokumentační systémy a pozdější úpravy.
PDF (.pdf)Zachování vzhledu stránky a výsledků skenu.
Word (.docx)Další úpravy rozložení, textu a předání ostatním.
Export všehoUloží více formátů a původní obrázek, vhodné pro důležité archivy.

Pokud potřebujete jen text, exportujte Markdown.

Pokud potřebujete vzhled stránky, použijte PDF nebo Word.

Výstup Word

Exportované dokumenty Word lze otevřít a upravovat v kancelářském softwaru.

Výsledek Word

Některé dokumenty ve výstupu Word obsahují rozpoznané obrázky, nadpisy a odstavce.

Kvalita závisí na čitelnosti originálu, volbě modelu a složitosti dokumentu.

Nejlepší typy souborů pro OCR

Typ souboruDoporučení
Čitelné screenshotyRozpoznávejte přímo.
SkenyPreferujte PP-StructureV3.
Fotografované dokumentyZapněte korekci orientace a narovnání dokumentu.
Tabulky, vzorce, razítkaPreferujte strukturované modely.
Jednoduché krátké textové obrázkyPP-OCRv5 obvykle stačí.

Čitelnější obrázky s rovnějším textem obvykle dávají lepší výsledky.

Běžné případy

PřípadVýznam
Rozpoznávání selžeZkontrolujte, že token nebo key služby jsou uložené.
Rozpoznávání je pomaléSložité dokumenty a velké obrázky trvají déle.
Tabulka je neúplnáZkuste strukturovaný model.
Text obsahuje chybyRozmazání, odlesky a naklonění zvyšují chybovost. Zkuste čitelnější obrázek.
Výstup Word obsahuje mnoho obrázkůStrukturované modely mohou zachovat některé rozpoznané obrázky. Je to normální.

Dotaz na kvótu Google selže

Zkontrolujte:

  1. Service account JSON byl importován.
  2. Service account má roli Monitoring Viewer.
  3. Cloud Vision API je v projektu zapnutá.

Pokud potřebujete jen OCR a ne dotaz na využití, můžete service account JSON ignorovat a vyplnit jen Google Vision API Key.

Rychlý postup

text
Otevřete System Settings
-> Otevřete Other Settings
-> Vyplňte údaje OCR služby
-> Uložte
-> Vraťte se do Správy souborů
-> Vyberte soubor a klikněte OCR
-> Vyberte model
-> Počkejte na rozpoznání
-> Zkopírujte výsledky nebo exportujte Markdown / PDF / Word

Released as user documentation for CloudFlare ImgBed.