Skip to content

OCR

OCR wyciąga tekst z obrazów, skanów i zrzutów ekranu dokumentów.

Po rozpoznaniu możesz skopiować wynik, wyeksportować go jako Markdown, PDF lub Word, albo pobrać kilka formatów razem w paczce.

Co potrafi OCR

FunkcjaOpis
Rozpoznawanie tekstu z obrazuWyciąga tekst z obrazów, screenshotów i skanów.
Rozpoznawanie układu dokumentuLepsze dla tabel, formuł, pieczątek i mieszanych układów tekst-obraz.
Wiele usługObsługuje Baidu PaddleOCR, Microsoft Azure Vision i Google Vision.
Kopiowanie wynikówPozwala skopiować rozpoznany tekst po przetworzeniu.
Eksport plikówEksportuje Markdown, PDF i Word.
Pakowanie zbiorczePo rozpoznaniu wielu plików pobiera wyniki jako paczkę.

Najpierw skonfiguruj usługi OCR

Otwórz:

text
System Settings -> Other Settings -> OCR

Geolokalizacja IP i OCR

Wypełnij dane usług, których chcesz użyć:

UsługaCo wpisaćNajlepsze do
Baidu PaddleOCRPaddleOCR TokenZalecany pierwszy wybór. Dobry dla dokumentów, obrazów, tabel i mieszanych układów.
Microsoft Azure VisionAzure Vision Endpoint i Azure Vision API KeyPrzydatne, jeśli używasz już usług chmurowych Microsoft.
Google VisionGoogle Vision API Key. Service account JSON służy tylko do zapytania o limit.Przydatne, jeśli używasz Google Cloud.

Po wpisaniu danych zapisz ustawienia.

Do pierwszego testu możesz skonfigurować tylko jedną usługę. Nie potrzebujesz wszystkich trzech.

Konfiguracja Google Vision

Konfiguracja Google ma dwie części:

CelWymaganie
Używanie OCRWłącz Cloud Vision API, potem utwórz API Key.
Zapytanie o użycieUtwórz service account, nadaj Monitoring Viewer, potem pobierz service account JSON.

Google API key i service account

Używanie Google do OCR

  1. Otwórz Google Cloud Console.
  2. Przejdź do APIs & Services.
  3. Otwórz Library, wyszukaj Cloud Vision API i włącz.
  4. Wróć do Credentials.
  5. Utwórz API Key.
  6. Otwórz API Key i skopiuj go.
  7. Wklej do Google Vision API Key w ImgBed.
  8. Zapisz.

Potem możesz wybrać Google Vision w oknie OCR.

Zapytanie o użycie Google

Zapytanie o limit nie jest wymagane do rozpoznawania.

Pokazuje tylko orientacyjnie, ile wywołań Google Vision użyto w ostatnich 30 dniach.

  1. W Google Cloud Console otwórz IAM & Admin.
  2. Otwórz Service Accounts.
  3. Utwórz service account, np. vision-monitor.
  4. Nadaj mu rolę Monitoring Viewer.
  5. Otwórz szczegóły service account i utwórz klucz.
  6. Wybierz JSON.
  7. Pobierz wygenerowany plik JSON.
  8. Wróć do ImgBed i zaimportuj go jako service account JSON (opcjonalnie).
  9. Po udanym imporcie kliknij zapytanie o limit.

Po imporcie ImgBed pokazuje nazwę projektu, do którego należy service account. Podczas zapytania odczytuje dane Google monitoring i pokazuje liczbę wywołań w bieżącym miesiącu.

W skrócie:

ElementCel
Google Vision API KeyWykonuje rozpoznawanie OCR.
Service account JSONOdpytuje liczbę użytych wywołań Google Vision.
Rola Monitoring ViewerPozwala service account czytać dane użycia.

Pobieranie tokenu Baidu PaddleOCR

Baidu PaddleOCR wymaga access token.

Pobieranie tokenu PaddleOCR

Otwórz okno wywołania API na stronie Baidu PaddleOCR, kliknij pobranie tokenu i skopiuj go.

Wróć do ImgBed, wklej do PaddleOCR Token i zapisz.

Rozpoczęcie rozpoznawania

W Zarządzaniu plikami wybierz obraz lub zrzut ekranu dokumentu i kliknij OCR.

Rozpoznawanie OCR

W oknie wybierz usługę rozpoznawania i model.

Popularne modele PaddleOCR:

ModelNajlepsze do
PP-StructureV3Zalecany domyślnie. Dobry dla dokumentów, tabel, formuł, pieczątek i mieszanych układów.
PP-OCRv5Proste obrazy, zwykły tekst i lekkie rozpoznawanie.
PaddleOCR-VLWielojęzyczne, złożone obrazy i treści podobne do wykresów.
PaddleOCR-VL-1.5Bardziej złożone strony dokumentów i odtwarzanie układu.

Jeśli nie masz pewności, zacznij od PP-StructureV3.

Opcje zaawansowane

OpcjaOpis
Korekcja orientacjiUżyj, gdy obraz jest obrócony lub przekrzywiony.
Prostowanie dokumentuUżyj dla fotografowanych dokumentów z krzywizną lub perspektywą.
Wykrywanie układuUżyj, gdy chcesz zachować nagłówki, akapity, tabele i strukturę obrazu.
Rozpoznawanie wykresówUżyj, gdy obraz zawiera wykresy lub złożone struktury.
Upiększ MarkdownSprawia, że eksportowany Markdown jest czytelniejszy.

Dla zwykłych screenshotów zostaw minimalne opcje. Dla skanów dokumentów włącz więcej opcji dokumentowych.

Wyniki

Po zakończeniu rozpoznawania okno pokaże wynik.

Możesz go skopiować bezpośrednio albo wybrać format eksportu.

Rozpoznawanie PDF

Dla stron dokumentów eksportowany PDF może zachować wygląd strony i jednocześnie pozwolić na wyszukiwanie tekstu. To przydatne do archiwizacji skanów i późniejszego odnajdywania treści.

Wybór formatu eksportu

FormatNajlepsze do
Markdown (.md)Notatki, systemy dokumentacji i późniejsza edycja.
PDF (.pdf)Zachowanie wyglądu strony i wyników skanowania.
Word (.docx)Dalsza edycja układu, tekstu i przekazanie innym.
Eksport wszystkiegoZapisuje wiele formatów i oryginalny obraz, dobre dla ważnych archiwów.

Jeśli potrzebujesz tylko tekstu, eksportuj Markdown.

Jeśli potrzebujesz wyglądu strony, użyj PDF lub Word.

Wynik Word

Wyeksportowane dokumenty Word można otwierać i edytować w pakietach biurowych.

Wynik Word

Niektóre dokumenty zawierają w wyniku Word rozpoznane obrazy, nagłówki i akapity.

Jakość rozpoznania zależy od ostrości oryginału, wyboru modelu i złożoności dokumentu.

Najlepsze typy plików do OCR

Typ plikuRekomendacja
Wyraźne screenshotyRozpoznawaj bezpośrednio.
SkanyPreferuj PP-StructureV3.
Fotografowane dokumentyWłącz korekcję orientacji i prostowanie dokumentu.
Tabele, formuły, pieczątkiPreferuj modele strukturalne.
Proste obrazy z krótkim tekstemPP-OCRv5 zwykle wystarczy.

Wyraźniejsze obrazy z prostszym tekstem zwykle dają lepsze wyniki.

Typowe przypadki

PrzypadekZnaczenie
Rozpoznawanie się nie udajeSprawdź, czy token lub key usługi został zapisany.
Rozpoznawanie jest wolneZłożone dokumenty i duże obrazy wymagają więcej czasu.
Tabela jest niepełnaSpróbuj modelu strukturalnego.
Tekst ma błędyRozmycie, odblaski i przekrzywienie zwiększają liczbę błędów. Spróbuj wyraźniejszego obrazu.
Wynik Word zawiera wiele obrazówModele strukturalne mogą zachować część rozpoznanych obrazów. To normalne.

Zapytanie o limit Google nie działa

Sprawdź:

  1. Zaimportowano service account JSON.
  2. Service account ma rolę Monitoring Viewer.
  3. Cloud Vision API jest włączone dla projektu.

Jeśli potrzebujesz tylko OCR, a nie zapytania o użycie, możesz pominąć service account JSON i wypełnić tylko Google Vision API Key.

Szybki przebieg

text
Otwórz System Settings
-> Otwórz Other Settings
-> Wpisz dane usługi OCR
-> Zapisz
-> Wróć do Zarządzania plikami
-> Wybierz plik i kliknij OCR
-> Wybierz model
-> Poczekaj na rozpoznanie
-> Skopiuj wynik albo eksportuj Markdown / PDF / Word

Released as user documentation for CloudFlare ImgBed.