Skip to content

OCR

OCR извлекает текст из изображений, сканов и скриншотов документов.

После распознавания можно скопировать результат, экспортировать его как Markdown, PDF или Word, либо упаковать несколько форматов вместе для скачивания.

Что умеет OCR

ВозможностьОписание
Распознавание текста на изображенииИзвлекает текст из изображений, скриншотов и сканов.
Распознавание структуры документаЛучше подходит для таблиц, формул, печатей и смешанных text-image layouts.
Несколько сервисовПоддерживает Baidu PaddleOCR, Microsoft Azure Vision и Google Vision.
Копирование результатовКопирует распознанный текст после обработки.
Экспорт файловЭкспортирует Markdown, PDF и Word.
Batch packagingПосле распознавания нескольких файлов можно скачать результаты пакетом.

Сначала настройте OCR-сервисы

Откройте:

text
System Settings -> Other Settings -> OCR

IP-геолокация и OCR

Заполните credentials для сервисов, которые хотите использовать:

СервисЧто ввестиЛучше всего подходит для
Baidu PaddleOCRPaddleOCR TokenРекомендуемый первый выбор. Хорошо работает с документами, изображениями, таблицами и смешанными layout.
Microsoft Azure VisionAzure Vision Endpoint и Azure Vision API KeyПолезно, если вы уже используете облачные сервисы Microsoft.
Google VisionGoogle Vision API Key. Service account JSON используется только для quota query.Полезно, если вы используете Google Cloud.

После заполнения credentials сохраните настройки.

Для первого теста можно настроить только один сервис. Все три не нужны.

Настройка Google Vision

Настройка Google состоит из двух частей:

ЦельТребование
Использовать OCRВключить Cloud Vision API, затем создать API Key.
Запрашивать usageСоздать service account, выдать Monitoring Viewer, затем скачать service account JSON.

Google API key и service account

Использование Google для OCR

  1. Откройте Google Cloud Console.
  2. Перейдите в APIs & Services.
  3. Откройте Library, найдите Cloud Vision API и включите его.
  4. Вернитесь в Credentials.
  5. Создайте API Key.
  6. Откройте API Key и скопируйте его.
  7. Вставьте его в Google Vision API Key в ImgBed.
  8. Сохраните.

После этого в OCR-диалоге можно выбрать Google Vision.

Запрос usage Google

Quota query не нужен для самого распознавания.

Он только примерно показывает, сколько вызовов Google Vision было использовано за последние 30 дней.

  1. В Google Cloud Console откройте IAM & Admin.
  2. Откройте Service Accounts.
  3. Создайте service account, например vision-monitor.
  4. Выдайте ему роль Monitoring Viewer.
  5. Откройте детали service account и создайте key.
  6. Выберите JSON.
  7. Скачайте созданный JSON-файл.
  8. Вернитесь в ImgBed и импортируйте его в service account JSON (необязательно).
  9. После успешного импорта нажмите quota query.

После импорта ImgBed показывает project name, которому принадлежит service account. При запросе usage ImgBed читает Google monitoring data и показывает количество вызовов за текущий месяц.

Коротко:

ЭлементНазначение
Google Vision API KeyВыполняет OCR recognition.
Service account JSONЗапрашивает, сколько вызовов Google Vision использовано.
Monitoring Viewer roleПозволяет service account читать usage data.

Получение Baidu PaddleOCR Token

Baidu PaddleOCR требует access token.

Получение PaddleOCR token

Откройте окно вызова API на странице Baidu PaddleOCR, нажмите получение token и скопируйте его.

Вернитесь в ImgBed, вставьте его в PaddleOCR Token и сохраните.

Запуск распознавания

В File Management выберите изображение или скриншот документа и нажмите OCR.

OCR recognition

В диалоге выберите service и model.

Распространенные PaddleOCR models:

ModelЛучше всего подходит для
PP-StructureV3Рекомендуется по умолчанию. Хорошо для документов, таблиц, формул, печатей и смешанных layout.
PP-OCRv5Простые изображения, обычный текст и легкое распознавание.
PaddleOCR-VLМногоязычные, сложные изображения и chart-like content.
PaddleOCR-VL-1.5Более сложные страницы документов и восстановление layout.

Если не уверены, начните с PP-StructureV3.

Advanced Options

ОпцияОписание
Orientation correctionИспользуйте, когда изображение повернуто или перекошено.
Document flatteningДля сфотографированных документов с изгибом или наклоном.
Layout detectionКогда нужно сохранить headings, paragraphs, tables и структуру изображений.
Chart recognitionКогда изображение содержит charts или сложные структуры.
Beautify MarkdownДелает экспортированный Markdown удобнее для чтения.

Для обычных скриншотов оставляйте минимум опций. Для сканов документов включайте больше document-related options.

Просмотр результатов

После завершения распознавания диалог показывает результат.

Его можно скопировать напрямую или выбрать форматы экспорта.

PDF recognition

Для страниц документов экспортированный PDF может сохранять внешний вид страницы и при этом оставлять текст пригодным для поиска. Это удобно для архивирования сканов и дальнейшего поиска содержимого.

Выбор формата экспорта

ФорматЛучше всего для
Markdown (.md)Заметки, документационные системы и дальнейшее редактирование.
PDF (.pdf)Сохранение внешнего вида страницы и результатов сканированных документов.
Word (.docx)Дальнейшее редактирование layout, изменение текста и передача другим.
Export allСохраняет несколько форматов и исходное изображение, подходит для важных архивов.

Если нужен только текст, экспортируйте Markdown.

Если важен внешний вид страницы, используйте PDF или Word.

Word Output

Экспортированные Word-документы можно открывать и редактировать в office software.

Word result

Некоторые документы содержат распознанные изображения, headings и paragraphs в Word output.

Качество распознавания зависит от четкости оригинала, выбора model и сложности документа.

Лучшие типы файлов для OCR

Тип файлаРекомендация
Четкие скриншотыРаспознавать напрямую.
СканыЛучше PP-StructureV3.
Сфотографированные документыВключить orientation correction и document flattening.
Таблицы, формулы, печатиЛучше structured models.
Простые короткие текстовые изображенияPP-OCRv5 обычно достаточно.

Более четкие изображения с ровным текстом обычно дают лучший результат.

Типичные случаи

СлучайЗначение
Recognition failsПроверьте, сохранен ли service token или key.
Recognition is slowСложные документы и большие изображения требуют больше времени.
Table is incompleteПопробуйте structured model.
Text has mistakesРазмытие, блики и перекос увеличивают ошибки. Попробуйте более четкое изображение.
Word output contains many imagesStructured models могут сохранять часть распознанных изображений. Это нормально.

Google Quota Query Fails

Проверьте:

  1. Service account JSON импортирован.
  2. Service account имеет роль Monitoring Viewer.
  3. Cloud Vision API включен для проекта.

Если нужен только OCR, а не usage query, service account JSON можно не использовать и заполнить только Google Vision API Key.

Короткий сценарий

text
Открыть System Settings
-> Открыть Other Settings
-> Заполнить OCR service credentials
-> Сохранить
-> Вернуться в File Management
-> Выбрать файл и нажать OCR
-> Выбрать model
-> Дождаться recognition
-> Скопировать результат или экспортировать Markdown / PDF / Word

Released as user documentation for CloudFlare ImgBed.