Как преобразовать pdf в читаемый текст

Содержание:

Google

В Google можно распознавать неограниченное количество картинок, лишь бы они поместились на Google Drive. Нужно просто открыть картинку с Google диска с помощью Google Документов, и она автоматически распознается.

Входные форматы PDF , JPEG, PNG, GIF
Выходные форматы Word, Open Document, RTF, Adobe PDF, HTML, Text Plain, Epub (но форматирование исчезает – нарушается компоновка картинок с текстом)
Размер файла До 2 Мб
Ограничения Ограничено только размером хранилищ Google.

Качество исходника рекоменовано не меньше 10 пикселей по высоте для строки.

Качество Так себе – качество распознавания свидетельства инн хуже, чем с Finereader. И ФИО, и номер инн полностью потеряны.

Как пользоваться

У вас должен быть Google-аккаунт для пользования сервисом, если есть почта gmail – подойдет аккаунт от нее.

  1. Загрузите файл на страницу drive.google.com  или выберите там уже загруженную картинку
  2. Нажмите правой кнопкой мыши на нужный файл.
  3. Выберите “Открыть с помощью” –>  “Google Документы”.
  4. Картинка преобразуется в документ Google и откроется на вкладке https://docs.google.com

Adobe Reader и аналоги

Самый простой, быстрый и бесплатный вариант:
Открываем нужный PDF-документ в Adobe Reader. Заходим в меню Редактировать, потом выбираем команду “Копировать файл в буфер обмена”

А дальше, стандартные действия: открываем Word, создаем новый документ и нажимаем кнопку Вставить или воспользуемся быстрыми клавишами (Ctrl+V).

Все, можно спокойно редактировать полученный текст.

Обратите внимание, при использовании данного метода не сохраняется форматирование текста и нет возможности вытащить изображения!!!

Если вам, все таки, во что бы то ни стало нужно извлечь изображение из PDF-документа, чтобы не использовать какие-нибудь программы, сделайте скриншот с экрана на котором открыт PDF-файл, из которого вы скопировали текст, но не получилось скопировать картинку.

И полученное изображение вставьте в Word. Должно получиться вот так:

Понятно, что качество изображения будет оставлять желать лучшего, но как запасной вариант вполне подойдет.

В других просмотрщиках нужно будет сделать несколько иное действие.

Вот так в Foxit Reader (меню инструменты –> команда Выделить текст):

А вот так в PDF-XChange Viewer (меню Инструменты –> Основные –> Выделение):

Затем выделяем нужный текст и производим стандартные действия с буфером обмена, для тех кто не догадался: Копировать (Ctrl+C) и в Word — Вставить (Ctrl+V).

Google Docs

В Google Docs есть инструмент для преобразования PDF в текстовые файлы. Как показывают тесты, работает он вполне достойно. Только если файл весит несколько десятков мегабайт — придется подождать несколько минут.

Зайдите на сайт Google Docs и перейдите в свой аккаунт. Нажмите кнопку «Загрузить» и выберите материал для преобразования. В меню «Файл» выберите «Загрузить как». В данном случает требуемый формат — Microsoft Word (DOCX).

Google Docs показывает хорошие результаты при обработке PDF-файлов и сохранении полученного текста в DOCX. Далее вы можете открыть файл в Microsoft Office или Apple Pages, чтобы убедиться в корректности преобразования.

Adobe Acrobat

Программа выполнит работу быстро, максимально точно и без ущерба структуре исходного текста. Однако для этого вам понадобится коммерческий дистрибутив Acrobat стоимостью 1 139 рублей в месяц.

В настоящее время Adobe предлагает семидневную демо-версию Adobe Acrobat Document Cloud, с помощью которой можно произвести однократное преобразование. Для регулярного доступа к этой функции нужно приобрести платную версию.

Откройте PDF-файл в Adobe Acrobat. На панели справа щелкните по пункту «Экспорт PDF».

Нажмите на строку «Microsoft Word», что позволит выбрать один из форматов: doc или docx. Если вы предпочли второй вариант, то можете установить дополнительные параметры сохранения текста. Когда всё будет готово, нажмите кнопку «Экспорт».

На этом этапе Adobe автоматически запустит распознавание текста для любого отсканированного документа. Эта функция не всегда срабатывает корректно, но в большинстве случаев, особенно если текст достаточно разборчив, результат близок к идеалу. Имейте в виду, что в созданный документ вам все таки придется внести некоторые правки — например, изменить шрифт или разбить всё на абзацы.

Распознавание текста онлайн без регистрации

Online OCR

Online OCR  http://www.onlineocr.net/  – единственный наряду с Abbyy Finereader сервис, который позволяет сохранять в выходном формате картинки вместе с текстом. Вот как выглядит распознанный вариант с выходным форматом Word:

Результат распознавания в Online OCR (ФИО и дата распознаны, но стерты вручную)

Входные форматы PDF, TIF, JPEG, BMP, PCX, PNG, GIF
Выходные форматы Word, Excel, Adobe PDF,  Text Plain
Размер файла До 5Мб без регистрации и до 100Мб с ней
Ограничения Распознает не более 15 картинок в час без регистрации
Качество Качество распознавания свидетельства инн оказалось хорошее. Примерно как у Abbyy Finereader – какие-то части документа лучше распознались тем сервисом, а какие-то – этим.

Как пользоваться

  1. Загрузите файл (щелкните «Select File»)
  2. Выберите язык и выходной формат
  3. Введите капчу и щелкните «Convert»

Внизу появится ссылка на выходной файл (текст с картинками) и окно с текстовым содержимым

Free Online OCR

Free Online OCR  https://www.newocr.com/ позволяет выделить часть изображения. Выдает результат в текстовом формате (картинки не сохраняются).

Входные форматы PDF, DjVu  JPEG, PNG, GIF, BMP, TIFF
Выходные форматы Text Plain (PDF и Word тоже можно загрузить, но внутри них все равно текст без форматирования и картинок).
Размер файла До 5Мб без регистрации и до 100Мб с ней
Ограничения Ограничения на количество нет
Качество Качество распознавания свидетельства инн плохое.

 Как пользоваться

  1. Выберите файл или вставьте url файла и щелкните «Preview» – картинка загрузится и появится в окне браузера
  2. Выберите область сканирования (можно оставить целиком как есть)
  3. Выберите языки, на которых написан текст на картинке и щелкните кнопку «OCR»
  4. Внизу появится окно с текстом

OCR Convert

OCR Convert http://www.ocrconvert.com/ txt

Входные форматы Многостраничные PDF, JPG, PNG, BMP, GIF, TIFF
Выходные форматы Text Plain
Размер файла До 5Мб общий размер файлов за один раз.
Ограничения Одновременно до 5 файлов. Сколько угодно раз.
Качество Качество распознавания свидетельства инн среднее. (ФИО распознано частично). Лучше, чем Google, хуже, чем Finereader

Как пользоваться

      1. Загрузите файл, выберите язык и щелкните кнопку «Process»

      1. Появится ссылка на файл с распознанным текстом

Free OCR

Free OCR www.free-ocr.com распознал документ хуже всех.

Входные форматы PDF, JPG, PNG, BMP, GIF, TIFF
Выходные форматы Text Plain
Размер файла До 6Мб
Ограничения У PDF-файла распознается только первая страница
Качество Качество распознавания свидетельства инн низкое – правильно распознано только три слова.

Как пользоваться

      1. Выберите файл
      2. Выберите языки на картинке
      3. Щелкните кнопку “Start”

I2OCR

I2OCR http://www.i2ocr.com/ неплохой сервис со средним качеством выходного файла. Отличается приятным дизайном, отсутствием ограничений на количество распознаваемых картинок. Но временами зависает.

Входные форматы JPG, PNG, BMP, TIF, PBM, PGM, PPM
Выходные форматы Text Plain (PDF и Word тоже можно загрузить, но внутри них все равно текст без форматирования и картинок).
Размер файла До 10Мб
Ограничения нет
Качество Качество распознавания свидетельства инн среднее – сравнимо с OCR Convert.

Замечено, что сервис временами не работает.

Как пользоваться

  1. Выберите язык
  2. Загрузите файл
  3. Введите капчу
  4. Щелкните кнопку «Extract text»
  5. По кнопке «Download» можно загрузить выходной файл в нужном формате

Использование Microsoft Word

Перевести PDF в DOCX может даже текстовый редактор от компании Microsoft. Речь идет о Ворде. Но стоит отметить, что только версии 2013-2016 способны на это. Делается это так:

    1. Открываем «Проводник Windows» и переходим в каталог, в котором хранится нужный документ (1). Затем кликаем правой кнопкой мыши по его названию (2), выбираем в контекстном меню пункт «Открыть с помощью» (3) и щелкаем по надписи «Word» (4).

    2. После выполнения этих действий Microsoft Word предложит сконвертировать PDF в стандартный формат редактора. Нужно всего лишь нажать на «ОК».
    3. Для редактирования текста останется только нажать кнопку «Разрешить редактирование».Именно так открываются документы ПДФ с помощью редактора Microsoft Office. Но что делать, если у вас устаревшая версия офисного пакета, а преобразовать PDF в DOC нужно немедленно? Об этом в следующей главе.

Ниже приведена подробная видеоинструкция на тот случай, если остались вопросы.

Использование программ

Теперь поговорим о том, как перевести текст документа PDF в читаемый формат для текстового редактора. Но главное – обеспечить возможность редактирования. С этим помогут справиться специализированные программы.

Далеко не все они являются бесплатными. Но даже ограниченного функционала этих приложений вполне хватит для решения задачи. Есть и бесплатные варианты. Но они, как правило, справляются с такой работой хуже.

ABBYY Finereader

Ссылка: https://www.abbyy.com/ru-ru/download/finereader/

Профессиональный программный продукт для распознавания текста с отсканированных документов и работы с проблемными форматами. Утилита превосходно справляется с конвертированием практически всех форматов.

Продукт очень мощный и требует довольно много ресурсов компьютера. Да и стоит дорого. Но для нашей задачи хватит и пробной версии приложения. А перегнать PDF в Word с помощью этой программы и вовсе – пара пустяков.

  1. Запускаем программу и в главном окне выбираем пункт «Convert to Microsoft Word» в блоке «Convert Documents».
  2. Теперь выбираем нужный PDF (1) и нажимаем «Открыть» (2).
  3. Теперь выбираем тип документа – «Editable copy» (1), языки распознавания – «Russian and English» (2) и жмем кнопку «Convert to Word» (3).
  4. Выбираем место для сохранения документа (1) и жмем «Сохранить» (2).
    Все остальное программа сделает сама. Пользователю останется только зайти в ранее выбранный каталог и запустить созданный документ в текстовом редакторе Microsoft Word. После этого можно заниматься редактированием.

    Readiris Pro

    Ссылка: http://www.irislink.com/EN-UA/c1729/Readiris-17–the-PDF-and-OCR-solution-for-Windows-.aspx

    Относительно небольшая программа для работы с документами различных форматов. Умеет не только конвертировать тексты, но и редактировать их. Тем не менее программный продукт является платным.

    Хотя для наших задач хватит возможностей и демоверсии приложения. Скачать программу можно с официального сайта разработчика. А пользоваться ею очень легко. Инструкция по переводу документа ПДФ в формат DOC или DOCX предельно проста.

    1. Запускаем программу и в главном окне щелкаем кнопку «Из файла».
    2. Теперь выбираем нужный документ (1) и жмем «Открыть» (2).
    3. Дожидаемся, пока программа прочтет все страницы и жмем кнопку «DOCX».
    4. В следующем окне просто нажимаем «ОК».

Последний шаг: выбираем место для сохранения элемента (1) и жмем «Сохранить» (2)

Вот и все. Теперь можно открывать документ при помощи текстового редактора и приступать к его редактированию. Стоит, однако, учесть, что эта программа работает намного медленнее того же ABBYY Finereader, каким бы требовательным к железу последний ни был.

First PDF to WORD Converter

Ссылка: https://www.pdftoword.ru/download.html

Небольшая относительно бесплатная утилита, которая предназначена исключительно для того, чтобы можно было перевести документ из PDF в DOCX. Утилита не требует слишком много системных ресурсов и работает довольно быстро.

Но самое ценное заключается в том, что перевести текст в другой формат для редактирования с помощью этой программы можно всего в пару кликов. Инструкция по конвертированию невероятно проста. А сделать нужно следующее.

  1. Запускаем программу и щелкаем по кнопке «Добавить файл(ы)».
  2. Далее выбираем нужный документ (1) и нажимаем «Открыть» (2).
  3. Теперь остается просто нажать на кнопку «Конвертировать» и процесс запустится.Все остальное программа сделает сама. Результат по умолчанию будет находиться в системной папке с документами. Останется только найти его и открыть в Microsoft Word для последующей работы.

    Мало кто знает, но этот сервис от компании Google тоже можно использовать для того, чтобы бесплатно перевести документ ПДФ в классический формат для Microsoft Word. И делается это очень просто.

    1. Запускаем Диск Google и жмем кнопку «Создать».
    2. Затем выбираем нужный документ на ПК, загружаем его в Диск и потом щелкаем по нему правой кнопкой мыши (1). В контекстном меню выбираем «Открыть с помощью» (2) и кликаем «Google Документы» (3).

    3. Ждем, пока элемент полностью загрузится и щелкаем меню «Файл» (1). Там выбираем пункт «Скачать как» (2) и щелкаем «Microsoft Word (DOCX)» (3).

Сразу же начнется скачивание документа, который автоматически будет переведен в нужный формат. Для данного способа пользователям необходимо иметь аккаунт в Google и интернет.

Выше рассмотрены наиболее удобные способы преобразования документов из формата PDF в формат DOC. После данного преобразования вы можете работать с документом в текстовом редакторе Microsoft Word. В этой статье предлагаем ознакомиться со способами, как обратно преобразовать документ из формата doc в формат pdf.

FormSwift

FormSwift — бесплатный онлайн-конвертер PDF в Word с интересными дополнениями. На первый взгляд сайт выглядит так же, как и многие другие, схожие по назначению. Позволяет вносить изменения в документы с последующим сохранением в формат PDF или DocX. Создав бесплатную пробную учетную запись, вы сможете отправлять результаты по электронной почте своим друзьям или деловым партнерам.

После того как документ будет загружен, FormSwift отобразит его в простом редакторе. Добавляйте, редактируйте или выделяйте текст, вставляйте или перемещайте изображения, добавляйте свою подпись.

Одна из наиболее полезных функций — удаление фрагментов, которые вам не нужны. Это повышает шансы на точное преобразование. Стоит попробовать такой вариант, если другие конвертеры не дали положительных результатов.

Наши тесты показывают, что алгоритм конвертации FormSwift дает отличные результаты даже с самыми сложными файлами. Так, был удачно обработан текст газетной страницы. Точно переданы столбцы, цвета, изображения.

PDF Converter for Windows 7

Еще более легкая и простая программка для конвертирования от фирмы Vivid Document Imaging Technologies. Не смотря на то, что в названии стоит «Windows 7», она подойдет и для более поздних версий Windows 8 и 10. Программа бесплатная, но язык только английский. Имеет возможности:

  • Извлекать изображения и текст из PDF-файлов
  • Перевод PDF-файла в готовый к редактированию документ
  • Оптимизация изображений и размера выходного файла
  • Быстрое восстановление ПДФ-документа
  • Пакетное преобразование файлов
  • Восстановление конфиденциальных и скрытых данных
  • Расшифровка зашифрованных файлов перед конвертацией
  • Распознование и перевод PDF в 9 различных форматов
  • Повысить или понизить версию ПДФ-документа

Системные требования

Версия Windows XP, Vista, 7, 8, 10
Место на диске 1,6 Mb
Память ОЗУ 128 Mb
Процессор Pentium III 500

Free Online OCR

Free Online OCR создает документы, которые выглядят практически идеально. Следует лишь немного разобраться с настройкой. С помощью данного сервиса легко конвертировать отсканированные документы с пакетной обработкой. Но форматирование при этом иногда теряется.

Как следует из названия, Free Online OCR — бесплатное веб-приложение. Оно использует оптическое распознавание символов для идентификации содержимого в PDF-файлах. Работает с отсканированными документами, а также с оригинальными файлами

Это важно, если вы хотите, к примеру, преобразовать и отредактировать распечатанные материалы для проведения лекций

Free Online OCR конвертирует одновременно только один файл. Максимальный его объем — 5 Гб. Выберите нужный файл, настройте язык и конечный формат (Microsoft Word, Excel, txt). Затем введите капчу, чтобы начать преобразование. Через несколько секунд вы увидите ​​ссылку для скачивания. Вам не нужно вводить адрес электронной почты и ждать получения письма со ссылкой для скачивания.

По результатам наших тестов сервис показал отличные результаты в конвертации PDF-файлов. Важный момент: изображения сохраняется неизменными и остаются на прежнем месте.

Правда имеется несколько минусов. Текст на цветном фоне не всегда правильно распознается. Также порой встречаются разрывы строк. Но не нужно использовать много настроек, чтобы документ выглядел почти идентично оригиналу.

Мой пример использования конвертирования PDF в редактируемый формат

В свое время, я столкнулся с необходимостью преобразования файлов из одного формата в другой редактируемый формат. Моя дочь училась в младших классах, очень много времени занимало выполнение домашних заданий.

Мне поручили выполнять переводы с английского языка. Знакомая многим ситуация, но был один нюанс:  в свое время я учил испанский язык, а жена — французский. Помочь с переводами текстов мы не могли.

Вам также может быть интересно:

  • Как конвертировать Word в PDF — 9 способов
  • 10 сервисов для преобразования Word в PDF онлайн

Вручную набрать пару страниц текста для вставки в онлайн переводчик было нереально (огромные затраты времени). Поэтому, я придумал, как выйти из этого положения. План был такой: я сканирую листы учебника на принтере МФУ (имеющем встроенный сканер), сохраняю их в формате PDF, а потом с помощью программы ABBYY PDF Transformer конвертирую в редактируемый формат Word. После проверки на ошибки, текст готов для работы с переводчиком.

Подобным образом я пару лет выполнял домашние задания по английскому языку, потом дочка стала успевать делать уроки. Программа ABBYY PDF Transformer меня здорово выручила.

Подготовка

Вам потребуется:

  1. Проверить, что PDF документ не позволяет извлечь текст обычным способом.
  2. Преобразовать страницы PDF документа в изображения высокого разрешения.
  3. Выполнить распознавание текста на изображениях и получить текст без форматирования.

Для Tesseract потребуется дополнительная настройка:

В Linux установите или скомпилируйте самостоятельно проекты «libleptonica-dev» и «libtesseract-dev». Скомпилированные библиотеки добавьте в ваш проект. Например, под Ubuntu 20.04:

В macOS установите Tesseract с помощью brew:

После этого нужно добавить файлы для некоторых зависимостей в проект:

liblibdl.so должна оказаться уровнем выше относительно libleptonica-1.78.0.so и libtesseract41.so

В проекте для каждого из *.so файлов нужно установить свойство «Copy to output directory» в «Always copy».
Обратите внимание, что с Tesseract может быть установлена иная версия зависимостей. Например, в моем случае была установлена Leptonica 1.79.0 вместо требуемой 1.78.0

Это нормально, если установленные версии совместимы с Leptonica 1.78 и Tesseract 4.1.

Конвертация с помощью инструментов Microsoft Word

Последние версии программы Microsoft Office Word умеют преобразовывать файлы формата pdf самостоятельно. Сделать pdf-файл можно непосредственно из программы. Однако для потребуется установить дополнение Save as PDF or XPS. После этого в меню “Файл” появится соответствующий пункт. Данная опция позволяет сохранять документы необходимого формата непосредственно из редактора.

Используйте эту функцию программы, после чего откроется окно для сохранения. Здесь потребуется выбрать нужную папку, вписать имя файла, а потом нажать “Опубликовать”.

Файл можно выбрать из недавно открывавшихся документов или пройдя путь во вкладке  до нужной папки.  Также открыть pdf-файл можно из папки, где он расположен. Наведите указатель на pdf-документ и нажмите правую кнопу мыши. Из открывшегося меню нужно выбрать опцию открыть с помощью, найдите пункт “Word” и нажмите на него.

Осторожно! Не любой Microsoft Office поддерживает подобное, если версия вышла до 2013 года, то придется воспользоваться другими средствами для перевода.

Приложение предупреждает о том, что процесс преобразования ПДФ в Ворд займет время. Если есть в верхней части кнопка разрешить редактирование, то нажмите на нее после чего программа сможет редактировать текст. Выберите вариант “сохранить как” из меню “Файл”, там выберите формат docx (соответствует стандартному формату Microsoft Office Word) или doc (формат использовавшийся до 2007 года) и нажмите кнопку “Сохранить”. После этого на вашем компьютере появится новый файл, который будет удобен для редактирования формате.

Справка! Если pdf-документ был защищен от редактирования, во время сохранения измените пункт “защищенный просмотр” во вкладке сведения, после чего сохраняйте файл.

Если конвертировать ПДФ в Ворд таким образом, то программа переведет все текстовые и графические элементы на страницы нового документа, но отношения между ними, например расположение картинок или разрывы страниц, могут быть потеряны. Также таблицы могут восприниматься программой как текстовые строки, соответственно форматирование колонок придется восстанавливать вручную.

Преобразование PDF в Word через Foxit Reader

Чтобы осуществить перевод из ПДФ в Ворд с помощью Foxit Reader, необходимо сначала открыть документ:

  • Если по умолчанию система открывает pdf-файлы этой программой, то достаточно просто двойного клика левой кнопкой мыши по документу. В верхней части окна после имени файла указана программа, при помощи которой он был открыт.
  • Находясь в папке с файлом, нажмите на него правой кнопкой мыши. Из открывшегося меню выберите опцию “Открыть с помощью”, где найдите и выберите Foxit Reader.
  • Откройте Foxit Reader из меню пуск. Из меню “Файл” выберите опцию “Открыть”. В файловой системе найдите интересующий объект и нажмите кнопку “Открыть” в нижней части окна.

Программа позволяет выделять и копировать куски теста. Копировать текст можно при помощи горячих клавиш либо мыши – зажав ее левую кнопку проведите указателем над нужным участком текста. В программе при этом должен быть включен режим “Выделить текст”. Режимы расположены в верхней левой части экрана.

Скопируйте выделенный фрагмент комбинацией клавиш ctrl+c или кликнув правой кнопкой мыши по выделенному участку текста и выбрав из выпавшего меню пункт “Копировать”. Во вкладке “Главная” есть иконка, которая содержит опции “Выделить все” и “Копировать”. Воспользуйтесь первой опцией, чтобы выделить текст всего документа, а второй – поместите выделенное в буфер обмена.

Откройте меню “Пуск”, выберите программу Microsoft Office и создайте там новый документ Word. Альтернативный способ создать вордовский файл: кликните правой кнопкой мыши на пустое пространство внутри любой папки, после чего наведите указатель на опцию “Создать” и из выпадающего меню выберите опцию “Документ Microsoft Office Word”. Открыть его можно двойным кликом мыши по нему. В открытый файл вставьте скопированный текст. Это можно сделать комбинацией клавиш ctrl+v или кликнув правой кнопкой мыши по пустому листу, из выпадающего меню нужно выбрать опцию вставить.

Отредактируйте документ, а также дополните электронной подписью, если нужно. Затем сохраните его как ПДФ при помощи программы Word.

Внимание! При копировании больших объемов данных Ворд может зависнуть. Чтобы избежать подобного, предпочтительней копировать и сохранять текст по частям.

Особые случаи

Описанный подход хорошо работает для большинства документов. Рассмотрим ситуации, когда требуются дополнительные действия.

Текст на разных языках

Документ может содержать страницы на разных языках. И в общем случае неизвестно, какие языки используется на конкретной странице.

Tesseract позволяет использовать несколько языков при распознавании. Для этого:

  • В папку tessdata добавьте файлы моделей для каждого из используемых языков.
  • И укажите языки при инициализации TesseractEngine, например, так:

Естественно, желательно примерно представлять, какие языки могут встречаться в документе. Чем больше языков используется — тем дольше работает распознавание.

Иногда Tesseract некорректно обрабатывает случаи, когда текст на разных языках встречается рядом в одной строке. В таких случаях попробуйте ранее перечисленные способы по улучшению качества распознавания. Если не поможет, то попробуйте обходной путь — распознавайте отдельные слова на разных языках и в каждом случае выбирайте результат с большим значением confidence. Пример кода:

Страница содержит неправильный текст

Встречаются доступные для поиска PDF документы, из которых текст извлекается, но неправильно. Это происходит, когда документ не содержит информацию о соответствии глифов значениям Unicode. Или содержит неправильную информацию. Например, для глифа ‘A’ указано соответствие U+0007, а для глифа ‘B’ указано U+00B6 и т.д.

Первая задача — определить, что текст извлекается неверно. Можете сделать это, проверив извлеченный текст на соответствие языку документа:

  • Проверить наличие популярных слов (для английского — «the», «be», «to»)
  • Проверить наличие и количество символов из алфавита нужного языка
  • Использовать сторонние библиотеки для определения языка текста

Определили, что текст или большая его часть не соответствует языку — делайте OCR. Убедитесь, что распознанный текст лучше исходного. Для этого проверьте распознанный текст на соответствие нужному языку и сравните результаты с первой проверкой.

Abbyy Finereader

В Abbyy Finereader Online самый удобный интерфейс, хорошее качество, но доступна только ознакомительная версия – можно распознать не более 10 страниц за две недели. (200 страниц в месяц стоят 299р).  Для использования сервиса нужно зарегистрироваться (можно войти через аккаунты социальных сетей). Кроме того, полученный текст можно там же перевести на другой язык с помощью машинного перевода.

Бесплатно доступно не более 10 страниц в две недели.

Входные форматы PDF, TIF, JPEG, BMP, PCX, PNG
Выходные форматы Word, Excel, Power Point, Open Document, RTF, Adobe PDF,  Text Plain, Fb2, Epub
Размер файла До 100Мб
Ограничения 10 картинок на две недели
Качество Качество распознавания свидетельства инн оказалось хорошее. Примерно как  у Online OCR  – какие-то части документа лучше распознались тем сервисом, а какие-то – этим.

Результат распознавания Finereader. (ФИО и город распознаны, но стерты вручную)

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *