Как снять защиту паролем с PDF

Используем бесплатные инструменты для удаления ограничений в PDF-файлах
OCR
Optical character recognition
CAT
Computer-assisted translation tool
Пришел файл на перевод или редактирование в формате PDF, и в нем установлены ограничения на изменение и извлечение содержимого, в том числе текстового слоя. Что делать в таком случае?
Мой краткий рассказ ниже.
Получил PDF-файл с текстовым слоем, который выделяется, но просто так не копируется.

На иллюстрации выше можно увидеть свойства защиты исходного документа. Нам доступен только просмотр файла и печать.

Я хотел сконвертировать документ в формат Word для дальнейшего редактирования и перевода в CAT. Trados 2019 отказывается открывать PDF-документы, защищенные паролем.

Попытка № 1. ABBYY FineReader. Результат: не получилось. FineReader отказывается извлекать текст из PDF-документов, защищенных паролем. Во всех других отношениях FineReader — это один из лучших инструментов для OCR, но не в этот раз.

Попытка № 2.
Распечатать файл мы точно можем. Выполним печать PDF-документа… в еще один PDF-файл! Любой файл, который можно распечатать, можно отправить на печать в файл в формате PDF из любого приложения, которое поддерживает данную функцию. Для этого необходимо выбрать в списке принтеров вместо физического принтера опцию Печать в PDF или Сохранить в PDF. В полученном таким образом PDF нет защиты паролем и ограничений, но все страницы превратились в обычные изображения без текстового слоя, что в техническом плане сравнимо с печатью на бумаге и последующим сканированием в PDF, что не самый эффективный вариант. Теперь этот PDF можно хотя бы распознать в FineReader. Результат: не полный провал, но это далеко от желаемого результата. Как и ожидалось, мелкий шрифт распознался не очень хорошо, поэтому редактирование полученного вордовского документа и сопоставление его с исходным PDF все равно займет много времени.

Попытка № 3. Google Chrome. Я открыл исходный PDF, защищенный паролем, в Google Chrome и выполнил печать в PDF через встроенную функцию печати в PDF. Результат: успех. Полученный PDF больше не защищен паролем, поэтому теперь этот файл можно распознать в любом OCR-приложении, например в FineReader, или просто открыть PDF напрямую в MS Word, где распознавать текст в документе даже нет необходимости. В данном конкретном случае PDF-файл при открытии через MS Word 365 отображается даже лучше, чем тот же PDF, распознанный в ABBYY FineReader.

Однако, данный подход, скорее всего, не сработает, если PDF полностью зашифрован (в отличие от защиты от внесения изменений через пароль автора документа).

Примечание. В Windows стандартное диалоговое окно печати можно открыть через комбинацию клавиш Ctrl + P. В Mac OS используется Command + P.
Открыть файл в Chrome можно через Ctrl + O.

Параметры ограничений в полученном PDF-файле выглядят следующим образом.
Быстрый поиск в Google показал, что существует целое множество онлайн-сервисов, которые умеют снимать защиту паролем с PDF, но большая часть из них доступна по платной подписке. Если вам не нужны дополнительные платные функции, такие как редактирование самого PDF-документа, то, вероятно, бесплатный браузер Google Chrome станет отличным инструментом для снятия защиты с запароленных PDF-документов. Поскольку при выполнении печати в Google Chrome не происходит загрузки файлов в сеть, то Google Chrome будет полезен и при работе в оффлайн-режиме.
Первая публикация: 2020−08−04.
Последнее обновление: 2020−08−06.
Подписывайтесь на рассылку блога ниже на странице!
Мои вебинары по звуковому оборудованию и технике для синхронных переводчиков: https://sivokhin.com/webinar

Другие статьи