Преобразование PDF файлов в DOC формат,
или где искать "PDF2DOC"

Q.: Как сделать из PDF DOC?
A.:
Недавно мне пришлось переводить значительную часть запароленного 4-х мегабайтного документа из формата Adobe PDF в формат MS Word. Будучи человеком (немного) ленивым, я не спешил набирать текст вручную :-), а стал искать способы конвертации. Задание осложнялось тем, что кроме пароля на выделение и копирование текста, документ имел в изобилии таблицы, картинки и нестандартное форматирование.

Через некоторое время я нашёл программу, с помощью которой можно снять пароль на выделение и копирование текста из PDf-документа. Это была знаменитая Advanced PDF Password Recovery (http://www.elcomsoft.com/apdfpr.html), из-за которой её автор отсидел срок в американской тюрьме. Но для этой программы тоже пришлось искать кряк, иначе она только 10% декодировала. Очень трудно было найти программу и кряк/сериал одинаковой версии. Пришлось качать из разных захолустных мест. Но каково было моё удивление, когда я обнаружил, что все старания пропали даром: при копировании нормально отображавшегося текста с ним что-то вдруг происходило - то слова пропадали, то лишние пробелы где-попало вылазили.

Поиск инструмента перевода PDF в HTML, RTF или DOC перешёл в новую фазу. Я обнаружил на сайте Adobe on-line сервис по переводу злосчастного PDF в HTML, но оказалось, что он русских букв не понимает, а форматирование получается паршивое. Аналогичные результаты показывали всевозможные утилиты, заявлявшиеся их создателями, как лучшее средство для преобразования PDF. Русские символы с завидной настойчивостью превращались в пробелы, хотя в остальном форматирование документа оставалось :-(.

Я обнаружил, что на официальном русском сайте Adobe открыто заявляется, что с русским языком в ПО для PDF проблемы, и применения PDF для русскоязычного документотворения не рекомендуется!!! А в журнале "Компьютерное Обозрение" была целая статья, восхвалявшая PDF и советовавшая им пользоваться :-) Дилетанты...
И тут, словно озарение, на меня свалилась программа размером 1 мегабайт BCL Drake 50 full version cracked. Я уж было, обрадовался, но что-то мне подсказывало, что не так всё просто, как говорится в мануалке. А там говорилось, что эта программа-плагин для Акробата предназначена для простого и эффективного преобразования PDF в RTF с полным сохранением форматирования. Попробовал. Вместо русских букв увидел какую-то тарабарщину, но после применения средства Word'а "Сервис/Восстановить повреждённый текст..." получил родимую кириллицу. УРА!!! Но слова стали наезжать друг на друга, а каждый абзац (или строка, в зависимости от установок Drake'а) оказался внутри объекта "надпись". Редактирование такого "документа" - одна морока. Хотя с пивом покатит...

Я уже был готов присоединится к проекту "PDF to HTML" с открытым исходным кодом sourceforge.net/projects/pdftohtml, чтобы привить ему любовь к русским буквам, но тут товарищ Хоменко Ю. принёс мне уникальное средство для перевода документов из формата PDF. Оно открывает файлы PDF с паролями и без, замечательно сохраняет форматирование документа со всеми его таблицами и рисунками, но требует немного ручного труда. Это ABBYY FineReader 6.0 Professional. Именно шестая его версия умеет преобразовывать PDF-файл в свой рабочий пакет, содержащий программно "отсканированные" с разрешением 300 dpi страницы. Есть одно но: если документ имеет нестандартное оформление (много лишних линий, рамочек) или его иллюстрации содержат электрические схемы, графики, диаграммы, то FineReader воспринимает их не как рисунки, а как таблицы и пытается их распознать. В таких случаях приходится вручную переопределять области распознавания и их тип (текст, таблица, рисунок, "определить автоматически"). Зато качество распознавания получается отличное. Некоторые замечания можно предъявить таблицам - зачем было делать фиксированную высоту ячеек, но иначе действительно трудно сохранить внешний вид документа. Итак, покупайте FineReader или качайте его отсюда. Если у Вас триальная версия, то придётся регулярно залазить в реестр и ставить ключику
[HKEY_CURRENT_USER\SOFTWARE\ABBYY\FineReader\6.00\Splash]
значение "Runs"="9999999999". Но лучше купить эту замечательную программу. Чтобы в будущем вышла версия 7.00.