Adobe Acrobat. Открываешь и сохраняешь как текст
Угу, только будь готов к тому, что каждая строка обязательно станет отдельным абзацем. В принципе, лечится написанем вордового макроса для объединения абзацев и визуальным контролем.
Дальше, возможно нарушение порядка следования текста — какая-нить трехстрочная табличная врезка внизу страницы или вроде-бы простенький список может разбиться на самостоятельные элементы, которые вклинятся в самые разные места, а то и переползут на другую страницу. Не часто, но такое бывает, так что, опять же, проверка глазами.
Всякие PDF-примочки от
verypdf.com или
BCL тоже не панацея. Да, абзацы они объедиянют. Только далеко не всегда корректно, да и списки при этом зачастую сливаются, куча лишних пробелов, бардак со стилями... Или, как и заявляется, полностью сохраняют форматирование исходного документа. Только вот при этом каждая строка текста вставлется в рамку - и че потом с ними делать, если документ переводить надо?
Так что мы, в основном, используем всякий экспорт PDF->doc для оценки объемов при переводе презентаций (ppt->pdf->doc и считаем кол-во знаковв ворде).
А файнридером я ещё толком ни разу не распознал PDF'ы
На картинках и элементах вёрстки ему башню срывает
Угу, была (?) такая проблема до 7-ой версии, но, вроде, исчезла. По крайней мере, за последний месяц-полтора пока не сталкивался (это где-то 20-30 PDF'ов разных объемов и степени сложности). А те несколько PDF'ок, на которые FR6 ругался при попытке импорта некоторых страниц, будучи для интереса подсунуты седьмому прошли на ура.
Ну, разве что, осталась проблема корректного разбиения на блоки: то файнридер пытается распознать меню на скриншоте, то с табличкой у него напряг выходит... Тут уж опять ручками и глазками.
На самом деле, эт для меня тож больная тема, так что буду рад услышать новые мысли