rulinux.net - Все о GNU/Linux и не только - Форум - Talks - Сканирование и оцифровка книг

Сканирование и оцифровка книг

Представим, что хочу я получить какую-нибудь книжку в электронном виде, которая есть у меня в наличии, а в интернете практически отсутствует. Возникает такой вопрос - а как лучше всего это делать?

Сканер у меня есть, пусть и довольно унылый, но всё же. Отсканировать 600 страниц за какое-то время я смогу, это уже чисто механическая работа. Далее надо будет покрутить и порезать сканы, для этого, насколько я знаю, софт тоже существует, тот же unpaper. И ещё какой-то другой был, но, думаю, я как-нибудь найду (если кто подскажет - будет приятно).

А вот в каком формате всё это дело сканировать, как сжимать? Хочется минимум потерь при адекватном весе, так как книга, пусть и содержит цветные рисунки, всё же не требует какой-то жуткой детализации, лишь бы всё было красиво и аккуратно. Да, сканирование цветное, так надо.

Распознать, наверное, не получится - в тексте могут быть хитрые символы, да и программ под ляпих (других ОС не держим, увы) особо нет, из живых знаю только cuneiform и tesseract. Да и хотелось бы вёрстку сохранить, всякие врезки и т.д.

Есть tiff, который умеет и lossless, и lossy. Есть png, в котором тоже lossless и сжатие умеет - я как-то сканировал в нём, но уж больно тяжелые картинки получаются. Впрочем, есть индексированные png, вроде они поменьше. Есть и jpg - там вам и сжатие, и испорченные края букв, которые может заметить даже невнимательный человек. Наверное, больше ничего в плане формата картинок не придумать.

И всё бы хорошо, да ведь эти картинки надо будет превращать в pdf или djvu, так как сами картинки мне не особо нужны. А вот тут мои знания уже не очень хороши. В pdf есть какие-то image filters и всё такое, но я совсем не в курсе, будет ли меняться размер результата при разных исходниках. Зависит ли качество изображения и качество сжатия от исходного формата файла в случае с pdf? И вообще, как лучше всего сжимать pdf? Инструкции в интернете я видел, но вдруг тут у кого-нибудь есть опыт в этом деле.

Есть djvu, для которого авторы обещают жутко хорошее сжатие, но я никогда не создавал этих файлов, в отличие от pdf, так что даже не знаю, с какой стороны к этому подступаться, чтобы получить наилучшее качество при наилучшем сжатии.

И вообще, что в данном случае лучше, pdf или djvu?

SystemV(*) (2013-06-29 20:12:10)

Emacs-w3m/1.4.514 w3m/0.5.3

anonymous@RULINUX.NET~#	Last login: 2026-06-10 00:22:25
Регистрация Вход	Новости \| Разметка \| Пользователи \| Галерея \| Форум \| Статьи \| Неподтвержденное \| Трекер \| Правила форума \| F.A.Q. \| Ссылки \| Поиск

Этот тред читают 1 пользователь:
Анонимных: 1 Зарегистрированных: 0

Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг

Re:Сканирование и оцифровка книг