anonymous@RULINUX.NET~# Last login: 2024-11-24 08:59:44
Регистрация Вход Новости | Разметка | Пользователи | Галерея | Форум | Статьи | Неподтвержденное | Трекер | Правила форума | F.A.Q. | Ссылки | Поиск
[#] [Добавить метку] [Редактировать]
Скрыть

Сканирование и оцифровка книг

Представим, что хочу я получить какую-нибудь книжку в электронном виде, которая есть у меня в наличии, а в интернете практически отсутствует. Возникает такой вопрос - а как лучше всего это делать?

Сканер у меня есть, пусть и довольно унылый, но всё же. Отсканировать 600 страниц за какое-то время я смогу, это уже чисто механическая работа. Далее надо будет покрутить и порезать сканы, для этого, насколько я знаю, софт тоже существует, тот же unpaper. И ещё какой-то другой был, но, думаю, я как-нибудь найду (если кто подскажет - будет приятно).

А вот в каком формате всё это дело сканировать, как сжимать? Хочется минимум потерь при адекватном весе, так как книга, пусть и содержит цветные рисунки, всё же не требует какой-то жуткой детализации, лишь бы всё было красиво и аккуратно. Да, сканирование цветное, так надо.

Распознать, наверное, не получится - в тексте могут быть хитрые символы, да и программ под ляпих (других ОС не держим, увы) особо нет, из живых знаю только cuneiform и tesseract. Да и хотелось бы вёрстку сохранить, всякие врезки и т.д.

Есть tiff, который умеет и lossless, и lossy. Есть png, в котором тоже lossless и сжатие умеет - я как-то сканировал в нём, но уж больно тяжелые картинки получаются. Впрочем, есть индексированные png, вроде они поменьше. Есть и jpg - там вам и сжатие, и испорченные края букв, которые может заметить даже невнимательный человек. Наверное, больше ничего в плане формата картинок не придумать.

И всё бы хорошо, да ведь эти картинки надо будет превращать в pdf или djvu, так как сами картинки мне не особо нужны. А вот тут мои знания уже не очень хороши. В pdf есть какие-то image filters и всё такое, но я совсем не в курсе, будет ли меняться размер результата при разных исходниках. Зависит ли качество изображения и качество сжатия от исходного формата файла в случае с pdf? И вообще, как лучше всего сжимать pdf? Инструкции в интернете я видел, но вдруг тут у кого-нибудь есть опыт в этом деле.

Есть djvu, для которого авторы обещают жутко хорошее сжатие, но я никогда не создавал этих файлов, в отличие от pdf, так что даже не знаю, с какой стороны к этому подступаться, чтобы получить наилучшее качество при наилучшем сжатии.

И вообще, что в данном случае лучше, pdf или djvu?

SystemV(*) (2013-06-29 20:12:10)

Emacs-w3m/1.4.514 w3m/0.5.3

[Ответить на это сообщение]
[#] [Добавить метку] [Редактировать] Ответ на: Сканирование и оцифровка книг от SystemV 2013-06-29 20:12:10
avatar
Скрыть

Re:Сканирование и оцифровка книг

Я формат pdf так и не осилил, сколько не пробовал получаются монстрообразные книжки, хотя в целом так же предпочитаю pdf как более распространенный формат, пусть он и больше по обьему чем джву

anonymous(*)(2013-06-29 20:18:00)

Mozilla/5.0 (X11; Linux x86_64; rv:21.0) Gecko/20100101 Firefox/21.0
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от anonymous 2013-06-29 20:18:00
avatar
Скрыть

Re:Сканирование и оцифровка книг

>Я формат pdf так и не осилил, сколько не пробовал получаются монстрообразные книжки
Я тоже это замечал. Сами pdf-ки из картинок я делал много раз, обычно через imagemagick, но никогда сильно не задумывался о сжатии и качестве, так как это всё была мелочь, причем обычно "временная", т.е. переслать кому-нибудь для печати и забыть.

SystemV(*)(2013-06-29 20:21:30)

Emacs-w3m/1.4.514 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Сканирование и оцифровка книг от SystemV 2013-06-29 20:12:10
avatar
Скрыть

Re:Сканирование и оцифровка книг

>И ещё какой-то другой был, но, думаю, я как-нибудь найду (если кто подскажет - будет приятно).
Сам себе подскажу - Scan Tailor.

SystemV(*)(2013-06-29 20:30:11)

Emacs-w3m/1.4.514 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Сканирование и оцифровка книг от SystemV 2013-06-29 20:12:10
avatar
Скрыть

Re:Сканирование и оцифровка книг

Если распознать не удастся - нет смысла и заморачиваться. По формату картинок - думаю, что для такого и гиф сойдёт. Если цветастые скриншоты помещаются в его 256 цветов, то скан книги - и подавно влезет.

anonymous(*)(2013-06-29 20:48:55)

[#] [Добавить метку] [Редактировать] Ответ на: Сканирование и оцифровка книг от SystemV 2013-06-29 20:12:10
avatar
Скрыть

Re:Сканирование и оцифровка книг

http://help.ubuntu.ru/fullcircle/27/scan_pdf_djvu

Bod(*)(2013-06-29 21:11:32)

Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от Bod 2013-06-29 21:11:32
avatar
Скрыть

Re:Сканирование и оцифровка книг

>http://help.ubuntu.ru/fullcircle/27/scan_pdf_djvu
Спасибо. Вижу, что советуют jpg с качеством в 84%, как-нибудь попробую.

SystemV(*)(2013-06-29 22:37:40)

Emacs-w3m/1.4.514 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от anonymous 2013-06-29 20:48:55
avatar
Скрыть

Re:Сканирование и оцифровка книг

>По формату картинок - думаю, что для такого и гиф сойдёт. Если цветастые скриншоты помещаются в его 256 цветов, то скан книги - и подавно влезет.
Я вот тоже думаю, что надо что-то с небольшим количеством цветов, правда не очень знаю, как ведёт себя pdf при этом, т.е. будет ли особая выгода от этого.

А распознать, возможно, потом и удастся, это ещё одна причина, по которой не хочется очень сильно портить качество картинки.

SystemV(*)(2013-06-29 22:42:48)

Emacs-w3m/1.4.514 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от SystemV 2013-06-29 22:37:40
avatar
Скрыть

Re:Сканирование и оцифровка книг

Под венду на самом деле софта куда больше. Где то не могу найти линк. Большинство под вайном работает. Добросовестные там и кадрирование производят, и бинаризацию (картинки, как правило, оставляют цветными или в grayscale, добавляют OCR-слой и т.д.

Bod(*)(2013-06-29 23:03:53)

Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от Bod 2013-06-29 23:03:53
avatar
Скрыть

Re:Сканирование и оцифровка книг

Пример одного сообщения, из которого можно понять алгоритм:

Ну, раз вы занимаетесь обработкой сканов, вам это все должно быть известно. Возможно, мы просто используем разную терминологию?

Оставляя в стороне цветные иллюстрации, для текста имеются две опции: высококонтрастный черно-белый текст (штриховые оригиналы) и текст с полутоновыми иллюстрациями (в оттенках серого - grayscale).

Страницы текста без иллюстраций были переведены в черно-белый формат (бинаризованы). Одновременно устраняются мелкие дефекты и сглаживается шрифт.

Это улучшает контраст и облегчает чтение.

Со страницами с полутоновыми (в оттенках серого) рисунками так поступить нельзя - качество рисунка будет безнадежно испорчено, скорее всего, часть его просто превратится в черное пятно.

Оставлять такие страницы "серыми" тоже нехорошо - малоконтрастный текст плохо читается, может "просвечивать" текст или иллюстрация на обороте (особенно, для тонкой бумаги), при неравномерной освещенности текст перемежается светлыми и темными пятнами (как это можно видеть на исходных сканах).

Решением является разделение страницы на зоны, обрабатываемые раздельно: зоны, содержащие только текст бинаризуются (превращаются в черно-белые), а зоны с полутоновыми рисунками оставляются в оттенках серого.

К сожалению, алгоритмы автоматического выделения рисунков не вполне справляются со своей задачей, особенно, на малоконтрастных оригиналах и эти зоны приходится прорисовывать вручную.

На приведенных мною примерах, красный контур как раз и обозначает прорисованные вручную зоны бинаризации: все, что находится внутри любого из красных контуров будет конвертировано в черно-белый формат (зона текста), остальное останется "серым" (зона рисунка).

Мне показалось удобным делать это в ScanTailor, другие используют ScanKromsator. Профи, вероятно, предпочтут любимый графический редактор, используя слои и маски

Bod(*)(2013-06-29 23:06:19)

Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от Bod 2013-06-29 23:06:19
avatar
Скрыть

Re:Сканирование и оцифровка книг

Многое можно прочитать здесь (а если ещё и пройти по ссылкам..)

http://forum.ru-board.com/topic.cgi?forum=93&topic=3514#1

К сожалению, требуют регистрацию..

Bod(*)(2013-06-29 23:09:14)

Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от Bod 2013-06-29 23:09:14
avatar
Скрыть

Re:Сканирование и оцифровка книг

http://forum.ru-board.com/topic.cgi?forum=93&topic=1615&start=1280#15

Десять заповедей начинающего сканировщика  

1. Делай хорошо, плохо само получится . Не надейся на исправление косяков при сканировании с помощью софта. Лучше пересканировать кривые страницы, нежели пытаться потом их исправить.

2. Белое всегда должно быть белым, а черное черным. Пять минут, потраченные на подбор яркости и контрастности перед сканированием, окупят себя минимальным трудом по завершении сканирования. Запомни, лучше день потерять, потом за пять минут долететь (с).

3. Всегда используй для текста, схем, чертежей и других черно-белых изображений только и только tif, лучше серый. Никаких jpg, gif и прочей экзотики, никаких и никогда! Для черно-белого изображения с разрешением не ниже 600 dpi подойдет tif Fax4, он же CCITT G4, для серого и цветного (если нужно качество) используй tif LZW. В крайнем случае несжатый tif, но позаботься о достатке места на винте. По возможности не используй pdf, особенно в FineReader и уж ни в коем случае не выбирай jpg для уменьшения размера. Никто не осудит за сто мегов отличного качества, но все выругают за десяток мегов грязных, кривых jpg, пусть даже там есть текстовый слой.

4. Твердо запомни, что сканирования с разрешением меньше 300 dpi для тебя не существует! Сканы бывают от 300 dpi и выше. Все остальное - мусор, годный только для отправки в корзину.

5. В сканировании не бывает слишком больших файлов, если все сделано качественно. Ужать файлы можно многими способами, а вот сделать из маленького дерьма большую конфету еще никому не удавалось.

6. Не используй для сканирования FineReader любых версий, он обязательно начнет исправлять изображение и безвозвратно изувечит его. Если хочется сканировать на автомате, то есть другие способы.

7. Старайся все операции по сканированию свести к однотипным, которые не требуют умственных усилий. Это не страшно и не больно - сидишь и переворачиваешь страницы книги, слушая в это время хорошую музыку. Не отвлекайся, если страница легла криво, просто пересканируй ее тут же. Переименовать файлы в нужном порядке можно за секунды, выбиться из ритма легко, а вернуться в него трудно.

8. Глаза боятся, руки делают. Не смущайся сотнями и тысячами страниц, другие сканируют и побольше, чем ты хуже других? Если затошнило от сканирования, сделай перерыв и отдохни. Только не на многие годы .

9. После окончания сканирования обязательно сохрани все сканы до обработки на другой винт или болванку. Потерять труд многих часов, а то и дней, куда дороже, нежели потратить незначительную сумму на CD/DVD болванку.

10. Критически оценивай свои сканы. Если сам себе признаешься что сделано плохо, то еще не все потеряно. Принцип "и так сойдет, и так мне все будут ноги целовать" никого до добра не доводил. Лучше еще раз стиснув зубы сделать все заново, нежели выложить откровенную халтуру.

Bod(*)(2013-06-29 23:11:16)
Отредактировано Bod по причине "не указана"
Mozilla/5.0 (X11; Linux i686; rv:17.0) Gecko/20130626 Firefox/17.0 Iceweasel/17.0.7
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от Bod 2013-06-29 23:11:16
[#] [Добавить метку] [Редактировать] Ответ на: Сканирование и оцифровка книг от SystemV 2013-06-29 20:12:10
avatar
Скрыть

Re:Сканирование и оцифровка книг

1) Обрабатываешь сосканированные данные ScanTailor-ом.

2) Склеиваешь результат при помощи djvubind. Дополнительно к склеиванию, djvubind распознаёт текст (Точно не помню).

anonymous(*)(2013-06-30 17:21:49)

Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:21.0) Gecko/20100101 Firefox/21.0
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от anonymous 2013-06-30 17:21:49
avatar
Скрыть

Re:Сканирование и оцифровка книг

>djvubind распознаёт текст
Хм, судя по исходникам, действительно правда распознаёт, используя hocr. Надо будет попробовать.

SystemV(*)(2013-06-30 17:29:48)

Emacs-w3m/1.4.514 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от Bod 2013-06-29 23:14:24
avatar
Скрыть

Re:Сканирование и оцифровка книг

>http://ru.wikibooks.org/wiki/%D0%9E%D1%86%D0%B8%D1%84%D1%80%D0%BE%D0%B2%D0%BA%D0%B0_%D0%BF%D0%B5%D1%87%D0%B0%D1%82%D0%BD%D1%8B%D1%85_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2
Спасибо, интересно и подробно.

Удивило вот это:

Даже если у вас есть купленный вами бумажный экземпляр какой-либо книги, защищенной имущественным правом, закон запрещает вам изготавливать оцифрованную версию этой книги или хранить на своём компьютере где-либо взятую оцифрованную версию, если только вы сами не купили электронную книгу у издательства, дополнительно к бумажному экземпляру.


Эти копирасты совсем того, судя по всему.

SystemV(*)(2013-06-30 17:32:06)

Emacs-w3m/1.4.514 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Re:Сканирование и оцифровка книг от SystemV 2013-06-30 17:32:06
avatar
Скрыть

Re:Сканирование и оцифровка книг

Вообще то, в бумажную книгу надо вставлять счетчин на количество прочтений, а то взяли моду, купили и читают толпами, а издательству убыток.

anonymous(*)(2013-06-30 18:03:47)

Mozilla/5.0 (X11; Linux x86_64; rv:21.0) Gecko/20100101 Firefox/21.0
Этот тред читают 2 пользователя:
Анонимных: 2
Зарегистрированных: 0




(c) 2010-2020 LOR-NG Developers Group
Powered by TimeMachine

Valid HTML 4.01 Transitional Правильный CSS!