Как скрейпить вебсайты?

Sat, 05 Apr 2025 12:34:31 +0300

Вопрос, вроде бы, не новый, но возникает снова и снова.

Есть опенсорс программа, у неё документация только в виде multipage html.

Это очень неудобно, поэтому хочется собрать из неё книгу.

Как это сделать?

Понятно, что всякие рекурсивные wget/teleport про в современном "вебе" просто не живут, надо писать что-то поумнее.

Но я вот поковырял Scrapy, и так и не смог им овладеть быстро.

Кажется, что надо учить Selenium, но это тоже не так-то просто.

rulinux.net - Форум - Talks - Как скрейпить вебсайты?

Как скрейпить вебсайты?