rulinux.net - Форум - Talks - Как скрейпить вебсайты?

Re:Как скрейпить вебсайты?

Thu, 10 Apr 2025 14:19:57 +0300

Нету в них.

Re:Как скрейпить вебсайты?

Tue, 08 Apr 2025 22:56:43 +0300

> опенсорс программа
Так качни сорцы от своей программы, дебил :)

Re:Как скрейпить вебсайты?

Sat, 05 Apr 2025 14:55:12 +0300

> Понятно, что всякие рекурсивные wget...
спокойно тащат..

wget -c --mirror -nH -np -k -L -D domain.org   http://www.domain.org/path/index.html

когда "всё плохо" - есть curl, который воще тащит всё без разбора (оно выхлоп не мониторит, поэтому сперва, например, делаешь файло со списком ссылок, а потом гребёшь и сохраняешь отдельно)..

тут ещё вопрос, оно те надо по полметра скриптовой лапши с каждой страницы (преведЪ CRM итэпэ) или те надо только текст (с картинко и/или онемэ)..

Как скрейпить вебсайты?

Sat, 05 Apr 2025 12:35:03 +0300

Вопрос, вроде бы, не новый, но возникает снова и снова.

Есть опенсорс программа, у неё документация только в виде multipage html.

Это очень неудобно, поэтому хочется собрать из неё книгу.

Как это сделать?

Понятно, что всякие рекурсивные wget/teleport про в современном "вебе" просто не живут, надо писать что-то поумнее.

Но я вот поковырял Scrapy, и так и не смог им овладеть быстро.

Кажется, что надо учить Selenium, но это тоже не так-то просто.