<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0"
					xmlns:content="http://purl.org/rss/1.0/modules/content/"
					xmlns:wfw="http://wellformedweb.org/CommentAPI/"
					xmlns:atom="http://www.w3.org/2005/Atom"
				  >
<channel>
<atom:link rel="self"  type="application/rss+xml"  href="http://rulinux.net/rss_from_sect_4_subsect_10_thread_43633"  />
<title>rulinux.net - Форум - Talks - Как скрейпить вебсайты?</title>
<link>http://rulinux.net/</link>
<description><![CDATA[Портал о GNU/Linux и не только]]></description>
<image><title>rulinux.net - Форум - Talks - Как скрейпить вебсайты?</title>
<link>http://rulinux.net/</link>
<url>http://rulinux.net/rss_icon.png</url>
</image>
<item>
<title>Как скрейпить вебсайты?</title>
<link>https://rulinux.net/message.php?newsid=43633&amp;page=1#227303</link>
<guid>https://rulinux.net/message.php?newsid=43633&amp;page=1#227303</guid>
<pubDate>Sat, 05 Apr 2025 12:34:31 +0300</pubDate>
<description><![CDATA[<p>Вопрос, вроде бы, не новый, но возникает снова и снова.<br><br>Есть опенсорс программа, у неё документация только в виде multipage html.<br><br>Это очень неудобно, поэтому хочется собрать из неё книгу.<br><br>Как это сделать?<br><br>Понятно, что всякие рекурсивные wget/teleport про в современном &quot;вебе&quot; просто не живут, надо писать что-то поумнее.<br><br>Но я вот поковырял Scrapy, и так и не смог им овладеть быстро.<br><br>Кажется, что надо учить Selenium, но это тоже не так-то просто. </p>]]></description>
</item>
</channel>
</rss>