<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0"
					xmlns:content="http://purl.org/rss/1.0/modules/content/"
					xmlns:wfw="http://wellformedweb.org/CommentAPI/"
					xmlns:atom="http://www.w3.org/2005/Atom"
				  >
<channel>
<atom:link rel="self"  type="application/rss+xml"  href="http://rulinux.net/rss_from_sect_4_subsect_10_thread_43634"  />
<title>rulinux.net - Форум - Talks - Как скрейпить вебсайты?</title>
<link>http://rulinux.net/</link>
<description><![CDATA[Портал о GNU/Linux и не только]]></description>
<image><title>rulinux.net - Форум - Talks - Как скрейпить вебсайты?</title>
<link>http://rulinux.net/</link>
<url>http://rulinux.net/rss_icon.png</url>
</image>
<item>
<title>Re:Как скрейпить вебсайты?</title>
<link>https://rulinux.net/message.php?newsid=43634&amp;page=1#227307</link>
<guid>https://rulinux.net/message.php?newsid=43634&amp;page=1#227307</guid>
<pubDate>Thu, 10 Apr 2025 14:19:57 +0300</pubDate>
<description><![CDATA[<p>Нету в них.  </p>]]></description>
</item>
<item>
<title>Re:Как скрейпить вебсайты?</title>
<link>https://rulinux.net/message.php?newsid=43634&amp;page=1#227306</link>
<guid>https://rulinux.net/message.php?newsid=43634&amp;page=1#227306</guid>
<pubDate>Tue, 08 Apr 2025 22:56:43 +0300</pubDate>
<description><![CDATA[<p><i>> опенсорс программа</i><br> Так качни сорцы от своей программы, дебил :)</p>]]></description>
</item>
<item>
<title>Re:Как скрейпить вебсайты?</title>
<link>https://rulinux.net/message.php?newsid=43634&amp;page=1#227305</link>
<guid>https://rulinux.net/message.php?newsid=43634&amp;page=1#227305</guid>
<pubDate>Sat, 05 Apr 2025 14:55:12 +0300</pubDate>
<description><![CDATA[<p><i>> Понятно, что всякие рекурсивные wget...</i><br> спокойно тащат.. <div class="quote"><pre>wget -c --mirror -nH -np -k -L -D domain.org   http://www.domain.org/path/index.html</pre></div> когда &quot;всё плохо&quot; - есть curl, который воще тащит всё без разбора (оно выхлоп не мониторит, поэтому сперва, например, делаешь файло со списком ссылок, а потом гребёшь и сохраняешь отдельно)..<br><br>тут ещё вопрос, оно те надо по полметра скриптовой лапши с каждой страницы (преведЪ CRM итэпэ) или те надо только текст (с картинко и/или онемэ).. </p>]]></description>
</item>
<item>
<title>Как скрейпить вебсайты?</title>
<link>https://rulinux.net/message.php?newsid=43634&amp;page=1#227304</link>
<guid>https://rulinux.net/message.php?newsid=43634&amp;page=1#227304</guid>
<pubDate>Sat, 05 Apr 2025 12:35:03 +0300</pubDate>
<description><![CDATA[<p>Вопрос, вроде бы, не новый, но возникает снова и снова.<br><br>Есть опенсорс программа, у неё документация только в виде multipage html.<br><br>Это очень неудобно, поэтому хочется собрать из неё книгу.<br><br>Как это сделать?<br><br>Понятно, что всякие рекурсивные wget/teleport про в современном &quot;вебе&quot; просто не живут, надо писать что-то поумнее.<br><br>Но я вот поковырял Scrapy, и так и не смог им овладеть быстро.<br><br>Кажется, что надо учить Selenium, но это тоже не так-то просто. </p>]]></description>
</item>
</channel>
</rss>