<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0"
					xmlns:content="http://purl.org/rss/1.0/modules/content/"
					xmlns:wfw="http://wellformedweb.org/CommentAPI/"
					xmlns:atom="http://www.w3.org/2005/Atom"
				  >
<channel>
<atom:link rel="self"  type="application/rss+xml"  href="http://rulinux.net/rss_from_sect_4_subsect_10_thread_35896"  />
<title>rulinux.net - Форум - Talks - Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>http://rulinux.net/</link>
<description><![CDATA[Портал о GNU/Linux и не только]]></description>
<image><title>rulinux.net - Форум - Talks - Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>http://rulinux.net/</link>
<url>http://rulinux.net/rss_icon.png</url>
</image>
<item>
<title>Re:Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>https://rulinux.net/message.php?newsid=35896&amp;page=1#123202</link>
<guid>https://rulinux.net/message.php?newsid=35896&amp;page=1#123202</guid>
<pubDate>Tue, 24 Jan 2012 22:00:36 +0400</pubDate>
<description><![CDATA[<p><i>>Понимаешь, я может тупля. Но эта твоя самая &quot;readability&quot; очень сильно зависит от природы информации, которую мы собираем.</i><br> Я просто как пример интересной штуки для узкого применения - выдирания контента из веб страниц.<br><br><i>>Моя идея даже построена на том, что бы по максиму снизить зависимость от &quot;схемы&quot; по которой мы будеем собирать данные.</i><br> Берёшь документно-ориентированную БД, которой пофиг на то, что ты собираешь, пишешь простое API для укладывания в неё данных, ну и для извлечения - и вот тебе готов data-agnostic (уж простите) engine, к которому остаётся только писать парсеры. Тут ничего другого изобретать не надо, имхо.<br><br>А вот писать парсеры - скучно, долго и однообразно, а также это дело требует хорошего терпения:)<br><br>Но организовать такое дело всё же проще, чем найти клиентов, хотя я не уверен.</p>]]></description>
</item>
<item>
<title>Re:Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>https://rulinux.net/message.php?newsid=35896&amp;page=1#123198</link>
<guid>https://rulinux.net/message.php?newsid=35896&amp;page=1#123198</guid>
<pubDate>Tue, 24 Jan 2012 21:53:20 +0400</pubDate>
<description><![CDATA[<p><i>> Да, насчёт readability.</i><br>Понимаешь, я может тупля. Но эта твоя самая &quot;readability&quot; очень сильно зависит от природы информации, которую мы собираем. Моя идея даже построена на том, что бы по максиму снизить зависимость от &quot;схемы&quot; по которой мы будеем собирать данные.</p>]]></description>
</item>
<item>
<title>Re:Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>https://rulinux.net/message.php?newsid=35896&amp;page=1#123192</link>
<guid>https://rulinux.net/message.php?newsid=35896&amp;page=1#123192</guid>
<pubDate>Tue, 24 Jan 2012 21:45:01 +0400</pubDate>
<description><![CDATA[<p>Да, насчёт readability. Это штука, которая довольно неплохо умеет выдирать из веб-страницы &quot;основной&quot; контент, по куче эмпирических алгоритмов. Есть <a href="https://github.com/gfxmonk/python-readability">реализация</a> для питона, кстати. На форумах относительно часто ошибается, а вот на стандартной странице вполне эффективно выдирает действительно нужную информацию.<br><br>Это я на тему парсеров и адаптации их к сайтам. Оказывается, сделать почти-универсальный парсер уже вполне возможно, проблема остаётся только в автоматизации.<br><br><i>>Моя проблем, отлично организовать доставку.</i><br> <i>>В нашем деле, нюансы такие - доставка, настройёка, обучение и запуск в эксплуатацию.</i><br> Это ты, в такой странной форме, обсуждаешь бизнес-план?:)<br><br></p>]]></description>
</item>
<item>
<title>Re:Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>https://rulinux.net/message.php?newsid=35896&amp;page=1#123190</link>
<guid>https://rulinux.net/message.php?newsid=35896&amp;page=1#123190</guid>
<pubDate>Tue, 24 Jan 2012 21:39:13 +0400</pubDate>
<description><![CDATA[<p><i>> Алсо, в наше время можно даже не адаптировать почти ничего: http://www.readability.com/</i><br> Ты кидаешь какие-то данные или я их сам выбираю из доступного. Допустим образовался мой брат с рыбками.<br><br>Я не совсем понел что нам дают. Ок. Он (мой брат) например разводит рыбок аквариумных  Южной Америки. Для меня собственно пох, я должен этих рыбок собрать и доставить тем кто их заказал, пока они не здохли.)))<br><br> Моя проблем, отлично организовать доставку.<br><br>В нашем деле, нюансы такие - доставка, настройёка, обучение и запуск в эксплуатацию.<br><br></p>]]></description>
</item>
<item>
<title>Re:Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>https://rulinux.net/message.php?newsid=35896&amp;page=1#123188</link>
<guid>https://rulinux.net/message.php?newsid=35896&amp;page=1#123188</guid>
<pubDate>Tue, 24 Jan 2012 21:33:44 +0400</pubDate>
<description><![CDATA[<p><i>>Да это будет основная работа в этом предприятии, поддерживать адекватность парсеров.</i><br> Это ты хочешь как тот человек, который собирал данные про Болотную через вконтакт?:) </p>]]></description>
</item>
<item>
<title>Re:Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>https://rulinux.net/message.php?newsid=35896&amp;page=1#123186</link>
<guid>https://rulinux.net/message.php?newsid=35896&amp;page=1#123186</guid>
<pubDate>Tue, 24 Jan 2012 21:31:05 +0400</pubDate>
<description><![CDATA[<p><i>>&gt; В этом случае парсер легко можно будет адаптировать к переделке дизайна сайта. </i><br><i>> Так вся работа написания парсера, обычно, в этом и заключается.</i><br>Сразу видно человека? который стакивался с темой.<br><br> Да это будет основная работа в этом предприятии, поддерживать адекватность парсеров. Но как бы и люди у нас будут, которые знают в этом толк? Не? </p>]]></description>
</item>
<item>
<title>Re:Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>https://rulinux.net/message.php?newsid=35896&amp;page=1#123185</link>
<guid>https://rulinux.net/message.php?newsid=35896&amp;page=1#123185</guid>
<pubDate>Tue, 24 Jan 2012 21:30:05 +0400</pubDate>
<description><![CDATA[<p>Алсо, в наше время можно даже не адаптировать почти ничего: <a href="http://www.readability.com/">http://www.readability.com/</a></p>]]></description>
</item>
<item>
<title>Re:Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>https://rulinux.net/message.php?newsid=35896&amp;page=1#123184</link>
<guid>https://rulinux.net/message.php?newsid=35896&amp;page=1#123184</guid>
<pubDate>Tue, 24 Jan 2012 21:26:59 +0400</pubDate>
<description><![CDATA[<p><i>>В этом случае парсер легко можно будет адаптировать к переделке дизайна сайта.</i><br> Так вся работа написания парсера, обычно, в этом и заключается.</p>]]></description>
</item>
<item>
<title>Ладно, давайте рассмотрим чего-нибудь интересное ...</title>
<link>https://rulinux.net/message.php?newsid=35896&amp;page=1#123177</link>
<guid>https://rulinux.net/message.php?newsid=35896&amp;page=1#123177</guid>
<pubDate>Tue, 24 Jan 2012 21:12:58 +0400</pubDate>
<description><![CDATA[<p>Есть некоторая идея - сделать агрегатор. Парсер инфы сделать как можно не зависимым от кода. В этом случае парсер легко можно будет адаптировать к переделке дизайна сайта.У кого есть опыт таких штук, готов обменяться знаниями.<br><br> Ну вообщем вопрос, если кто сталкивался. Давайте обсудим тему. Если кто не сталкивался давайте обсудим, что же все таки творилось на фотографии в этом посте <a href="http://rulinux.net/thread_35874_page_1">Все принцессы делают это</a></p>]]></description>
</item>
</channel>
</rss>