<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0"
					xmlns:content="http://purl.org/rss/1.0/modules/content/"
					xmlns:wfw="http://wellformedweb.org/CommentAPI/"
					xmlns:atom="http://www.w3.org/2005/Atom"
				  >
<channel>
<atom:link rel="self"  type="application/rss+xml"  href="http://rulinux.net/rss_from_sect_4_subsect_10_thread_34784"  />
<title>rulinux.net - Форум - Talks - Поисковые API</title>
<link>http://rulinux.net/</link>
<description><![CDATA[Портал о GNU/Linux и не только]]></description>
<image><title>rulinux.net - Форум - Talks - Поисковые API</title>
<link>http://rulinux.net/</link>
<url>http://rulinux.net/rss_icon.png</url>
</image>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108703</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108703</guid>
<pubDate>Mon, 03 Oct 2011 17:56:41 +0400</pubDate>
<description><![CDATA[<p><i>>БД для рефератов?</i><br> Слава Б-гу, нет.</p>]]></description>
</item>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108698</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108698</guid>
<pubDate>Mon, 03 Oct 2011 17:50:04 +0400</pubDate>
<description><![CDATA[<p><i>> внутри этоу программы надо искать дубликаты некоторых текстов в сети</i><br> БД для рефератов? Ну-ну.</p>]]></description>
</item>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108697</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108697</guid>
<pubDate>Mon, 03 Oct 2011 17:48:36 +0400</pubDate>
<description><![CDATA[<p>lorng search engine, рекомендую, За API -- к Тукcоиду,</p>]]></description>
</item>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108689</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108689</guid>
<pubDate>Mon, 03 Oct 2011 17:25:24 +0400</pubDate>
<description><![CDATA[<p>Не, чего-то этот бот по кускам текста находит не очень хорошо. Как и сам ddg. Видимо он под адекватные человеческие запросы больше заточен.</p>]]></description>
</item>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108688</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108688</guid>
<pubDate>Mon, 03 Oct 2011 17:10:45 +0400</pubDate>
<description><![CDATA[<p><i>>jid: im@dgg.gg пробовал?</i><br> Хм, а хотя джаббер бот обещает и web results тоже. Правда не хочется класть им бота бесполезным трафиком, жалко.</p>]]></description>
</item>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108687</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108687</guid>
<pubDate>Mon, 03 Oct 2011 17:01:29 +0400</pubDate>
<description><![CDATA[<p><i>>jid: im@dgg.gg пробовал? http://ddg.gg я хз какие там условия, проверь. На русском вроде ищет.</i><br> Как я понял, из API у них есть только Zero-click, это та штука, которая выводится над результатами поиска в рамке. Оно может и удобно для пользователей, но мне, увы, не подойдёт.<br><br>На форуме они уже отвечали так: &quot;The API is just for the 0-click info, e.g. essentially answering the question what is X. The reason why it doesn't involve the whole search results is that I syndicate a lot of APIs and I'm not allowed to put them into an API.&quot;.</p>]]></description>
</item>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108684</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108684</guid>
<pubDate>Mon, 03 Oct 2011 16:45:55 +0400</pubDate>
<description><![CDATA[<p>jid: im@dgg.gg пробовал? http://ddg.gg я хз какие там условия, проверь. На русском вроде ищет.</p>]]></description>
</item>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108683</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108683</guid>
<pubDate>Mon, 03 Oct 2011 16:40:43 +0400</pubDate>
<description><![CDATA[<p><i>>Я помочь не могу, но позвольте полюбопытствовать, что же это за анально отгороженная админка которая нуждается в запросах на рускоязычные ресурсы ?</i><br> Я, наверное, плохо выразился. Там скорее веб-интерфейс к БД со всякими наворотами, а не админка, ну а основная работа делается вообще по крону. А может и демон будет, в дальнейшем.<br><br>Суть в том, для определённой задачи внутри этоу программы надо искать дубликаты некоторых текстов в сети. Сложных алгоритмов не требуется, надо просто найти скопированный текст, и на глаз посчитать его схожеть. Используется очень простой вариант алгоритма шинглов, который выдаёт более-менее подходящие результаты, т.к. надо искать полностью скопированный текст, а не его переписанные варианты. Для чего это всё - коммерческая тайна, причем не моя. Планируют брать деньги. Будет ли открытая регистрация, или пускать в эту штуку будут только &quot;своих&quot; - хз. Сам я в эту затею не особо верю, но это не моё дело.<br><br>Собственно, поисковик нужен, чтобы находить сайты с похожим текстом, а далее уже определять схожесть содержимого. Но поисковики не жрут большие куски текста, потому текст придётся ещё и разбивать на части, соответственно вместо одного запроса мы получаем, допустим, 10 или даже 30 на один текст. Текстов - сотни и тысячи.<br><br>Кроме всего прочего, там будут ещё кое-какие функции, но это к данному вопросу не относится. </p>]]></description>
</item>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108682</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108682</guid>
<pubDate>Mon, 03 Oct 2011 16:27:37 +0400</pubDate>
<description><![CDATA[<p>Я помочь не могу, но позвольте полюбопытствовать, что же это за анально отгороженная админка   которая нуждается в запросах на рускоязычные ресурсы ?</p>]]></description>
</item>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108680</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108680</guid>
<pubDate>Mon, 03 Oct 2011 16:20:49 +0400</pubDate>
<description><![CDATA[<p><i>>Как вариант выводить рекламу можно там, где отображаются поисковые результаты, т.е. в самой программе.</i><br> Есть такая мысль, но проблема в том, что люди, которым эта программа и нужна, будут брать деньги с других людей, которые уже будут ей пользоваться. И как-то очень некрасиво брать деньги с пользователей, а потом показывать им рекламу яндексовых мокрых писек. Тем более я не очень в курсе, как отнесётся яндекс к тому, что они не смогут проверить условия размещения своего директа, а они за этим стараются следить.<br><br>Хотя этот вариант рассматривается, но как самый последний.</p>]]></description>
</item>
<item>
<title>Re:Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108679</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108679</guid>
<pubDate>Mon, 03 Oct 2011 16:13:15 +0400</pubDate>
<description><![CDATA[<p>&gt; Вот тут загвоздка - рекламная сеть яндекса означает рекламу на странице. А в моём случае никакой страницы нет, будет только веб-админка, анально огороженная от всех. Не на неё же выводить? Как-то некошерно.</p><p></p><p>Как вариант выводить рекламу можно там, где отображаются поисковые результаты, т.е. в самой программе.</p>]]></description>
</item>
<item>
<title>Поисковые API</title>
<link>https://rulinux.net/message.php?newsid=34784&amp;page=1#108676</link>
<guid>https://rulinux.net/message.php?newsid=34784&amp;page=1#108676</guid>
<pubDate>Mon, 03 Oct 2011 15:53:50 +0400</pubDate>
<description><![CDATA[<p>Вот тут возникла такая задача - нужен поиск по интернету из программы, естественно через какой-нибудь яндекс или гугл. Запросов будет много, потому нужно найти какой-нибудь API, т.к. запрос к сайту вручную и парсинг результатов рано или поздно заканчивается баном, даже если ставить рандомные таймауты. Если же делать совсем большие таймауты, то не получится сделать нужное количество запросов в день, а их надо делать тысячами. А набирать тысячи проксей и заниматься раскидыванием запросов - совсем не интересно, т.к. надо брать необщедоступные прокси за деньги, но и их тоже умудряются банить (я проверял, лол).<br><br>Сходу есть два варианта:<br><br>1. Поиск яндекса, через яндекс.XML. Удобно тем, что можно получать сразу по 50 результатов, а это важно. Ограничение на 1000 запросов в день, снятие ограничения при подключении к рекламной сети яндекса. Вот тут загвоздка - рекламная сеть яндекса означает рекламу на странице. А в моём случае никакой страницы нет, будет только веб-админка, анально огороженная от всех. Не на неё же выводить? Как-то некошерно. Владельцы даже денег готовы заплатить, хотя и немного, а яндекс про денежные варианты ничего не пишет.<br><br>2. Гугль, великий и ужасный. Меняет свои API раз в день, даже ссылки со своего хелпа не успевает поправить. Его json custom search api выдаёт по 10 результатов максимум. До 100 запросов в день бесплатно, далее по 5 баксов за каждые 1000, до 10000. Больше 10000 - по просьбе, я хз, дают они такое или нет. Из ограничений - только требование API-ключа, что не проблема. Однако ж проблема в том, что, из-за 10 результатов, придётся делать в несколько раз больше запросов (хорошо бы хотя бы 30 результатов получать на запрос). Отчего сильно будет страдать кошелёк.<br><br>У нигмы API найдено не было, у рамблера и мейла - аналогично. Bing меня чем-то смущает. Yahoo тоже, хотя можно подумать. Есть ли ещё что-нибудь приятное, вроде яндекса, но без рекламы, пусть и за деньги (только адекватные)?<br><br>Кто-нибудь похожую проблему решал?<br><br>UPD: увы, нужен таки поиск по русскоязычному контенту, потому малоизвестная дикая западная маргинальщина тоже не подойдёт.</p>]]></description>
</item>
</channel>
</rss>