anonymous@RULINUX.NET~# Last login: 2024-11-24 15:09:12
Регистрация Вход Новости | Разметка | Пользователи | Галерея | Форум | Статьи | Неподтвержденное | Трекер | Правила форума | F.A.Q. | Ссылки | Поиск
[#] [Добавить метку] [Редактировать]
Скрыть

Поисковые API

Вот тут возникла такая задача - нужен поиск по интернету из программы, естественно через какой-нибудь яндекс или гугл. Запросов будет много, потому нужно найти какой-нибудь API, т.к. запрос к сайту вручную и парсинг результатов рано или поздно заканчивается баном, даже если ставить рандомные таймауты. Если же делать совсем большие таймауты, то не получится сделать нужное количество запросов в день, а их надо делать тысячами. А набирать тысячи проксей и заниматься раскидыванием запросов - совсем не интересно, т.к. надо брать необщедоступные прокси за деньги, но и их тоже умудряются банить (я проверял, лол).

Сходу есть два варианта:

1. Поиск яндекса, через яндекс.XML. Удобно тем, что можно получать сразу по 50 результатов, а это важно. Ограничение на 1000 запросов в день, снятие ограничения при подключении к рекламной сети яндекса. Вот тут загвоздка - рекламная сеть яндекса означает рекламу на странице. А в моём случае никакой страницы нет, будет только веб-админка, анально огороженная от всех. Не на неё же выводить? Как-то некошерно. Владельцы даже денег готовы заплатить, хотя и немного, а яндекс про денежные варианты ничего не пишет.

2. Гугль, великий и ужасный. Меняет свои API раз в день, даже ссылки со своего хелпа не успевает поправить. Его json custom search api выдаёт по 10 результатов максимум. До 100 запросов в день бесплатно, далее по 5 баксов за каждые 1000, до 10000. Больше 10000 - по просьбе, я хз, дают они такое или нет. Из ограничений - только требование API-ключа, что не проблема. Однако ж проблема в том, что, из-за 10 результатов, придётся делать в несколько раз больше запросов (хорошо бы хотя бы 30 результатов получать на запрос). Отчего сильно будет страдать кошелёк.

У нигмы API найдено не было, у рамблера и мейла - аналогично. Bing меня чем-то смущает. Yahoo тоже, хотя можно подумать. Есть ли ещё что-нибудь приятное, вроде яндекса, но без рекламы, пусть и за деньги (только адекватные)?

Кто-нибудь похожую проблему решал?

UPD: увы, нужен таки поиск по русскоязычному контенту, потому малоизвестная дикая западная маргинальщина тоже не подойдёт.

SystemV(*) (2011-10-03 19:53:50)
Отредактировано SystemV по причине "не указана"
Emacs-w3m/1.4.414 w3m/0.5.3

[Ответить на это сообщение]
[#] [Добавить метку] [Редактировать] Ответ на: Поисковые API от SystemV 2011-10-03 19:53:50
avatar
Скрыть

Re:Поисковые API

> Вот тут загвоздка - рекламная сеть яндекса означает рекламу на странице. А в моём случае никакой страницы нет, будет только веб-админка, анально огороженная от всех. Не на неё же выводить? Как-то некошерно.

Как вариант выводить рекламу можно там, где отображаются поисковые результаты, т.е. в самой программе.

spaceivan(*)(2011-10-03 20:13:15)

Mozilla/5.0 (X11; Linux x86_64; rv:7.0.1) Gecko/20100101 Firefox/7.0.1
[#] [Добавить метку] [Редактировать] Ответ на: Re:Поисковые API от spaceivan 2011-10-03 20:13:15
avatar
Скрыть

Re:Поисковые API

>Как вариант выводить рекламу можно там, где отображаются поисковые результаты, т.е. в самой программе.
Есть такая мысль, но проблема в том, что люди, которым эта программа и нужна, будут брать деньги с других людей, которые уже будут ей пользоваться. И как-то очень некрасиво брать деньги с пользователей, а потом показывать им рекламу яндексовых мокрых писек. Тем более я не очень в курсе, как отнесётся яндекс к тому, что они не смогут проверить условия размещения своего директа, а они за этим стараются следить.

Хотя этот вариант рассматривается, но как самый последний.

SystemV(*)(2011-10-03 20:20:49)

Emacs-w3m/1.4.414 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Поисковые API от SystemV 2011-10-03 19:53:50
avatar
Скрыть

Re:Поисковые API

Я помочь не могу, но позвольте полюбопытствовать, что же это за анально отгороженная админка которая нуждается в запросах на рускоязычные ресурсы ?

anonymous(*)(2011-10-03 20:27:37)

Mozilla/5.0 (Linux i686) AppleWebKit/534.26+ WebKitGTK+/1.4.2 luakit/af8e8ef
[#] [Добавить метку] [Редактировать] Ответ на: Re:Поисковые API от anonymous 2011-10-03 20:27:37
avatar
Скрыть

Re:Поисковые API

>Я помочь не могу, но позвольте полюбопытствовать, что же это за анально отгороженная админка которая нуждается в запросах на рускоязычные ресурсы ?
Я, наверное, плохо выразился. Там скорее веб-интерфейс к БД со всякими наворотами, а не админка, ну а основная работа делается вообще по крону. А может и демон будет, в дальнейшем.

Суть в том, для определённой задачи внутри этоу программы надо искать дубликаты некоторых текстов в сети. Сложных алгоритмов не требуется, надо просто найти скопированный текст, и на глаз посчитать его схожеть. Используется очень простой вариант алгоритма шинглов, который выдаёт более-менее подходящие результаты, т.к. надо искать полностью скопированный текст, а не его переписанные варианты. Для чего это всё - коммерческая тайна, причем не моя. Планируют брать деньги. Будет ли открытая регистрация, или пускать в эту штуку будут только "своих" - хз. Сам я в эту затею не особо верю, но это не моё дело.

Собственно, поисковик нужен, чтобы находить сайты с похожим текстом, а далее уже определять схожесть содержимого. Но поисковики не жрут большие куски текста, потому текст придётся ещё и разбивать на части, соответственно вместо одного запроса мы получаем, допустим, 10 или даже 30 на один текст. Текстов - сотни и тысячи.

Кроме всего прочего, там будут ещё кое-какие функции, но это к данному вопросу не относится.

SystemV(*)(2011-10-03 20:40:43)

Emacs-w3m/1.4.414 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Поисковые API от SystemV 2011-10-03 19:53:50
avatar
Скрыть

Re:Поисковые API

jid: [email protected] пробовал? http://ddg.gg я хз какие там условия, проверь. На русском вроде ищет.

bugmaker(*)(2011-10-03 20:45:55)

[#] [Добавить метку] [Редактировать] Ответ на: Re:Поисковые API от bugmaker 2011-10-03 20:45:55
avatar
Скрыть

Re:Поисковые API

>jid: [email protected] пробовал? http://ddg.gg я хз какие там условия, проверь. На русском вроде ищет.
Как я понял, из API у них есть только Zero-click, это та штука, которая выводится над результатами поиска в рамке. Оно может и удобно для пользователей, но мне, увы, не подойдёт.

На форуме они уже отвечали так: "The API is just for the 0-click info, e.g. essentially answering the question what is X. The reason why it doesn't involve the whole search results is that I syndicate a lot of APIs and I'm not allowed to put them into an API.".

SystemV(*)(2011-10-03 21:01:29)

Emacs-w3m/1.4.414 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Re:Поисковые API от bugmaker 2011-10-03 20:45:55
avatar
Скрыть

Re:Поисковые API

>jid: [email protected] пробовал?
Хм, а хотя джаббер бот обещает и web results тоже. Правда не хочется класть им бота бесполезным трафиком, жалко.

SystemV(*)(2011-10-03 21:10:45)

Emacs-w3m/1.4.414 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Re:Поисковые API от SystemV 2011-10-03 21:10:45
avatar
Скрыть

Re:Поисковые API

Не, чего-то этот бот по кускам текста находит не очень хорошо. Как и сам ddg. Видимо он под адекватные человеческие запросы больше заточен.

SystemV(*)(2011-10-03 21:25:24)

Emacs-w3m/1.4.414 w3m/0.5.3
[#] [Добавить метку] [Редактировать] Ответ на: Поисковые API от SystemV 2011-10-03 19:53:50
avatar
Скрыть

Re:Поисковые API

lorng search engine, рекомендую, За API -- к Тукcоиду,

anonymous(*)(2011-10-03 21:48:36)

[#] [Добавить метку] [Редактировать] Ответ на: Re:Поисковые API от SystemV 2011-10-03 20:40:43
avatar
Скрыть

Re:Поисковые API

> внутри этоу программы надо искать дубликаты некоторых текстов в сети
БД для рефератов? Ну-ну.

anonymous(*)(2011-10-03 21:50:04)

[#] [Добавить метку] [Редактировать] Ответ на: Re:Поисковые API от anonymous 2011-10-03 21:50:04
avatar
Скрыть

Re:Поисковые API

>БД для рефератов?
Слава Б-гу, нет.

SystemV(*)(2011-10-03 21:56:41)

Emacs-w3m/1.4.414 w3m/0.5.3
Этот тред читают 2 пользователя:
Анонимных: 2
Зарегистрированных: 0




(c) 2010-2020 LOR-NG Developers Group
Powered by TimeMachine

Valid HTML 4.01 Transitional Правильный CSS!