RSS

Нам повезло жить в уникальное время интенсивного развития интернет-технологий. Мы видели триумфальный взлет и падение доткомов, а теперь на наших глазах рождается WEB 2.0. Если вам это интересно, если вы проводите за компьютером значительную часть жизни и вам это нравится, оставайтесь с нами на форуме для миллионеров-техноманьяков, практиков интернет-бизнеса и других умных людей. Вливайтесь :)

  • Вы не зашли.

Борьба с баном и вообще немного советов

12.01.2008 05:43
Pomahom
присматривается
Рег. 06.01.2008
Сообщений: 8
Профиль

Я напоролся на "баню" труб когда парсил выдачу гула. Очевидно что популярность сервиса стала такой, что робот попал в баню...
Прежде всего - убедитесь что это баня а не что-то другое - посмотрите дебагером какой ответ от модуля, которым вы обращаетесь к контенту. У меня он вполне корректно писал "доступ закрыт". Если открываешь тот-же адрес со своей машины - всё ок. 

Что делать?
Очевидно нужно выложить на хостинг файл goog.html с примерно таким содержанием:

Код:
<?php

if(isset($_REQUEST['uri_to']))
echo  file_get_contents($_REQUEST['uri_to']);

?>

В трубе изменяем путь - теперь старый адрес будет записываться в переменную uri_to и отсылать этому скрипту.

т.е. примерно так:
Адрес откудо надо было брать фид: google.com/rss
Новая его запись: www.mysite.com/goog.html?uri_to=google.com/rss

Вот и всё собственно :)

Да, чуть не забыл немного скромного опыта:
Старайтесь фильтровать сообщения до того как закачаете полный контент - фильтруйте сам фид. Таким образом реально ускоряется работа трубы, т.к. вы уменьшаете объёмы. Я простым переносом фильтров по времени сообщения, уникальности титла, уникальности автора, наличия основного ключевика в титле и т.д. ;) уменьшил время выполнения скрипта ровно в 2 раза.

Еще - рекомендую не пихать всё в одну трубу. Если вы можете логически разделить процесс выкачки, процесс наложения фильтров, этап редактирования текста - разделите это всё на разные трубы - в конце - концов "ООП" и всё такое... Когда я переделал трубу разнеся её по модулям - она превратилась из 4-х страничного непонятно чего в очень аккуратную и изящную штуку.

И последнее - заметил что на больших объёмах, модули позволяющие сделать множество действий уходят по таймауту, когда их много. Т.е. Если в фильтре есть 5 этапов - каждый в отдельности работает - а все в месте нет - разнесите на 2 фильтра по 2 и 3 этапа соответственно. Это относится ко всем модулям, фильтр только пример. Очевидно время таймаута есть не только у всей трубы - а и у каждого модуля в отдельности.

Всем удачи :)

П.С. К стати - уже кто-то получил от гугля приглашениена бетатестинг его "труб"? А то я заявку подал... но что то тихо пока :(

 
Сегодня
Рекламный чёртик
любит гостей
12.01.2008 07:08
BrokenBrake
беда
Рег. 01.08.2007
Сообщений: 529
Профиль  Сайт

Спасибо, полезная тема.
Я тоже уже давно столкнулся с этой проблемой, про неё даже писали в буржунете - http://ovoweb.blogspot.com/2007/11/goog … pipes.html (копия на одном из моих блогов).

Я делал ещё другой вариант. Можно посылать запросы случайно на разные домены гугла (более 10). Ru, it, kz, de и т. д.

 
12.01.2008 07:20
Pomahom
присматривается
Рег. 06.01.2008
Сообщений: 8
Профиль
BrokenBrake пишет:

Спасибо, полезная тема.
Я тоже уже давно столкнулся с этой проблемой, про неё даже писали в буржунете - http://ovoweb.blogspot.com/2007/11/goog … pipes.html (копия на одном из моих блогов).

Я делал ещё другой вариант. Можно посылать запросы случайно на разные домены гугла (более 10). Ru, it, kz, de и т. д.

хм... тоже вариант - даже интереснее - так каждый раз выдача другая. Что разнообразнее получается.

 
13.01.2008 13:32
BrokenBrake
беда
Рег. 01.08.2007
Сообщений: 529
Профиль  Сайт

Выдача обычно одинаковая, в параметре ведь передаётся язык поиска.

 
Rambler's Top100

Прошла зима, настало лето -
Спасибо PunBB за это...

В банке на данный момент $60.019.