RSS

Нам повезло жить в уникальное время интенсивного развития интернет-технологий. Мы видели триумфальный взлет и падение доткомов, а теперь на наших глазах рождается WEB 2.0. Если вам это интересно, если вы проводите за компьютером значительную часть жизни и вам это нравится, оставайтесь с нами на форуме для миллионеров-техноманьяков, практиков интернет-бизнеса и других умных людей. Вливайтесь :)

  • Вы не зашли.

Проблема с Fetch Page

04.04.2009 09:20
Hook
присматривается
Рег. 04.04.2009
Сообщений: 2
Профиль

Наткнулся на подобную проблему … ковырялся полдня, в итоге решил попробовать остановиться на трубе которая имеет на выходе title и link, а эту трубу уже пустить в другую. В новой трубе Fetch Feed –> Loop (item.link / assing first results to item.description) и далее то что мне нужно :)
В общем я так понимаю что есть какой то глюк если в одной трубе пользовать Fetch Page и Loob/Fetch Page …
Мне это собственно ни как не помешало, потому как у меня задача собирать данные с кучи сайтов, приводить их в однообразный список (заголовок + линк на страницу внутри которой нужные мне данные), а потом уже из всех существующих труб получать данные в одну, которая на выходе будет иметь приведенные в единый формат данные.
Кстати, спасибо всем кто пишет в этот форум и в свои блоги! Без вас бы не разобрался с водопроводом ;)

 
Сегодня
Рекламный чёртик
любит гостей
04.04.2009 11:10
dfayruzov
альфа
Рег. 12.11.2008
Сообщений: 23
Профиль

А в чем глюк-то?

 
16.09.2009 06:05
krnr
присматривается
Рег. 08.02.2008
Сообщений: 4
Профиль

есть у меня проблема с получением полного текста из потока http://www.sports.ru/rss/rubric/4233403.xml

пробовал сначала прогонять через loop -> url builder и брать страничку "для печати". там стоял meta name = robots content = nofollow

решил резать страницу целиком - description выдается пустым... попробовал тупо вставить fetch page http://www.sports.ru/others/rugby/32484926.html, пишет "Can't fetch pages that do not allow it". стало быть на сайте лежит robots.txt с какими-то ограничениями? можно этого как-то избежать?

 
16.09.2009 06:40
Р_Джинс
альфа
Рег. 07.01.2008
Сообщений: 23
Профиль  Сайт
krnr пишет:

есть у меня проблема с получением полного текста из потока http://www.sports.ru/rss/rubric/4233403.xml

пробовал сначала прогонять через loop -> url builder и брать страничку "для печати". там стоял meta name = robots content = nofollow

решил резать страницу целиком - description выдается пустым... попробовал тупо вставить fetch page http://www.sports.ru/others/rugby/32484926.html, пишет "Can't fetch pages that do not allow it". стало быть на сайте лежит robots.txt с какими-то ограничениями? можно этого как-то избежать?

ПРостейший Промежуточный парсер ставь у себя на сервере... даже не парсер а так транслятор скорее и всё будет тип топ.
sports.ru тоже пользовал раньше...
парсер просто убирал из тела страницы noindex и всё...

 
16.09.2009 08:33
dfayruzov
альфа
Рег. 12.11.2008
Сообщений: 23
Профиль
krnr пишет:

есть у меня проблема с получением полного текста из потока http://www.sports.ru/rss/rubric/4233403.xml

пробовал сначала прогонять через loop -> url builder и брать страничку "для печати". там стоял meta name = robots content = nofollow

решил резать страницу целиком - description выдается пустым... попробовал тупо вставить fetch page http://www.sports.ru/others/rugby/32484926.html, пишет "Can't fetch pages that do not allow it". стало быть на сайте лежит robots.txt с какими-то ограничениями? можно этого как-то избежать?

как вариант. у себя на сервере поднимаешь reverse proxy, указывающий на sports.ru, и в нем блокируешь запросы robots.txt
:)

 
16.09.2009 12:25
Р_Джинс
альфа
Рег. 07.01.2008
Сообщений: 23
Профиль  Сайт
dfayruzov пишет:

как вариант. у себя на сервере поднимаешь reverse proxy, указывающий на sports.ru, и в нем блокируешь запросы robots.txt
:)

нет там еще noindex в теле страниц присутствует поэтому pipes их принимать не будет всё равно

 
04.11.2009 12:38
VBrer
присматривается
Рег. 04.11.2009
Сообщений: 1
Профиль

у меня такое тоже иногда бывало ...
но Насколько я заметил это были какие то тормоза ... в основном такое замечал когда description по объему получается большим...
но он всё равно раскрывается если подождать чуть-чуть...




Лучший купить электронные компоненты    по антикризисным ценам

 
Rambler's Top100

Прошла зима, настало лето -
Спасибо PunBB за это...

В банке на данный момент $60.021.