Нам повезло жить в уникальное время интенсивного развития интернет-технологий. Мы видели триумфальный взлет и падение доткомов, а теперь на наших глазах рождается WEB 2.0. Если вам это интересно, если вы проводите за компьютером значительную часть жизни и вам это нравится, оставайтесь с нами на форуме для миллионеров-техноманьяков, практиков интернет-бизнеса и других умных людей. Вливайтесь :)
Наткнулся на подобную проблему … ковырялся полдня, в итоге решил попробовать остановиться на трубе которая имеет на выходе title и link, а эту трубу уже пустить в другую. В новой трубе Fetch Feed –> Loop (item.link / assing first results to item.description) и далее то что мне нужно :)
В общем я так понимаю что есть какой то глюк если в одной трубе пользовать Fetch Page и Loob/Fetch Page …
Мне это собственно ни как не помешало, потому как у меня задача собирать данные с кучи сайтов, приводить их в однообразный список (заголовок + линк на страницу внутри которой нужные мне данные), а потом уже из всех существующих труб получать данные в одну, которая на выходе будет иметь приведенные в единый формат данные.
Кстати, спасибо всем кто пишет в этот форум и в свои блоги! Без вас бы не разобрался с водопроводом ;)
есть у меня проблема с получением полного текста из потока http://www.sports.ru/rss/rubric/4233403.xml
пробовал сначала прогонять через loop -> url builder и брать страничку "для печати". там стоял meta name = robots content = nofollow
решил резать страницу целиком - description выдается пустым... попробовал тупо вставить fetch page http://www.sports.ru/others/rugby/32484926.html, пишет "Can't fetch pages that do not allow it". стало быть на сайте лежит robots.txt с какими-то ограничениями? можно этого как-то избежать?
krnr пишет:есть у меня проблема с получением полного текста из потока http://www.sports.ru/rss/rubric/4233403.xml
пробовал сначала прогонять через loop -> url builder и брать страничку "для печати". там стоял meta name = robots content = nofollow
решил резать страницу целиком - description выдается пустым... попробовал тупо вставить fetch page http://www.sports.ru/others/rugby/32484926.html, пишет "Can't fetch pages that do not allow it". стало быть на сайте лежит robots.txt с какими-то ограничениями? можно этого как-то избежать?
ПРостейший Промежуточный парсер ставь у себя на сервере... даже не парсер а так транслятор скорее и всё будет тип топ.
sports.ru тоже пользовал раньше...
парсер просто убирал из тела страницы noindex и всё...
krnr пишет:есть у меня проблема с получением полного текста из потока http://www.sports.ru/rss/rubric/4233403.xml
пробовал сначала прогонять через loop -> url builder и брать страничку "для печати". там стоял meta name = robots content = nofollow
решил резать страницу целиком - description выдается пустым... попробовал тупо вставить fetch page http://www.sports.ru/others/rugby/32484926.html, пишет "Can't fetch pages that do not allow it". стало быть на сайте лежит robots.txt с какими-то ограничениями? можно этого как-то избежать?
как вариант. у себя на сервере поднимаешь reverse proxy, указывающий на sports.ru, и в нем блокируешь запросы robots.txt
:)
dfayruzov пишет:как вариант. у себя на сервере поднимаешь reverse proxy, указывающий на sports.ru, и в нем блокируешь запросы robots.txt
:)
нет там еще noindex в теле страниц присутствует поэтому pipes их принимать не будет всё равно
у меня такое тоже иногда бывало ...
но Насколько я заметил это были какие то тормоза ... в основном такое замечал когда description по объему получается большим...
но он всё равно раскрывается если подождать чуть-чуть...
Лучший купить электронные компоненты по антикризисным ценам