RSS

Нам повезло жить в уникальное время интенсивного развития интернет-технологий. Мы видели триумфальный взлет и падение доткомов, а теперь на наших глазах рождается WEB 2.0. Если вам это интересно, если вы проводите за компьютером значительную часть жизни и вам это нравится, оставайтесь с нами на форуме для миллионеров-техноманьяков, практиков интернет-бизнеса и других умных людей. Вливайтесь :)

  • Вы не зашли.

Готовая парсилка выдачи gogo с переводом на англ.

09.01.2008 10:30
Pomahom
присматривается
Рег. 06.01.2008
Сообщений: 8
Профиль

Воопервых огромное спасибо тебе BrokenBrake! Оказывается мозги жирком заплыли - без тебя бы не разобрался - оказалось всё просто.

сама труба расшарена http://pipes.yahoo.com/pipes/pipe.info? … da1bab75ea

Перевод внутренней функцией? а не Фишем.

Есть глюк, с которым никак не разобрался - не всегда? но теряется description - в чем проблема не пойму. Причем, по одному и тому-же запросу то есть везде, то в половине нет. Скорее всего я не оптимально составил регулярные выражения.

Описание - Принимает 3 параметра:
"Что ищем" - собственно сам запрос
"уточнить" - это искать среди найденных
"Куда ставить ссылку" - на что заменять ссылку в Титле..
"Страница" - какую страницувыдачи парсим..

Можно еще конечно и вычистить описание - добавив ще одно условие в РегЕксп...

П.С. Точнее криво работающая парсилка - почемуто айтем description теряется после regexp - в первый loop если смотреть в дебаггере видно что description уже нет.... поспешил я хвастаться...

Отредактированно Pomahom (09.01.2008 10:43)

 
Сегодня
Рекламный чёртик
любит гостей
09.01.2008 12:16
BrokenBrake
беда
Рег. 01.08.2007
Сообщений: 529
Профиль  Сайт

Ура! Наконец-то кто-то ещё выкладывается в этом разделе :) Труба недоработана пока, но уже что-то! Я рад.

 
09.01.2008 12:26
Pomahom
присматривается
Рег. 06.01.2008
Сообщений: 8
Профиль
BrokenBrake пишет:

Ура! Наконец-то кто-то ещё выкладывается в этом разделе :) Труба недоработана пока, но уже что-то! Я рад.

чесно сказать - оторвался только когда утром мать удивилась что я так рано встал :)

BrokenBrake - такой игрушки еще поискать :) абалденная головоломка... аж захотелось действительно где-то ложить файл с кеями, дёргать из него и парсить/RSS-сить терабайтами :))) жаль складдывать некуда :)

 
09.01.2008 12:48
BrokenBrake
беда
Рег. 01.08.2007
Сообщений: 529
Профиль  Сайт

Как это некуда? Дофига бесплатных хостингов, куча всяких сервисов, даже базы данных открытые есть. Сейчас можно делать с информацией всё что угодно, web 2.0, блин :)

Вот ещё хорошая ссылочка, раз ты уже pipes распробовал - http://www.programmableweb.com/apis

 
09.01.2008 13:59
Pomahom
присматривается
Рег. 06.01.2008
Сообщений: 8
Профиль

Ну наконец - то Труба закончена... не получилось с лёту реализовать перевод - но зато прикрутил другую фишечку :)
http://pipes.yahoo.com/pipes/pipe.info? … da1bab75ea
а результат соответственно тут:
http://pipes.yahoo.com/pipes/pipe.run?_ … archive%2F
Ну красавцы разработчики! Уважаю :)

Пример работы со своими собственными трубами :)
http://pipes.yahoo.com/pipes/pipe.info? … 245265b3cd
Результат:
http://pipes.yahoo.com/pipes/pipe.run?_ … -pipes.com

К стати - только сейчас рассмотрел строку адреса и понял что ненадо ключевики и соответствующие адреса разделов, которые прокачиваются выкладывать где-то на хостинге и отдельной трубой туда лезть (я так изначально думал).. достаточно сделать такой запрос к трубе: :)

http://pipes.yahoo.com/pipes/pipe.run?_ … -pipes.com

т.е. примерно так:

_http://pipes.yahoo.com/pipes/pipe.run?_id=79476e5899d24a922f265b245265b3cd
&_render=rss
&key=97л4987м
&numberinput1=1
&urlinput1=http%3A%2F%2Fmaster-pipes.com

К стати - для тех, у кого проблемы с регулярками (это и ко мне относится) - очень рекомендую перед тем как писать выражение в регэкспе - подобрать регулярку тут: http://www.pcre.ru/eval/ Получается очень наглядно, быстро - экономит время и нервы...

Добавлено спустя 53 минуты 38 секунд:
Добавлено спустя 52 минуты 10 секунд:
Ну и сильвупле - действительно работающая парсилка расширенной выдачи gogo с переводом на английский, заменой ссылок в титле, простановкой ссылок в кейвордах по тексту (к стати от но-фолов я так и не смог избавиться - придётся уже дома вычищать скриптами). Для перевода использую www.translate.ru - он не засоряет текст. Правда пришлось немного хитрить с параметрами, похожими на сессию. Надеюсь будет работать.

вот исходник: http://pipes.yahoo.com/pipes/pipe.info? … 20e4a44463
вот выдача: http://pipes.yahoo.com/pipes/pipe.run?K … anslate=on

переменные:

-http://pipes.yahoo.com/pipes/pipe.run?
_id=9cc53c211633eb8781225720e4a44463 - Идентификатор трубы
&_render=rss - формат выдачи данных
&KeyUrl=http%3A%2F%2Fpatienceb.com%2Farchive%2F - ссылка куда будут ссылаться кейворды по тексту
&TitleUrl=http%3A%2F%2Fpatienceb.com - ссылка куда будет ссылаться заголовок
&masterKey=%D0%B4%D0%BD%D0%B5%D0%B2%D0%BD%D0%BE%D0%B9+%D0%B4%D0%BE%D0%B7%D0%BE%D1%80 - собственно сам запрос
&start_page=1 - страница выдачи, которую парсим
&translate=on - транслитеррррируем ВО! незнакомые слова

Отредактированно Pomahom (09.01.2008 15:45)

 
Rambler's Top100

Прошла зима, настало лето -
Спасибо PunBB за это...

В банке на данный момент $80.021.