Нам повезло жить в уникальное время интенсивного развития интернет-технологий. Мы видели триумфальный взлет и падение доткомов, а теперь на наших глазах рождается WEB 2.0. Если вам это интересно, если вы проводите за компьютером значительную часть жизни и вам это нравится, оставайтесь с нами на форуме для миллионеров-техноманьяков, практиков интернет-бизнеса и других умных людей. Вливайтесь :)
Суть моей "трубы" такова:
Парсит фид русского новостного сайта, забирает целые тексты по ссылкам из фида, переводит их на английский и выдает жирный фид.
При переводе страниц наткнулся на то, что "труба" выдает 400 ошибку на некоторых дескрипшнах. В фиде они "пустые". Я вычистил весь HTML и спецсимволы, оставил голый текст. И все равно, из 10 страниц переводится парочка, остальные - нет. В дебаггере пропадают дескрипшны, в фиде - только несколько переведенных.
Я подумал, что дело в длине текста. И вот тут началось самое интересное: если я оставляю 200 слов от каждого текста, то переводится еще пара текстов, оставляю 150 - переводится еще больше. Сокращаю до 80 слов - переводится все!
Update 1: забыл упомянуть, что непереведенные тексты встречаются вперемежку с переведенными, а не так, что идут сначала переведенные, а потом непереведенные. То есть зависимости от общего объема текста не видно.
Update 2: Babelfish не вырезает непереведенные дескрипшны, а оставляет в них русский текст.
Я трахаюсь с этой трубой уже сутки, но не вижу ни одной зацепки.
Быть может кто-то сталкивался с таким поведением?
Отредактированно maxoud (03.04.2008 09:38)
В итоге пришлось урезáть объем текста, но все равно время от времени появляются пустые посты, хоть я и поставил фильтр в Pipes.
Посмотрите на эту красоту :D. За две недели — 1800 уникальных постов, Гугл видел 900, 80 уже в индексе. А я еще тему не доработал на предмет duplicate content...
Честно говоря, если бы я написал все это на PHP, то было бы быстрее и стабильнее. Pipes — вещь пока еще сильно глючная.
Отредактированно maxoud (21.04.2008 05:39)
Интересно получилось, у вас первая запись на блоге помечена датой Декабря 1969 года )))
Да, я тоже посмеиваюсь. Пытался разобраться с датами (чисто из интереса), но так и не понял почему так произошло. Видимо, исходный фид был кривой.
Но, сайт-то не для людей :) Поэтому — плевать. Тем более, то, что модуль перевода там напереводил — читать невозможно: "the floor Of makkartni"
maxoud пишет:Да, я тоже посмеиваюсь. Пытался разобраться с датами (чисто из интереса), но так и не понял почему так произошло. Видимо, исходный фид был кривой.
Но, сайт-то не для людей :) Поэтому — плевать. Тем более, то, что модуль перевода там напереводил — читать невозможно: "the floor Of makkartni"
Кстати, у тебя почты довольно длинные получились, это только item.description или еще и item.content как то грабишь или страницы парсишь?
nikfakel пишет:Кстати, у тебя почты довольно длинные получились, это только item.description или еще и item.content как то грабишь или страницы парсишь?
Граблю RSS, иду по ссылкам, парсю страницы целиком: регекспами отрубаю ненужное. Потом WP-Autoblog. Что-то в этом роде. Кстати, Тормоз, спасибо за мануал. :)
Если бы я не ленился, то переделал бы шаблон. Было бы проиндесировано тысяч пять страниц, а не 400.
Отредактированно maxoud (01.06.2008 16:35)
Интересно получилось, у вас первая запись на блоге помечена датой Декабря 1969 года )))
Лучший на форуме печатная плата изготовление по антикризисным ценам