Алгоритм работы Сплога:
Он прост до невозможности:
-
После того, как Сплог получит от админа все необходимые для работы данные, он отправится посещать RSS и HTTP ленты, и узнавать из них URL-ы новостийных заметок.
Естественно, движителем будет служить URL попингуя, который нужно активировать любым из способов, упомянутых в предыдущем документе данного краткого мануала.
Обратите внимание ещё раз:
Сплог не интересуется анонсами заметок в RSS лентах, ему нужны только пермалинки на представленные в ленте статьи.
Из чего следует, что анонсы в RSS лентах могут вообще отсутствовать. -
Далее Сплогом выбирается одна из категорий, для которой список URL-ов новостийных заметок уже сформирован на предыдущем шаге, а именно, методом изъятия пермалинков из тела RSS и HTTP лент.
Следует отметить, что URL-ы документов для импорта в Сплог могут быть не только извлечены сплогом из лент, но и указаны напрямую в админке Сплога. Причём, обратите внимание, эти адреса имеют приоритет над УРЛ-ами, вынутыми из лент, и обрабатываются Сплогом в первую очередь.
-
Сплог идёт по выбранному URL-у, заимствует там полезный контент, и оценивает, представляет ли он интерес. Если, скажем, объём достаточный, то заметка публикуется в Сплоге, с одновременной рандомной синонимизацией текста, если настройками Сплога это оговорено.
-
Эта категория помечается как "сыгравшая", и за последующий промежуток времени, указанный категории в админке Сплога как минимальный интервал между постами категории, ничего больше в категории опубликовано быть не может.
Оперируя интервалом постинга, Вы тем самым задаёте интенсивность наполнения этой категории статьями. Если, естественно, число лент для этой категории, а также темп их обновления достаточны.
-
Теперь Сплог делает выдержку, руководствуясь рандомным интервалом между постами (не для какой-то конкретной категории, а вообще). Только по истечении этого времени может родиться следующий пост, причём лишь в категории, время постинга в которую подошло.
-
Учтите, что в этот режим работы будет вмешиваться тулза, отправляющая Сплог спать в соответствии с режимом работы, заданным настройками Блога, его сплоговым разделом. Что призвано эмулировать живого человека- ночью ему положено отдыхать, как, впрочем, и в выходные.
-
Нужно также хорошо понимать, что линков в RSS лентах обычно на порядки больше, чем может опубликовать Сплог, не показывая явным образом свою сплоговую сущность. Как Вы понимаете, живой человек вряд ли способен выдать больше двух-трёх тематических поста в день. А именно к человекопохожести и надо стремиться.
Следовательно, очередь УРЛов на импорт должна как-то искусственно сокращаться, так как при регулярном обновлении лент эта очередь в принципе не может быть исчерпана никогда.
Алгоритм тут таков:
- Урлы документов (не лент), явно заданные Сплогу через его админку, имеют наивысший приоритет, и всегда находятся сверху.
- Новенькие пермалинки с RSS и HTTP лент этой категории подписываются вслед, смещая старые вниз.
- Вся очередь укорачивается до сотни для каждой категории Сплога.
- УРЛ для импорта берётся с первой позиции, изымаясь из этой очереди.
Принятый порядок формирования очереди документов на импорт способствует работе Сплога с самыми последними новостями, одновременно имея солидный запас новостей чуть менее свежих, с убиением того, что давно устарело.
-
Такая избыточность исходных данных позволяет Сплогу привередничать по поводу содержимого импортируемых документов, отсеивая нетематические статьи по фильтрам контента.
Правила задаются Вами.Если RSS лент под каждую категорию Вы подписали много, то большая часть фигурирующих там заметок вообще не будет даже проанализирована. Из чего следует, что надо воздерживаться от прописки в Сплог RSS лент со всякой придурью, ограничиваясь работой только со стопудово тематическими и ценными в плане их контента ресурсами.
В целом всё устроено максимально просто и понятно, что и ставилось целью.
Возможные проблемы:
В ряде случаев, когда источник информации имеет дефектную разметку страницы, либо выдаёт документы в кодировке UTF, и отдельные символы не могут быть перекодированы в базовую кодировку Блога (РНР функция iconv() конкретно на них спотыкается), Сплог не может получить с этого URL-а полезный контент.
Такие web-ресурсы непригодны для использования Сплогом.
Ибо импорт с них нестабильный.
