Как избавиться от нестандартных символов в импортируемом контенте :


Вообще-то кодекс вебмастера подразумевает, что на сайте в его HTML коде не должно быть символов, отсутствующих на клавиатуре. Однако приверженность пишущей братии всякого рода Вордам имеет следствием появление в текстах различного вида кавычек и угловых скобок типа “” ‹› «» и даже чего-нибудь пострашнее.


Сплог же стремится избавиться от всего, что не является буквами, цифрами и знаками препинания, а также общеупотребимыми символами вроде скобок, процентов, и прочая. Желание сплога так поступить легко объяснимо- поскольку серфер может вбить в форму запроса Гугла или любой другой поисковой системы только то, что он может набрать с клавиатуры, то и в недрах сплога должно быть точно то же самое. Любые нестандартные символы снизят релевантность.


Именно из этих соображений все вордовые символы убиваются. В связи с чем имеет очень большой смысл перед ритуальным убийством произвести замену кракозяб на их разрешённые аналоги.


Сплог изначально знает о паре сотен вариантов замен, однако не факт, что этого достаточно. Посему Вы сами можете оговаривать правила замен, засунув в файл data/settings.php такой массив:


   $_s['cracoziabs']=array(
      "–"=>"-",
      "—"=>"-",
      "‘"=>"\"",
      "’"=>"\"",
      "“"=>"\"",
      "”"=>"\"",
      "„"=>"\"",
      "‹"=>"\"",
      "›"=>"\"",
      "«"=>"\"",
      "»"=>"\"",
      "…"=>"...",
   );

Синтаксис очень простой- слева от знака присваивания => в двойных кавычках указан заменяемый символ или последовательность заменяемых символов, справа, также в двойных кавычках, пишется замещающий символ, либо последовательность замещающих символов. Если внутри двойных кавычек присутствует двойная же кавычка, то перед ней ставится обратный слэш. На конце каждого правила замены, а по сути строки массива - запятая.


Вы не ограничены возможностью замены только символов. Можете писать там слова, фрагменты слов, что угодно. В замещающих значениях можете употреблять даже HTML код. Только помните о необходимости втыкать обратный слэш перед двойной кавычкой.