Как избавиться от нестандартных символов в импортируемом контенте?
Вообще-то кодекс вебмастера подразумевает, что на сайте в его HTML коде не должно быть символов, отсутствующих на клавиатуре. Однако приверженность пишущей братии всякого рода Вордам имеет следствием появление в текстах различного вида кавычек и угловых скобок типа “” ‹› «» и даже чего-нибудь пострашнее.
Сплог же стремится избавиться от всего, что не является буквами, цифрами и знаками препинания, а также общеупотребимыми символами вроде скобок, процентов, и прочая. Желание Сплога так поступить легко объяснимо- поскольку серфер может вбить в форму запроса Гугла или любой другой поисковой системы только то, что способен набрать с клавиатуры, то и в недрах Сплога должно быть точно то же самое. Любые нестандартные символы снизят релевантность.
Именно из этих соображений все вордовые символы убиваются. В связи с чем имеет очень большой смысл перед ритуальным убийством произвести замену кракозяб на их разрешённые аналоги.
Сплог изначально знает о паре сотен вариантов замен, однако не факт, что этого достаточно. Посему Вы сами можете оговаривать правила замен, засунув в файл ./data/settings.php такой массив:
$_s['cracoziabs']=array( "–" => "-", "—" => "-", "‘" => "\"", "’" => "\"", "“" => "\"", "”" => "\"", "„" => "\"", "‹" => "\"", "›" => "\"", "«" => "\"", "»" => "\"", "…" => "...", );
Синтаксис очень простой- слева от знака присваивания => в двойных кавычках указан заменяемый символ или последовательность заменяемых символов, справа, также в двойных кавычках, пишется замещающий символ, либо последовательность замещающих символов. Если внутри двойных кавычек присутствует двойная же кавычка, то перед ней ставится обратный слэш. На конце каждого правила замены, а по сути строки массива - запятая.
Вы не ограничены возможностью замены только символов. Можете писать там слова, фрагменты слов, что угодно. В замещающих значениях можете употреблять даже HTML код. Только помните о необходимости втыкать обратный слэш перед двойной кавычкой.
