UTF-8 некорректное сокращение текста

marsianna4ka · April 22, 2010, 08:47:52 AM

Столкнулась с такой проблемой: при автоматическом сокращении теста в конце иногда появляется крокозябрик.

Например:

QuoteПоследний ответ от AltaVista
в Re: Делимся со�...
20 Апреля 2010, 20:34:06

Очевидно это связано с "разрыванием" двухбайтовых значений для русских букв в UTF-8. Что можно сделать, чтобы они сокращались корректно до целой буквы?

Использую SMF 1.1.11, т.к. 2.0 не захотела объединятся с сайтом на Drupal. Я зыковой пакет russian-utf8.

inter · April 27, 2010, 06:01:13 AM

меня тоже интересует сей вопрос

Bugo · April 29, 2010, 03:50:26 AM

На simplemachines.ru есть ответ.

marsianna4ka · April 29, 2010, 11:32:38 AM

Ну я подправила в Sources/Load.php

Code Select


'substr' => create_function('$string, $start, $length = null', 'return mb_substr($string, $start, $length, "UTF-8");'),
'strlen' => create_function('$string', 'return strlen(utf8_decode($string));'),

Хак, конечно, правильее было бы переопределить эти функции где-то в файлах локализации, но искать где не было времени, вроде неплохо работает и так.

Jim_Di · May 12, 2010, 12:23:22 AM

Однако база конвертировалась слегка криво. у меня такая же проблема была из-за различных кодировок. в конце-концов привёл всё к UTF-8 и воспользовался средствами форума для окончательного приведения базы к UTF-8.

marsianna4ka · May 12, 2010, 06:47:32 AM

у меня база изначально UTF-8 была и проблема не в ней

Jim_Di · May 12, 2010, 11:56:13 PM

У меня просто при импорте базы такая ошибка была, пока с нормальными параметрами не импортировал. Точно такое же вылезало, когда часть таблиц оказалась в latin1

marsianna4ka · May 14, 2010, 01:50:37 PM

Я лично вообще никакие кодировки кроме юникода не признаю и стараюсь не использовать. Слишком много проблем из за этого.

При записи в базу данных строки обрезаются той же функцией substr, поэтому новые записи после её замены должны быть сокращены правильно, старые естественно останутся в том виде, в котором записались. Конечно мы говорим о разных вещах, но касательно импорта ничего определённого сказть не могу.

YO_zhik · July 03, 2010, 07:31:37 PM

Правильно, юникод спасёт мир и давно пора отказаться от глупых убеждений лепить в разных недокодировках. Даже в 2.0 сделали через попу.

Проблем с кодировками не наблюдал, но да, функции типа substr могут работать с мультибайтом не коректно. Лечится этим http://www.php.net/manual/de/ref.mbstring.php.

marsianna4ka · July 05, 2010, 03:07:12 AM

Quote from: YO_zhik on July 03, 2010, 07:31:37 PM
Проблем с кодировками не наблюдал, но да, функции типа substr могут работать с мультибайтом не коректно. Лечится этим http://www.php.net/manual/de/ref.mbstring.php.

Так я енто и предлагаю, а конкретно - функцию mb_substr. Не помню, чем не подошла mb_strlen, вместо нее пришлось использовать strlen(utf8_decode($string)).

News:

UTF-8 некорректное сокращение текста

marsianna4ka

inter

Bugo

marsianna4ka

Jim_Di

marsianna4ka

Jim_Di

marsianna4ka

YO_zhik

marsianna4ka