anonymous@RULINUX.NET~# Last login: 2024-03-29 10:38:57
Регистрация Вход Новости | Разметка | Пользователи | Галерея | Форум | Статьи | Неподтвержденное | Трекер | Правила форума | F.A.Q. | Ссылки | Поиск
[#] [Добавить метку] [Редактировать]
Скрыть

Автоопределение кодировки

Хочу поставить еще один костыль на qmmp для автоопределения кодировки тегов. Мне нужно определить кодировку в которой мне передаются теги, и выводить в плейлист сведения уже сконвертированные в юникод. Так-что мне нужно с помощью чего-то определять кодировку. Так-вот, собственно с помощью чего?

Tux-oid(*) (2010-09-22 16:20:00)

Mozilla/5.0 (X11; U; Linux i686; ru; rv:1.9.2.6) Gecko/20100626 SUSE/3.6.6-1.2 Firefox/3.6.6

[Ответить на это сообщение]
[#] [Добавить метку] [Редактировать] Ответ на: Автоопределение кодировки от Tux-oid 2010-09-22 16:20:00
avatar
Скрыть

Re: Автоопределение кодировки

enca же! Только мне кажется что чётко определить кодировку по одному-двум словам не особо получится, ошибок должно быть много. Хотя попробуй...

makharadg(*)(2010-09-22 16:23:09)

Mozilla/5.0 (Windows; U; Windows NT 6.1; ru; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10 GTB7.1
[#] [Добавить метку] [Редактировать] Ответ на: Re: Автоопределение кодировки от makharadg 2010-09-22 16:23:09
avatar
Скрыть

Re: Автоопределение кодировки

Хрена-там. Хреново она работает. Текст перекодированный из CP-1252 в CP-1251 он определил как дважды перекодированный из ISO-8895-5 в UTF-8.

Tux-oid(*)(2010-09-23 09:31:07)

Mozilla/5.0 (X11; U; Linux i686; ru; rv:1.9.2.6) Gecko/20100626 SUSE/3.6.6-1.2 Firefox/3.6.6
[#] [Добавить метку] [Редактировать] Ответ на: Re: Автоопределение кодировки от Tux-oid 2010-09-23 09:31:07
avatar
Скрыть

Re: Автоопределение кодировки

> из CP-1252 в CP-1251
Ты где-то реально такое встретил или сам пример придумал? :) CP-1252 это западноевропейские языки, а CP-1251 - кириллические. Каждый язык имеет своё множество кодировок, и перекодировать можно только в пределах одного языка.

зы. я когда-то вплотную юзал енцу, так вот скажу, что это лучший инструмент по детектированию кодировок из всех что я видел. Только ему желательно подсовывать для анализа текст хотя бы с нескольким десятком слов, тогда ты получишь практически 100% попадание. Чем короче текст - тем ниже результат. Ну и канешно же не совать какие-нибудь китайские иероглифы в надежде что получишь ридну мову :) Енца использует эвристику и довольно умна, но не на столько же чтоб ещё и вычислять подвохи :)

makharadg(*)(2010-09-23 09:48:57)

Mozilla/5.0 (Windows; U; Windows NT 6.1; ru; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10 GTB7.1
[#] [Добавить метку] [Редактировать] Ответ на: Re: Автоопределение кодировки от makharadg 2010-09-23 09:48:57
avatar
Скрыть

Re: Автоопределение кодировки

Тут таблица соответствия групп языков и кодировок  http://www.dataparksearch.org/dpsearch-international.ru.html

зы. и ещё - енса вроде считает языком текста системный язык.

makharadg(*)(2010-09-23 09:56:49)

Mozilla/5.0 (Windows; U; Windows NT 6.1; ru; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10 GTB7.1
[#] [Добавить метку] [Редактировать] Ответ на: Автоопределение кодировки от Tux-oid 2010-09-22 16:20:00
avatar
Скрыть

Re: Автоопределение кодировки

в общем случае почти не решаемо.

bugmaker(*)(2010-09-23 10:12:02)

Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.1.9) Gecko/20100407 Ubuntu/9.04 (jaunty) Shiretoko/3.5.9
[#] [Добавить метку] [Редактировать] Ответ на: Автоопределение кодировки от Tux-oid 2010-09-22 16:20:00
avatar
Скрыть

Re: Автоопределение кодировки

Для питона есть chardet

 http://chardet.feedparser.org/

Можешь посмотреть в его исходники, там много всякого. Но я не знаю, насколько он лучше/хуже работает чем enca.

SystemV(*)(2010-09-23 11:01:52)

Emacs-w3m/1.4.394 w3m/0.5.2
Этот тред читают 1 пользователь:
Анонимных: 1
Зарегистрированных: 0




(c) 2010-2020 LOR-NG Developers Group
Powered by TimeMachine

Valid HTML 4.01 Transitional Правильный CSS!