<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0"
					xmlns:content="http://purl.org/rss/1.0/modules/content/"
					xmlns:wfw="http://wellformedweb.org/CommentAPI/"
					xmlns:atom="http://www.w3.org/2005/Atom"
				  >
<channel>
<atom:link rel="self"  type="application/rss+xml"  href="http://rulinux.net/rss_from_sect_4_subsect_6_thread_8431"  />
<title>rulinux.net - Форум - Development - Автоопределение кодировки</title>
<link>http://rulinux.net/</link>
<description><![CDATA[Портал о GNU/Linux и не только]]></description>
<image><title>rulinux.net - Форум - Development - Автоопределение кодировки</title>
<link>http://rulinux.net/</link>
<url>http://rulinux.net/rss_icon.png</url>
</image>
<item>
<title>Re: Автоопределение кодировки</title>
<link>https://rulinux.net/message.php?newsid=8431&amp;page=1#64418</link>
<guid>https://rulinux.net/message.php?newsid=8431&amp;page=1#64418</guid>
<pubDate>Thu, 23 Sep 2010 07:01:52 +0400</pubDate>
<description><![CDATA[<p>Для питона есть chardet</p><p>&nbsp;<a href="http://chardet.feedparser.org/">http://chardet.feedparser.org/</a></p><p>Можешь посмотреть в его исходники, там много всякого. Но я не знаю, насколько он лучше/хуже работает чем enca.</p>]]></description>
</item>
<item>
<title>Re: Автоопределение кодировки</title>
<link>https://rulinux.net/message.php?newsid=8431&amp;page=1#64417</link>
<guid>https://rulinux.net/message.php?newsid=8431&amp;page=1#64417</guid>
<pubDate>Thu, 23 Sep 2010 06:12:02 +0400</pubDate>
<description><![CDATA[<p>в общем случае почти не решаемо. </p>]]></description>
</item>
<item>
<title>Re: Автоопределение кодировки</title>
<link>https://rulinux.net/message.php?newsid=8431&amp;page=1#64416</link>
<guid>https://rulinux.net/message.php?newsid=8431&amp;page=1#64416</guid>
<pubDate>Thu, 23 Sep 2010 05:56:49 +0400</pubDate>
<description><![CDATA[<p>Тут таблица соответствия групп языков и кодировок &nbsp;<a href="http://www.dataparksearch.org/dpsearch-international.ru.html">http://www.dataparksearch.org/dpsearch-international.ru.html</a></p><p>зы. и ещё - енса вроде считает языком текста системный язык.</p>]]></description>
</item>
<item>
<title>Re: Автоопределение кодировки</title>
<link>https://rulinux.net/message.php?newsid=8431&amp;page=1#64415</link>
<guid>https://rulinux.net/message.php?newsid=8431&amp;page=1#64415</guid>
<pubDate>Thu, 23 Sep 2010 05:48:57 +0400</pubDate>
<description><![CDATA[<p><i>> из CP-1252 в CP-1251</i><br> Ты где-то реально такое встретил или сам пример придумал? :) CP-1252 это западноевропейские языки, а CP-1251 - кириллические. Каждый язык имеет своё множество кодировок, и перекодировать можно только в пределах одного языка.</p><p>зы. я когда-то вплотную юзал енцу, так вот скажу, что это лучший инструмент по детектированию кодировок из всех что я видел. Только ему желательно подсовывать для анализа текст хотя бы с нескольким десятком слов, тогда ты получишь практически 100% попадание. Чем короче текст - тем ниже результат. Ну и канешно же не совать какие-нибудь китайские иероглифы в надежде что получишь ридну мову :) Енца использует эвристику и довольно умна, но не на столько же чтоб ещё и вычислять подвохи :)</p>]]></description>
</item>
<item>
<title>Re: Автоопределение кодировки</title>
<link>https://rulinux.net/message.php?newsid=8431&amp;page=1#64414</link>
<guid>https://rulinux.net/message.php?newsid=8431&amp;page=1#64414</guid>
<pubDate>Thu, 23 Sep 2010 05:31:07 +0400</pubDate>
<description><![CDATA[<p>Хрена-там. Хреново она работает. Текст перекодированный из CP-1252 в CP-1251 он определил как дважды перекодированный из ISO-8895-5 в UTF-8.</p>]]></description>
</item>
<item>
<title>Re: Автоопределение кодировки</title>
<link>https://rulinux.net/message.php?newsid=8431&amp;page=1#64413</link>
<guid>https://rulinux.net/message.php?newsid=8431&amp;page=1#64413</guid>
<pubDate>Wed, 22 Sep 2010 12:23:09 +0400</pubDate>
<description><![CDATA[<p>enca же! Только мне кажется что чётко определить кодировку по одному-двум словам не особо получится, ошибок должно быть много. Хотя попробуй...</p>]]></description>
</item>
<item>
<title>Автоопределение кодировки</title>
<link>https://rulinux.net/message.php?newsid=8431&amp;page=1#64412</link>
<guid>https://rulinux.net/message.php?newsid=8431&amp;page=1#64412</guid>
<pubDate>Wed, 22 Sep 2010 12:20:00 +0400</pubDate>
<description><![CDATA[<p>Хочу поставить еще один костыль на qmmp для автоопределения кодировки тегов. Мне нужно определить кодировку в которой мне передаются теги, и выводить в плейлист сведения уже сконвертированные в юникод. Так-что мне нужно с помощью чего-то определять кодировку. Так-вот, собственно с помощью чего?</p>]]></description>
</item>
</channel>
</rss>