<?xml version="1.0" encoding="utf-8"?>
<?xml-stylesheet type="text/xsl" href="../../assets/xml/rss.xsl" media="all"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Cases (Posty o string)</title><link>https://fizyk.dev/</link><description></description><atom:link href="https://fizyk.dev/pl/tags/string.xml" rel="self" type="application/rss+xml"></atom:link><language>pl</language><lastBuildDate>Thu, 27 Nov 2025 12:02:29 GMT</lastBuildDate><generator>Nikola (getnikola.com)</generator><docs>http://blogs.law.harvard.edu/tech/rss</docs><item><title>Unicode a python</title><link>https://fizyk.dev/pl/blog/unicode-a-python/</link><dc:creator>Grzegorz Śliwiński</dc:creator><description>&lt;p&gt;Od paru miesięcy programuję w Pythonie. Najpierw oczywiście trzeba się
było Pythona nauczyć, zanim zacząłem w robocie dostawać pierwsze
zadania, ale źle nie było. Jedna rzecz mnie w Pythonie zdziwiła, a
mianowicie podejście do kodowania stringów. Zresztą, po dziś dzień
rozwiązanie tej kwestii w Pythonie sprawia mi niemały kłopot.&lt;/p&gt;
&lt;p&gt;Otóż w Pythonie, by ciąg znaków mógł zawierać wszelkie krzaczki i
ogonki, musi być unicodowym ciągiem znaków. Zwykłe stringi akceptują
tylko i wyłącznie znaki ASCII.&lt;/p&gt;
&lt;p&gt;I tak deklarując zmienną w kodzie, na pewno będzie stringiem.&lt;/p&gt;
&lt;div class="code"&gt;&lt;pre class="code python"&gt;&lt;a id="rest_code_eaf3feb41a774389830e3a3aeca8f45f-1" name="rest_code_eaf3feb41a774389830e3a3aeca8f45f-1" href="https://fizyk.dev/pl/blog/unicode-a-python/#rest_code_eaf3feb41a774389830e3a3aeca8f45f-1"&gt;&lt;/a&gt;&lt;span class="n"&gt;zmienna&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="s1"&gt;'łańcuch'&lt;/span&gt;
&lt;/pre&gt;&lt;/div&gt;
&lt;p&gt;Raczej bez różnicy, jakich znaków użyjemy. Jeśli jednak wartość zmienna
zostaje wczytana z zewnętrznego źródła danych, wtedy możemy napotkać
problem.&lt;/p&gt;
&lt;p&gt;Załóżmy teraz, że wczytujemy i przetwarzamy jakiś dokument XML, są one
kodowane przeważnie w utf-8. Wartości które będziemy przeważnie
przetwarzali zazwyczaj zmieszczą się w spektrum kodowania ASCII i ich
konwersja będzie jakby automatyczna, jednak co jakiś czas natrafimy w
pobieranych wartościach na polskie ogonki, czeskie ptaszki albo chińskie
krzaczki. Wtedy albo program się wywali (na naszym kodzie, np. złączeniu
łańcuchów) stwierdzając, że znak w łańcuchu jest spoza zakresu ASCII
(lub podobny błąd), albo błąd zwróci wywoływana przez nas funkcja.
jakkolwiek wydaje się to zabawne, spora część funkcji nie radzi sobie z
Unicode.&lt;/p&gt;
&lt;p&gt;Jak to obejść? Wyłapać się wszystkiego w czasie pisania nie da, można
chyba tylko przed wywołaniem, które zwraca błąd zastosować poniższą
konstrukcję:&lt;/p&gt;
&lt;div class="code"&gt;&lt;pre class="code python"&gt;&lt;a id="rest_code_e1c9b9cf8e8c436a934740cf43cb1695-1" name="rest_code_e1c9b9cf8e8c436a934740cf43cb1695-1" href="https://fizyk.dev/pl/blog/unicode-a-python/#rest_code_e1c9b9cf8e8c436a934740cf43cb1695-1"&gt;&lt;/a&gt;&lt;span class="k"&gt;if&lt;/span&gt; &lt;span class="nb"&gt;isinstance&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="n"&gt;zmienna&lt;/span&gt;&lt;span class="p"&gt;,&lt;/span&gt; &lt;span class="n"&gt;unicode&lt;/span&gt;&lt;span class="p"&gt;):&lt;/span&gt;
&lt;a id="rest_code_e1c9b9cf8e8c436a934740cf43cb1695-2" name="rest_code_e1c9b9cf8e8c436a934740cf43cb1695-2" href="https://fizyk.dev/pl/blog/unicode-a-python/#rest_code_e1c9b9cf8e8c436a934740cf43cb1695-2"&gt;&lt;/a&gt;    &lt;span class="n"&gt;zmienna&lt;/span&gt; &lt;span class="o"&gt;=&lt;/span&gt; &lt;span class="n"&gt;zmienna&lt;/span&gt;&lt;span class="o"&gt;.&lt;/span&gt;&lt;span class="n"&gt;encode&lt;/span&gt;&lt;span class="p"&gt;(&lt;/span&gt;&lt;span class="s1"&gt;'utf-8'&lt;/span&gt;&lt;span class="p"&gt;)&lt;/span&gt;
&lt;/pre&gt;&lt;/div&gt;
&lt;p&gt;Gdy po raz pierwszy spotkałem się z tym problemem, znalazłem informację
o możliwości zdefiniowania kodowania plików źródłowych:&lt;/p&gt;
&lt;div class="code"&gt;&lt;pre class="code python"&gt;&lt;a id="rest_code_348237f1b52e4e5a88b8f1bee42a428f-1" name="rest_code_348237f1b52e4e5a88b8f1bee42a428f-1" href="https://fizyk.dev/pl/blog/unicode-a-python/#rest_code_348237f1b52e4e5a88b8f1bee42a428f-1"&gt;&lt;/a&gt;&lt;span class="c1"&gt;# -*- coding: utf-8 -*-&lt;/span&gt;
&lt;/pre&gt;&lt;/div&gt;
&lt;p&gt;Ta konstrukcja służy jednak tylko i wyłącznie zdefiniowaniu kodowania
kodu źródłowego, nie kodowania używanego przez Pythona. Stąd w swoich
pierwszych programach napisanych w pythonie używałem sporo wywołań
metody encode i decode na stringu.&lt;/p&gt;</description><category>python</category><category>string</category><category>unicode</category><guid>https://fizyk.dev/pl/blog/unicode-a-python/</guid><pubDate>Sun, 06 Feb 2011 17:02:36 GMT</pubDate></item></channel></rss>