Fájlok karakterkódolása
Egy adott szöveget többféleképpen lehet kódolni a fájlban. A legtöbb (régebbi) szövegfájl az ANSI nevű kódolást használja, amely korlátozott számú különböző karakter számára biztosít helyet (ékezetes karaktereket nem támogatja), de gyakran elegendő az összes szöveg megjelenítéséhez. Az Unicode kódolások azonban sokkal gazdagabb karaktermennyiséget tesznek lehetővé, így egyetlen fájl egyszerre több nyelvet is tartalmazhat, a fájlméret növekedésének árán.
Karakterkódolási típusok:
ANSI | Régebbi kódolás, legkisebb fájlméret, de hibaérzékeny. Nem ismeri az ékezetes karaktereket! |
UTF-8 | Unicode kódolás, a legtöbb nyugati karakter egy bájtot foglal el a fájlméretből, de más karakterek több, leggyakrabban 3-4 bájtot. A mentéskor egy három bájtos BOM (Byte Order Mark) kerül hozzáadásra. Az UTF-8 kódolás egyszerre támogatja minden karakterek megjelenítését (a magyar „ő” és „ű” betűket is), így minden nyelv egységes kódolást tud használni! |
UTF-8 BOM nélkül | Mint az UTF-8, de nem adunk hozzá BOM-ot. Három bájttal kisebb de nehezebbé teszi a karakterkódolás automatikus felismerését. |
UTF-16 Little Endian | Minden karakter két bájt méretű, a párok Little Endian rendezettek. A mentéskor egy 2 bájtos BOM kerül hozzáadásra. |
UTF-16 Big Endian | Minden karakter két bájt méretű, a párok Big Endian sorrendben vannak. A mentéskor 2 bájt BOM kerül hozzáadásra. |
ISO 8859-2 | A kettes számú latin ábécének nevezett 191 karakter mindegyikének egybájtos (nyolcbites) kódját adja meg. A 191 karakter között minden magyar ékezetes betű megtalálható (a sok más készletből hiányzó ő és ű is), de nem ismer más fontos betűket, például a cirill, görög, vagy például az örmény, indiai, arab és héber betűket, a kínai írásjegyeket és a japán kanákat. |
A fájlkezelőben található fájlok karakterkódolását általánosságban a szkript nyelvben, valamint a feltöltött fájl karakterkódolási attribútumaival tudod meghatározni.
HTML karakterkódolása
HTML Szkript nyelv esetén helyezd el a headerben:
<meta charset="UTF-8">
TXT karakterkódolása
Egyszerű szöveges fájl esetén problémába ütközhet, hogy nem tartalmaz szkript nyelvet, így nincs futtatási vagy parancsértelmező környezet, amelynek át lehetne adni a karakterkódolást. Ezért ilyenkor egy .htaccess fájlban tudod konfigurálni a kívánt karakterkódolási értékeket. Az alábbi sort szükséges hozzáadni a .htaccess fájlhoz, ahol is UTF-8 lesz a karakterkódolás:
<FilesMatch "\.(txt)$"> Header set Content-Type "text/plain; charset=UTF-8" </FilesMatch>
Karakterkódolás a fájl közvetlen módosításával
- Töltsd le a Notepad++ alkalmazást és telepítsd azt
- Nyisd meg az érintett fájlt szerkesztésre
- Válasz ki a Kódolás menüpontból a kívánt karakterkódolást (például UTF-8 BOM)
- Mentsd el a fájlt , majd töltsd fel a tárhelyedre