PLIKI TEKSTOWE – jak tłumaczyć, kodować (.txt, .xml, .csv)

Jak tłumaczyć pliki tekstowe

Pliki tekstowe mogą zawierać proste informacje, ale też zestawy danych, złożone zbiory informacji w formacie XML, tekst kodu źródłowego czy stron internetowych.

Slavis - tłumaczenie plików tekstowych Wordpress

Postaramy się przybliżyć, jak pliki tekstowe są zbudowane, w jaki sposób jest zakodowany zawarty w nich tekst i jak najlepiej tłumaczyć proste pliki tekstowe i te o bardziej złożonej budowie. Zapraszamy!

W skrócie:

Pliki tekstowe i binarne
Rodzaje plików tekstowych
Kodowanie znaków ASCII, ANSI i ISO, Unicode
Jak tłumaczyć zwykłe pliki tekstowe
Jak tłumaczyć pliki tekstowe CSV
Jak tłumaczyć strukturyzowane pliki tekstowe
Pliki tekstowe – podsumowanie

[1.] Pliki tekstowe i binarne

Pliki można podzielić na binarne i tekstowe. Pierwsze zawierają informacje w postaci ciągu bajtów, bez względu na rodzaj przechowywanych informacji. Najczęściej można je odczytać tylko przy użyciu programu, za pomocą którego zostały utworzone. Zwykle konkretny program zapisuje dane w postaci "swoich" plików i tylko ten program jest w stanie odczytać zachowane w ten sposób dane.

Informacje zapisywane w plikach tekstowych to zwykle zestawy znaków alfanumerycznych (cyfr i liter) oraz znaków końca linii i końca pliku. Sposób ich zapisu (zakodowania) jest najbardziej rozpowszechnionym standardem. Dlatego do odczytu zawartości pliku tekstowego utworzonego za pomocą jednej aplikacji możemy użyć wielu innych edytorów tekstu, uruchamianych niekoniecznie w tym samym systemie.

Jak zbudowany jest plik tekstowy

Plik tekstowy zawiera znaki alfanumeryczne, czyli litery, cyfry i podobne znaki, a także znaki sterujące, jak znak końca wiersza (CRLF, CR lub LF, ang. Carriage Return, Line Feed), znak końca pliku (EOF, ang. End Of File) czy znak kolejności bajtów (BOM, ang. Byte Order Mark). Tekst jest podzielony na wiersze oddzielone od siebie znakiem końca wiersza.

Znaki końca wiersza (CRLF) wyświetlone w edytorze Notepad++

[2.] Rodzaje plików tekstowych

Zwykłe pliki tekstowe obejmują głównie pliki informacyjne. Są też pliki z tekstem separowanym (CSV), mają określoną, ale prostą budowę. Podobnie pliki z napisami do filmów czy pliki konfiguracyjne z tekstem dzielonym na sekcje. Najbardziej złożone są pliki strukturyzowane i pliki źródłowe programów.

Pliki tekstowe to najczęściej:

zwykłe pliki tekstowe
.txt, .text, .asc
pliki tekstowe kodów źródłowych programów
.cpp, .cs, .py, .pas, .java
pliki informacyjne typu readme i log
.me, .nfo, .log
pliki tekstowe napisów do filmów
.sub, .srt
pliki stron WWW: HTML, PHP, JS, CSS
.html, .htm, .php, .js, .css
pliki konfiguracyjne
.ini, .reg, .cfg, .rc
pliki danych CSV / TSV
.csv, .tsv
strukturyzowane pliki tekstowe
.xml, .html

[3.] Kodowanie znaków ASCII, ANSI i ISO, Unicode

Po otwarciu pliku tekstowego tekst jest czasami wyświetlany prawidłowo, a czasami znaki diakrytyczne (ą, ń, ż etc.) nie są widoczne, a zamiast nich pojawiają się "krzaczki". W takiej sytuacji istnieją dwie możliwości:

informacje o znakach diakrytycznych są zachowane w pliku i znaki te są dostępne, a jedynie został użyty nieprawidłowy sposób kodowania do ich odczytania,
informacje o znakach diakrytycznych nie zostały prawidłowo zapisane, a więc zostały utracone.

W pierwszym przypadku wystarczy użyć odpowiedniej metody kodowania do prawidłowego odczytu pliku, w drugim informacje o znakach narodowych przepadły przy zapisie pliku i nic już nie można zrobić, aby je odzyskać i prawidłowo wyświetlić tekst.

Kodowanie znaków

Każdy znak, który widzimy w pliku tekstowym, lub którego nie widzimy, bo jest to np. spacja, czyli puste miejsce między wyrazami, jest zapisany w postaci zrozumiałej dla komputera, czyli zer i jedynek.

Przy wyświetlaniu zawartości pliku są one "odszyfrowywane", tak aby były widoczne dla użytkownika jako litery, cyfry itd. Sposób, w jaki zostały zapisane w postaci zer i jedynek, to kodowanie znaków.

Kodowanie ASCII

Początkowo do kodowania znaków używano standardu ASCII. Każdy znak był zapisywany w 1 bajcie pamięci, czyli za pomocą 8 bitów (każdy o wartości 0 lub 1). Standard ASCII zawierał jednak tylko 127 znaków, z czego 32 to znaki specjalne (sterujące). Dodatkowo, małe i duże litery to osobne znaki zajmujące osobne miejsce w pamięci.

Stąd kodowanie ASCII pozwalało na zapisanie jedynie cyfr, liter łacińskich i kilku dodatkowych znaków jak nawiasy. Standard ASCII przestał wystarczać i potrzebne były nowe standardy o większych możliwościach.

Kodowanie ANSI i ISO

Pojawił się standard o nazwie ANSI (opracowany przez Microsoft), stosowany w systemie Windows. Jego odpowiednikiem w innych systemach był ISO-8859. W obu przypadkach chodziło o zestaw osobnych standardów kodowania znaków alfabetów dla różnych regionów. Na przykład ISO 8859-2 przeznaczony był dla regionu środkowo- i wschodnioeuropejskiego. Standard ten obsługiwał alfabety takich języków jak: polski, czeski, węgierski, rumuński, słowacki czy słoweński. Jego odpowiednikiem był Windows-1250.

Zarówno system kodowania znaków firmy Microsoft, jak i ISO 8859 oferowały możliwość zakodowania do 256 znaków. Wystarczało to dla znaków łacińskich oraz niewielkiej grupy znaków narodowych – do obsłużenia alfabetów kilku języków, ale nie wielu jednocześnie.

Kodowanie Unicode (UTF-8 / -16 i -32)

W latach 90-tych pojawił się Unicode, oferujący w początkowej wersji możliwość zakodowania ponad 7 tysięcy znaków. Unicode występuje w trzech wariantach (UTF-8, -16 i -32). Dominującą wersją m.in. na stronach internetowych, obsługiwaną obecnie przez wszystkie nowoczesne systemy i programy, jest UTF-8. Unicode pozwala zakodować jednocześnie praktycznie dowolną liczbę znaków narodowych.

Jest to szczególnie istotne dla tłumaczeń, w którym nierzadko mamy do czynienia z tekstem w co najmniej dwóch językach w jednym pliku. Dzięki Unicode nie musimy się martwić, że po otwarciu pliku ujrzymy "krzaczki" zamiast znaków diakrytycznych jednego czy drugiego języka.

Pliki tekstowe – jak otwierać

Ze względu na powszechność stosowania plików tekstowych do ich odczytu możemy użyć dowolnego edytora tekstu. Tak jest, gdy plik tekstowy jest zakodowany w UTF-8. W przypadku innego kodowania znaków dobrze użyć edytora o większych możliwościach jak Notepad++, Atom lub nawet Microsoft Word.

Zwłaszcza Notepad++ zapewnia doskonałą kontrolę nad strukturą tekstu, m.in. wyświetla znaki specjalne jak spacje, tabulatory czy znaki końca wiersza z rozróżnieniem, czy jest to znak CRLF, CR czy LF.

[4.] Jak tłumaczyć zwykłe pliki tekstowe

Tłumaczenie plików tekstowych o prostej budowie można wykonywać na kilka sposobów. Każdy oferuje inny komfort pracy i zapewnia inną jakość tłumaczenia.

Zwykłe pliki tekstowe można tłumaczyć, używając:

Edytora plików tekstowych (Notatnik, Notepad++, Atom, SublimeText)
Microsoft Worda (lub innego zaawansowanego edytora tekstu)
Microsoft Excela (lub innego arkusza kalkulacyjnego)
Programu wspomagającego tłumaczenie (programu CAT)

Edytor plików tekstowych

Edytor plików tekstowych pozwala po prostu nadpisywać oryginalny tekst wprowadzanym tekstem tłumaczenia. Jest to mało efektywny sposób, który nie zapewnia żadnej kontroli jakości i może powodować niedokładności oraz pominięcia w tłumaczeniu.

Zwykły plik tekstowy otwarty w Notatniku Windows

Dla ułatwienia można utworzyć kopię oryginalnego pliku i w dwóch panelach obok siebie wyświetlić plik oryginalny i plik, w którym oryginał zastępujemy wpisywanym tłumaczeniem.

Zaawansowany edytor tekstu (np. Microsoft Word)

Edytor tekstu typu Microsoft Word czy Writer z LibreOffice pozwala zamienić zawartość pliku tekstowego na tabelkę, tak że kolejne wiersze tabeli to kolejne akapity tekstu. Utworzoną kolumnę kopiujemy, aby uzyskać dwie identyczne kolumny z tekstem obok siebie. Tłumaczenie wprowadzamy w prawej kolumnie.

Plik tekstowy w programie Word: tekst zamieniony na tabelkę

Po lewej stronie będzie widoczny oryginalny tekst, co zapewni możliwość kontroli i sprawdzania poprawności przekładu. Dzięki VBA w MS Word mamy dodatkowe możliwości kontroli, np. spójności tłumaczenia.

Arkusz kalkulacyjny (np. Microsoft Excel)

Tłumaczenie w arkuszu kalkulacyjnym jak Excel czy Calc darmowego LibreOffice daje dodatkowe możliwości, m.in. kontroli długości tłumaczenia. Tu, jak w przypadku edytora tekstu, kolejne akapity oryginalnego tekstu trafiają do jednej kolumny, a tłumaczenie jest wstawiane w kolumnie obok.

Wykorzystanie formuł i funkcji pozwala dodatkowo:

kontrolować długość tłumaczenia względem oryginału
porównywać tłumaczenie z oryginałem, aby wykluczyć pozostawienie nieprzetłumaczonych fragmentów
sprawdzać spójność tłumaczonych zdań

Dodatkowe informacje na stronie Sprawdzanie długości tłumaczenia w Excelu.

Programy wspomagające tłumaczenie (CAT)

Najlepszą metodą tłumaczenia prostych plików tekstowych jest użycie programu CAT typu Trados lub Transit. Programy te zapewniają szerokie możliwości kontroli tłumaczenia i zapewniania spójności oraz jakości. O tego typu narzędziach piszemy osobno na stronie Narzędzia wspomagające tłumaczenie.

[5.] Jak tłumaczyć pliki tekstowe CSV

Pliki CSV (ang. Comma Separated Values) to najczęściej pliki danych. W plikach tych informacje są uporządkowane w postaci osobnych rekordów. Dane w pojedynczym rekordzie są od siebie odseparowane za pomocą przecinka, tabulatora lub średnika, zaś poszczególne rekordy dzielą znaki końca wiersza: CRLF lub CR / LF.

Plik tekstowy CSV otwarty w Notatniku: zawiera tekst rozdzielany znakiem przecinka, średnika lub tabulatora

Znak końca wiersza CRLF

Znak CRLF to zestaw dwóch znaków. Carriage return (ang. powrót karetki) odnosi się do czynności wykonywanej niegdyś na mechanicznej maszynie do pisania. Aby rozpocząć pisanie w nowej linii, należało przesunąć "karetkę" (miejsce wprowadzania znaków) do lewego marginesu, a następnie przejść do nowego pustego wiersza, przesuwając aktualnie zapisany o jedną lub więcej pozycji w górę (Line Feed).

Pliki te najlepiej otwierać za pomocą edytora typu Microsoft Word albo arkusza jak Excel czy Calc. W pierwszym przypadku warto zamienić wczytany tekst na tabelę z zastosowaniem użytego w pliku znaku separacji danych: przecinka, średnika, tabulatora. Otrzymamy tabelę, w której poszczególne wiersze to kolejne rekordy, a pola każdego rekordu to tekst w komórkach kolejnych kolumn:

Plik tekstowy CSV otwarty w Wordzie: pole każdego rekordu trafia do osobnej kolumny

Podobny efekt uzyskamy po otwarciu pliku CSV w arkuszu kalkulacyjnym. Daje nam to znacznie większe możliwości wybierania bądź ukrywania tekstu przeznaczonego do tłumaczenia. Samo tłumaczenie możemy wykonać bezpośrednio w edytorze tekstu bądź arkuszu albo zaimportować je do programu CAT, który pozwoli na znacznie efektywniejsze przetłumaczenie wybranego tekstu.

Plik tekstowy CSV otwarty w Excelu: pole każdego rekordu trafia do osobnej kolumny

[6.] Jak tłumaczyć strukturyzowane pliki tekstowe

Największym wyzwaniem jest tłumaczenie strukturyzowanych plików tekstowych typu XML czy HTML. Pliki te zawierają tekst zorganizowany w postaci określonej struktury realizowanej za pomocą specjalnych znaczników, tak zwanych tagów.

Plik XML otwarty w Notepad++: dane są uporządkowane w postaci osobnych elementów

Pliki strukturyzowane można tłumaczyć albo za pomocą zwykłego edytora plików tekstowych, albo używając programów wspomagających tłumaczenie. W pierwszym przypadku nie mamy możliwości kontroli spójności tłumaczenia. Dodatkowo istnieje niebezpieczeństwo, że tłumacząc, naruszymy strukturę dokumentu.

Dopiero zastosowanie programu CAT jak Trados lub Transit pozwala uzyskać dostęp jedynie do tekstu, który ma być tłumaczony. Nie ma więc obawy, że naruszymy strukturę pliku. Poza tym programy CAT zapewniają doskonałą kontrolę nad spójnością i jakością tłumaczenia.

Plik XML w programie CAT: do edycji dostępny jest tylko tekst kolejnych elementów

[7.] Pliki tekstowe – podsumowanie

Pliki tekstowe to duża grupa rodzajów dokumentów, od zwykłych plików z tekstem ciągłym, przez CSV aż po strukturyzowane pliki tekstowe. W każdym przypadku łatwo podejrzeć ich zawartość. Jeśli są zakodowane przy użyciu kodowania UTF-8, prosta jest też ich edycja za pomocą dowolnego edytora tekstu.

Efektywne tłumaczenie plików tekstowych wymaga jednak użycia albo zaawansowanego edytora tekstu jak Microsoft Word, albo – to najlepsze rozwiązanie – programu CAT, który zapewni kontrolę nad spójnością tłumaczenia i jego jakością.

Większe wymagania stawiają pliki z separowanym tekstem CSV lub strukturyzowane pliki jak XML czy dokumenty stron internetowych. W ich przypadku najczęściej konieczne jest wykonanie dodatkowych czynności w celu odseparowania tekstu przeznaczonego do tłumaczenia od tego, który powinien pozostać bez zmian. Niezbędne są do tego wiedza, doświadczenie i odpowiednio dobrane narzędzia informatyczne.

W każdej z wymienionych sytuacji nasze biuro tłumaczeń dysponuje odpowiednimi rozwiązaniami i metodami pracy. Wiedza i doświadczenie pomagają nam od wielu lat. Z najtrudniejszymi problemami radzimy sobie za pomocą własnych rozwiązań informatycznych i najnowszych programów CAT.

PDF, Excel, Indesign?
Potrzebujesz wyceny tłumaczenia?

Wyślij pliki do wyceny »

Zgodność z ISO 17100:2015 najnowszej normy jakości dla usług tłumaczeniowych w biurze tłumaczeń.

Nasze tłumaczenia

Tłumaczenia przysięgłe
Tłumaczenia techniczne
Tłumaczenia specjalistyczne
Tłumaczenia stron WWW

Tłumaczenia techniczne

Deklaracja zgodności
Katalogi części
Przewodniki użytkownika
Instrukcje obsługi
Dokumentacje techniczne

Tłumaczymy pliki

PDF
Indesign
Framemaker
CorelDraw
Illustrator
AutoCAD
XML
Excel (.xls, .xlsx)
inne pliki tekstowe, CSV

Wykorzystywane technologie

Tłumaczenia techniczne, obsługa DTP

Nasze biuro tłumaczeń zapewnia profesjonalne tłumaczenia wraz z obsługą techniczną DTP, OCR itd.

Tłumaczenie plików tekstowych

Stosujemy profesjonalne rozwiązania informatyczne automatyzujące przekład plików tekstowych w dowolnym kodowaniu, ciągów sterujących, danych katalogów produktów i usług, plików XML i wyciągów z baz danych.

Potrzebujesz wyceny tłumaczenia?

Przejdź do Wyceny »