Pliki tekstowe mogą zawierać proste informacje, ale też zestawy danych, złożone zbiory informacji w formacie XML, tekst kodu źródłowego czy stron internetowych.
Postaramy się przybliżyć, jak pliki tekstowe są zbudowane, w jaki sposób jest zakodowany zawarty w nich tekst i jak najlepiej tłumaczyć proste pliki tekstowe i te o bardziej złożonej budowie. Zapraszamy!
Pliki można podzielić na binarne i tekstowe. Pierwsze zawierają informacje w postaci ciągu bajtów, bez względu na rodzaj przechowywanych informacji. Najczęściej można je odczytać tylko przy użyciu programu, za pomocą którego zostały utworzone. Zwykle konkretny program zapisuje dane w postaci "swoich" plików i tylko ten program jest w stanie odczytać zachowane w ten sposób dane.
Informacje zapisywane w plikach tekstowych to zwykle zestawy znaków alfanumerycznych (cyfr i liter) oraz znaków końca linii i końca pliku. Sposób ich zapisu (zakodowania) jest najbardziej rozpowszechnionym standardem. Dlatego do odczytu zawartości pliku tekstowego utworzonego za pomocą jednej aplikacji możemy użyć wielu innych edytorów tekstu, uruchamianych niekoniecznie w tym samym systemie.
Plik tekstowy zawiera znaki alfanumeryczne, czyli litery, cyfry i podobne znaki, a także znaki sterujące, jak znak końca wiersza (CRLF, CR lub LF, ang. Carriage Return, Line Feed), znak końca pliku (EOF, ang. End Of File) czy znak kolejności bajtów (BOM, ang. Byte Order Mark). Tekst jest podzielony na wiersze oddzielone od siebie znakiem końca wiersza.
Znaki końca wiersza (CRLF) wyświetlone w edytorze Notepad++
Zwykłe pliki tekstowe obejmują głównie pliki informacyjne. Są też pliki z tekstem separowanym (CSV), mają określoną, ale prostą budowę. Podobnie pliki z napisami do filmów czy pliki konfiguracyjne z tekstem dzielonym na sekcje. Najbardziej złożone są pliki strukturyzowane i pliki źródłowe programów.
Pliki tekstowe to najczęściej:
Po otwarciu pliku tekstowego tekst jest czasami wyświetlany prawidłowo, a czasami znaki diakrytyczne (ą, ń, ż etc.) nie są widoczne, a zamiast nich pojawiają się "krzaczki". W takiej sytuacji istnieją dwie możliwości:
W pierwszym przypadku wystarczy użyć odpowiedniej metody kodowania do prawidłowego odczytu pliku, w drugim informacje o znakach narodowych przepadły przy zapisie pliku i nic już nie można zrobić, aby je odzyskać i prawidłowo wyświetlić tekst.
Każdy znak, który widzimy w pliku tekstowym, lub którego nie widzimy, bo jest to np. spacja, czyli puste miejsce między wyrazami, jest zapisany w postaci zrozumiałej dla komputera, czyli zer i jedynek.
Przy wyświetlaniu zawartości pliku są one "odszyfrowywane", tak aby były widoczne dla użytkownika jako litery, cyfry itd. Sposób, w jaki zostały zapisane w postaci zer i jedynek, to kodowanie znaków.
Początkowo do kodowania znaków używano standardu ASCII. Każdy znak był zapisywany w 1 bajcie pamięci, czyli za pomocą 8 bitów (każdy o wartości 0 lub 1). Standard ASCII zawierał jednak tylko 127 znaków, z czego 32 to znaki specjalne (sterujące). Dodatkowo, małe i duże litery to osobne znaki zajmujące osobne miejsce w pamięci.
Stąd kodowanie ASCII pozwalało na zapisanie jedynie cyfr, liter łacińskich i kilku dodatkowych znaków jak nawiasy. Standard ASCII przestał wystarczać i potrzebne były nowe standardy o większych możliwościach.
Pojawił się standard o nazwie ANSI (opracowany przez Microsoft), stosowany w systemie Windows. Jego odpowiednikiem w innych systemach był ISO-8859. W obu przypadkach chodziło o zestaw osobnych standardów kodowania znaków alfabetów dla różnych regionów. Na przykład ISO 8859-2 przeznaczony był dla regionu środkowo- i wschodnioeuropejskiego. Standard ten obsługiwał alfabety takich języków jak: polski, czeski, węgierski, rumuński, słowacki czy słoweński. Jego odpowiednikiem był Windows-1250.
Zarówno system kodowania znaków firmy Microsoft, jak i ISO 8859 oferowały możliwość zakodowania do 256 znaków. Wystarczało to dla znaków łacińskich oraz niewielkiej grupy znaków narodowych – do obsłużenia alfabetów kilku języków, ale nie wielu jednocześnie.
W latach 90-tych pojawił się Unicode, oferujący w początkowej wersji możliwość zakodowania ponad 7 tysięcy znaków. Unicode występuje w trzech wariantach (UTF-8, -16 i -32). Dominującą wersją m.in. na stronach internetowych, obsługiwaną obecnie przez wszystkie nowoczesne systemy i programy, jest UTF-8. Unicode pozwala zakodować jednocześnie praktycznie dowolną liczbę znaków narodowych.
Jest to szczególnie istotne dla tłumaczeń, w którym nierzadko mamy do czynienia z tekstem w co najmniej dwóch językach w jednym pliku. Dzięki Unicode nie musimy się martwić, że po otwarciu pliku ujrzymy "krzaczki" zamiast znaków diakrytycznych jednego czy drugiego języka.
Ze względu na powszechność stosowania plików tekstowych do ich odczytu możemy użyć dowolnego edytora tekstu. Tak jest, gdy plik tekstowy jest zakodowany w UTF-8. W przypadku innego kodowania znaków dobrze użyć edytora o większych możliwościach jak Notepad++, Atom lub nawet Microsoft Word.
Zwłaszcza Notepad++ zapewnia doskonałą kontrolę nad strukturą tekstu, m.in. wyświetla znaki specjalne jak spacje, tabulatory czy znaki końca wiersza z rozróżnieniem, czy jest to znak CRLF, CR czy LF.
Tłumaczenie plików tekstowych o prostej budowie można wykonywać na kilka sposobów. Każdy oferuje inny komfort pracy i zapewnia inną jakość tłumaczenia.
Zwykłe pliki tekstowe można tłumaczyć, używając:
Edytor plików tekstowych pozwala po prostu nadpisywać oryginalny tekst wprowadzanym tekstem tłumaczenia. Jest to mało efektywny sposób, który nie zapewnia żadnej kontroli jakości i może powodować niedokładności oraz pominięcia w tłumaczeniu.
Zwykły plik tekstowy otwarty w Notatniku Windows
Dla ułatwienia można utworzyć kopię oryginalnego pliku i w dwóch panelach obok siebie wyświetlić plik oryginalny i plik, w którym oryginał zastępujemy wpisywanym tłumaczeniem.
Edytor tekstu typu Microsoft Word czy Writer z LibreOffice pozwala zamienić zawartość pliku tekstowego na tabelkę, tak że kolejne wiersze tabeli to kolejne akapity tekstu. Utworzoną kolumnę kopiujemy, aby uzyskać dwie identyczne kolumny z tekstem obok siebie. Tłumaczenie wprowadzamy w prawej kolumnie.
Plik tekstowy w programie Word: tekst zamieniony na tabelkę
Po lewej stronie będzie widoczny oryginalny tekst, co zapewni możliwość kontroli i sprawdzania poprawności przekładu. Dzięki VBA w MS Word mamy dodatkowe możliwości kontroli, np. spójności tłumaczenia.
Tłumaczenie w arkuszu kalkulacyjnym jak Excel czy Calc darmowego LibreOffice daje dodatkowe możliwości, m.in. kontroli długości tłumaczenia. Tu, jak w przypadku edytora tekstu, kolejne akapity oryginalnego tekstu trafiają do jednej kolumny, a tłumaczenie jest wstawiane w kolumnie obok.
Wykorzystanie formuł i funkcji pozwala dodatkowo:
Dodatkowe informacje na stronie Sprawdzanie długości tłumaczenia w Excelu.
Najlepszą metodą tłumaczenia prostych plików tekstowych jest użycie programu CAT typu Trados lub Transit. Programy te zapewniają szerokie możliwości kontroli tłumaczenia i zapewniania spójności oraz jakości. O tego typu narzędziach piszemy osobno na stronie Narzędzia wspomagające tłumaczenie.
Pliki CSV (ang. Comma Separated Values) to najczęściej pliki danych. W plikach tych informacje są uporządkowane w postaci osobnych rekordów. Dane w pojedynczym rekordzie są od siebie odseparowane za pomocą przecinka, tabulatora lub średnika, zaś poszczególne rekordy dzielą znaki końca wiersza: CRLF lub CR / LF.
Plik tekstowy CSV otwarty w Notatniku: zawiera tekst rozdzielany znakiem przecinka, średnika lub tabulatora
Znak CRLF to zestaw dwóch znaków. Carriage return (ang. powrót karetki) odnosi się do czynności wykonywanej niegdyś na mechanicznej maszynie do pisania. Aby rozpocząć pisanie w nowej linii, należało przesunąć "karetkę" (miejsce wprowadzania znaków) do lewego marginesu, a następnie przejść do nowego pustego wiersza, przesuwając aktualnie zapisany o jedną lub więcej pozycji w górę (Line Feed).
Pliki te najlepiej otwierać za pomocą edytora typu Microsoft Word albo arkusza jak Excel czy Calc. W pierwszym przypadku warto zamienić wczytany tekst na tabelę z zastosowaniem użytego w pliku znaku separacji danych: przecinka, średnika, tabulatora. Otrzymamy tabelę, w której poszczególne wiersze to kolejne rekordy, a pola każdego rekordu to tekst w komórkach kolejnych kolumn:
Plik tekstowy CSV otwarty w Wordzie: pole każdego rekordu trafia do osobnej kolumny
Podobny efekt uzyskamy po otwarciu pliku CSV w arkuszu kalkulacyjnym. Daje nam to znacznie większe możliwości wybierania bądź ukrywania tekstu przeznaczonego do tłumaczenia. Samo tłumaczenie możemy wykonać bezpośrednio w edytorze tekstu bądź arkuszu albo zaimportować je do programu CAT, który pozwoli na znacznie efektywniejsze przetłumaczenie wybranego tekstu.
Plik tekstowy CSV otwarty w Excelu: pole każdego rekordu trafia do osobnej kolumny
Największym wyzwaniem jest tłumaczenie strukturyzowanych plików tekstowych typu XML czy HTML. Pliki te zawierają tekst zorganizowany w postaci określonej struktury realizowanej za pomocą specjalnych znaczników, tak zwanych tagów.
Plik XML otwarty w Notepad++: dane są uporządkowane w postaci osobnych elementów
Pliki strukturyzowane można tłumaczyć albo za pomocą zwykłego edytora plików tekstowych, albo używając programów wspomagających tłumaczenie. W pierwszym przypadku nie mamy możliwości kontroli spójności tłumaczenia. Dodatkowo istnieje niebezpieczeństwo, że tłumacząc, naruszymy strukturę dokumentu.
Dopiero zastosowanie programu CAT jak Trados lub Transit pozwala uzyskać dostęp jedynie do tekstu, który ma być tłumaczony. Nie ma więc obawy, że naruszymy strukturę pliku. Poza tym programy CAT zapewniają doskonałą kontrolę nad spójnością i jakością tłumaczenia.
Plik XML w programie CAT: do edycji dostępny jest tylko tekst kolejnych elementów
Pliki tekstowe to duża grupa rodzajów dokumentów, od zwykłych plików z tekstem ciągłym, przez CSV aż po strukturyzowane pliki tekstowe. W każdym przypadku łatwo podejrzeć ich zawartość. Jeśli są zakodowane przy użyciu kodowania UTF-8, prosta jest też ich edycja za pomocą dowolnego edytora tekstu.
Efektywne tłumaczenie plików tekstowych wymaga jednak użycia albo zaawansowanego edytora tekstu jak Microsoft Word, albo – to najlepsze rozwiązanie – programu CAT, który zapewni kontrolę nad spójnością tłumaczenia i jego jakością.
Większe wymagania stawiają pliki z separowanym tekstem CSV lub strukturyzowane pliki jak XML czy dokumenty stron internetowych. W ich przypadku najczęściej konieczne jest wykonanie dodatkowych czynności w celu odseparowania tekstu przeznaczonego do tłumaczenia od tego, który powinien pozostać bez zmian. Niezbędne są do tego wiedza, doświadczenie i odpowiednio dobrane narzędzia informatyczne.
W każdej z wymienionych sytuacji nasze biuro tłumaczeń dysponuje odpowiednimi rozwiązaniami i metodami pracy. Wiedza i doświadczenie pomagają nam od wielu lat. Z najtrudniejszymi problemami radzimy sobie za pomocą własnych rozwiązań informatycznych i najnowszych programów CAT.
Zgodność z ISO 17100:2015 najnowszej normy jakości dla usług tłumaczeniowych w biurze tłumaczeń.
Tłumaczymy pliki
Wykorzystywane technologie
Nasze biuro tłumaczeń zapewnia profesjonalne tłumaczenia wraz z obsługą techniczną DTP, OCR itd.
Stosujemy profesjonalne rozwiązania informatyczne automatyzujące przekład plików tekstowych w dowolnym kodowaniu, ciągów sterujących, danych katalogów produktów i usług, plików XML i wyciągów z baz danych.