En tekstfil er en datafil bestående kun av tegnkoder. Det vil si at hele innholdet er å betrakte som tekst uten metadata, altså ren tekst. Må ikke forveksles med tekstdokument.

Tegnsett rediger

Tegnsettet bestemmer oversettelsen mellom datastrøm og tegnsekvens. Hvilket tegnsett som er standard avhenger av operativsystem og er som følger:

Forskjellig bruk av tegnsett er et stort problem, ettersom tegnsett, i likhet med all annen metadata, ikke lagres i en tekstfil. Selv i systemer hvor tegnsettet skal oppgis (for eksempel internett), er dette problemet utbredt, fordi tegnsettet som angis ofte bare er satt i en standardinnstilling, slik at riktigheten av denne informasjonen er vilkårlig. For eksempel vil en LAMP-server angi feil tegnsett som standard; standardinnstillingen for Apache er iso-8859-1, mens systemet for øvrig lagrer tekst og filnavn som UTF-8. Fordi den nevnte standardinnstinningen ikke har rot i virkeligheten, har det blitt vanlig å spesifisere tegnsettet i selve innholdet av HTML-filene, noe som overstyrer tegnsettet i HTTP-hodet. Noen programmer (for eksempel Mozilla Firefox) er i stand til å oppdage og rette visse tegnsettfeil slik at det ikke syns for brukeren, men løsningen er ikke triviell; all foregående tekst må omtolkes i et alternativt tegnsett når det dukker opp en ugyldig tegnkode.

Representasjon av linjeskift rediger

ascii-baserte tegnsett har arvet to tegn for linjeskift fra skrivemaskinens dager, carriage return (CR) og linefeed (LF). Bruken avhenger av operativsystem og er som følger:

  • Unix: LF
  • Windows: CRLF
  • eldre Macintosh: CR

Dette er ikke noe stort problem, siden de fleste teksteditorer takler alle varianter. Et unntak er Windows Notisblokk.

Se også rediger

Tegnsett