Aká je úloha jazyka značkovacieho jazyka. WEB-dizajn a programy na tvorbu web stránok

značkovacie jazyky) je súbor špeciálnych inštrukcií, nazývaných tagy, navrhnutých na vytvorenie štruktúry v dokumentoch a definovanie vzťahov medzi rôznymi prvkami tejto štruktúry. Inými slovami, označenie ukazuje, ktorá časť dokumentu je nadpis, ktorý podnadpis, čo treba považovať za meno autora atď. Označenie sa delí na štylistické, štrukturálne a sémantické.

Štylistické označenie

Štylistické značenie je zodpovedné za vzhľad dokumentu. Napríklad v HTML tento typ značenia zahŕňa značky ako napr (kurzíva), (tučné), (zdôrazniť) (prečiarknutý text) atď.

Štrukturálne označenie

Štrukturálne značenie definuje štruktúru dokumentu. V HTML sú pre tento typ značiek napríklad značky (odsek), (názov),

(sekcia) atď.

Sémantické označenie

Sémantické značenie informuje o obsahu údajov. Príklady tohto typu značiek sú značky. (názov dokumentu), (kód, používaný pre zoznamy kódov), (premenné),

(adresa autora).

Základné pojmy akéhokoľvek značkovacieho jazyka sú značky, prvky a atribúty.

Tagy a prvky.

Významy značiek a prvkov sú často zamieňané.

Značky alebo kontrolné značky, ako sa tiež nazývajú, slúžia ako pokyny pre renderovací program na strane klienta, ktorý sa zaoberá obsahom značky. Na zvýraznenie značky vzhľadom na hlavný obsah dokumentu sa používajú lomené zátvorky: značka začína znakom menej ako (<) и завершается знаком "больше" (>), v ktorej je umiestnený názov inštrukcií a ich parametre. Napríklad v HTML je značka označuje, že nasledujúci text by mal byť kurzívou.

Prvok sú značky spolu s ich obsahom. Nasledujúca konštrukcia je príkladom prvku:

Tento text je napísaný kurzívou .

Prvok pozostáva z otváracej značky (v našom príklade je to značka ), obsah značky (v príklade ide o text „Toto je text v kurzíve“) a uzatváraciu značku(), hoci niekedy v HTML môže byť koncová značka vynechaná.

Atribúty

Atribúty sa používajú na zadanie akýchkoľvek parametrov, ktoré špecifikujú charakteristiky tohto prvku pri definovaní prvku.

Atribúty pozostávajú z páru „meno“ = „hodnota“, ktorý je možné špecifikovať pri definovaní prvku v počiatočnom tagu. Naľavo a napravo od znamienka rovnosti môžete nechať medzery. Hodnota atribútu je špecifikovaná ako reťazec uzavretý v jednoduchých alebo dvojitých úvodzovkách.

Akákoľvek značka môže mať atribút, ak je tento atribút definovaný.

Keď sa použije atribút, prvok má nasledujúcu formu:

<имя_тега атрибут = "значение"> obsah značky

Text je zarovnaný na stred

Jedna otváracia značka môže obsahovať niekoľko atribútov, napríklad:

Veľkosť a farba textu špecifikovaná

História vývoja značkovacích jazykov.

Koncept hypertextu zaviedol W. Bush v roku 1945 a od 60. rokov sa začali objavovať prvé aplikácie využívajúce hypertextové dáta. Táto technológia však dostala svoj hlavný rozvoj, keď vznikla skutočná potreba mechanizmu na kombinovanie rôznych informačných zdrojov, ktoré poskytujú možnosť vytvárať a prezerať nelineárny text.

V roku 1986 ISO schválila štandardizovaný zovšeobecnený značkovací jazyk. Tento jazyk je určený na vytváranie ďalších značkovacích jazykov, definuje povolenú množinu značiek, ich atribúty a vnútornú štruktúru dokumentu. Takto je možné vytvárať vlastné značky súvisiace s obsahom dokumentu. Teraz je zrejmé, že takéto dokumenty sa ťažko interpretujú bez definície značkovacieho jazyka, ktorá je uložená v definícii typu dokumentu (DTD). DTD zoskupila všetky jazykové pravidlá v štandarde SGML. Inými slovami, DTD popisuje vzťah medzi značkami a pravidlami ich aplikácie. Okrem toho je pre každú triedu dokumentov definovaný vlastný súbor pravidiel, ktoré popisujú gramatiku zodpovedajúceho značkovacieho jazyka. Iba pomocou DTD je teda možné skontrolovať správne použitie tagov, a preto ho treba zaslať spolu s dokumentom SGML alebo zahrnúť do dokumentu.

V tom čase okrem SGML existovalo niekoľko ďalších podobných jazykov, ktoré si navzájom konkurovali, avšak popularita (HTML, ktorý je jedným z jeho potomkov) poskytla SGML nepopierateľnú výhodu oproti svojim náprotivkom.

Pomocou SGML môžete opísať štruktúrované dáta, organizovať informácie obsiahnuté v dokumentoch a prezentovať tieto informácie v nejakom štandardizovanom formáte. Ale kvôli svojej zložitosti sa SGML používal hlavne na opis syntaxe iných jazykov a len málo aplikácií sa zaoberalo priamo dokumentmi SGML. SGML sa zvyčajne používa len vo veľkých projektoch, napríklad na vytvorenie jednotného systému správy dokumentov pre veľkú spoločnosť.

Značkovací jazyk HTML je oveľa jednoduchší a pohodlnejší ako SGML, jeho pokyny sú primárne určené na riadenie procesu zobrazovania obsahu dokumentu na obrazovke. HTML ako spôsob označovania technických dokumentov vytvoril Tim Berners-Lee v roku 1991 špeciálne pre vedeckú komunitu. Spočiatku to bola len jedna z aplikácií SGML.

Napriek tomu, že HTML dokáže iba klasifikovať časti dokumentu a zabezpečiť jeho správne zobrazenie v prehliadači, je to najobľúbenejší značkovací jazyk. Je to preto, že HTML sa dá pomerne ľahko naučiť. Jediné, čo musíte urobiť, je naučiť sa HTML príkazy. DTD pre HTML je uložený v prehliadači. Okrem toho je potrebné poznamenať, že HTML je navrhnuté tak, aby fungovalo na rôznych platformách. Má však niekoľko významných obmedzení:

  1. HTML má pevnú sadu značiek a túto sadu nemožno rozšíriť ani zmeniť;
  2. Značky jazyka HTML zobrazujú iba to, ako majú byť údaje prezentované, teda vzhľad dokumentu. HTML nenesie informácie o význame obsahu obsiahnutého v značkách, štruktúre dokumentu.

V systémoch na spracovanie textu sú v dokumente zahrnuté ďalšie informácie, nazývané značkovanie, ktoré vykonávajú tieto funkcie:

Výber logických prvkov tohto dokumentu;

Nastavenie funkcií spracovania pre vybrané prvky.

V bežných textových procesoroch sú zabudované príkazy na zapnutie / vypnutie písma atď., podobne ako príkazy na ovládanie umiestnenia informácií na obrazovke alebo pri tlači (tzv. únikové sekvencie). Tento prístup sa nazýva príkazové alebo procedurálne značkovanie (tabuľka 2.1).

Alternatívnym spôsobom označovania je vybrať časť textu bez určenia spôsobu spracovania výberu. Potom ostatné príkazy priradia spracovanie fragmentom. Toto označenie sa nazýva popisný(opisný). Zahŕňa štítky (značky) začiatok a koniec textového prvku a špecifikuje, ako sa má daný fragment interpretovať.

Zmenou sady procedúr zodpovedajúcich popisnému značeniu je možné zmeniť vonkajšiu reprezentáciu toho istého dokumentu. Vývoj myšlienok deskriptívneho značkovania viedol k definícii značkovania ako formálneho jazyka. To vám umožní skontrolovať správnosť označenia a minimalizovať jeho objem nahradením predvolených hodnôt.

Hlavnou výhodou popisného značenia je jeho flexibilita, pretože časti textu sú označené ako „čo sú“ (a nie „ako by sa mali zobraziť“) a v budúcnosti môže byť napísaný softvér, ktorý bude tieto fragmenty spracovávať spôsobom to ani nepredpokladali jazykoví dizajnéri. Napríklad hypertextové odkazy HTML, ktoré boli pôvodne určené pre používateľov na navigáciu cez kolekciu odkazov na webe, boli neskôr použité vo vyhľadávacích a indexovacích mechanizmoch na webe, na vyhodnotenie popularity zdrojov atď.

Popisné označenie tiež uľahčuje preformátovanie dokumentu, ak je to potrebné, pretože popis formátu nesúvisí s obsahom. Napríklad, kurzíva možno použiť buď na zvýraznenie textu, alebo označenie cudzích (alebo slangových) slov alebo na iné účely.

Ak sú však slová jednoducho zvýraznené (opisne alebo procedurálne) kurzívou, túto nejednoznačnosť nemožno úplne vyriešiť. Ak boli dva prípady na začiatku označené odlišne, každý sa môže preformátovať nezávisle od ostatných. Všeobecné označenie je iný názov pre popisné označenie.

V praxi prvky rôznych tried značiek zvyčajne koexistujú v akomkoľvek danom systéme. HTML napríklad obsahuje prvky označovania, ktoré sú procedurálne (b pre tučné písmo) a iné, ktoré sú popisné (funkcia „blockquote“ alebo „href“). HTML tiež obsahuje predelement, ktorý obmedzuje oblasť textu tak, aby bola umiestnená presne tak, ako je vytlačená.



Väčšina moderných systémov popisného značkovania zaobchádza s dokumentmi ako s hierarchickými štruktúrami (strommi) a tiež poskytuje určité prostriedky pre inline krížové odkazy. Preto je možné s takýmito dokumentmi zaobchádzať a spracovávať ich ako databázy, ktorých štruktúra je pomerne dobre definovaná (keďže však nemajú také prísne schémy ako relačné databázy, zvyčajne sa nazývajú „voľne štruktúrované databázy“).

S príchodom III. tisícročia vzrástol záujem o dokumenty nehierarchických štruktúr. Napríklad antická a náboženská literatúra má zvyčajne rétorickú alebo prozaickú štruktúru (príbeh, odsek, odsek atď.) a zahŕňa aj základné informácie (knihy, kapitoly, strofy, riadky). Keďže hranice týchto modulov sa často prekrývajú, nemožno ich úplne zakódovať iba pomocou systému označovania so stromovou štruktúrou. Systémy modelovania dokumentov, ktoré podporujú takéto rámce, zahŕňajú MECS, TEI Guidelines, LMNL a CLIX.

Termín „značenie“ pochádza z tradičnej praxe označovania rukopisov pred publikovaním (t. j. pridávanie symbolických príkazov na okraje a medzi riadky papierového rukopisu), po stáročia to robili vydavatelia (redaktori a korektori), ktorí si všímali, čo písmo, štýl a fragmenty textu by mali byť napísané vo veľkosti a potom bol rukopis odovzdaný sadzačom, ktorí ručne napísali text s prihliadnutím na značkovacie znaky.



V súčasnosti existuje veľa značkovacích jazykov (tabuľka 2.2), medzi najznámejšie patria DocBook,

MathML, SVG, Open eBook, XBRL atď. Sú určené hlavne na reprezentáciu rôznych textových dokumentov, ale špecializované jazyky možno použiť v mnohých iných oblastiach. Jednoznačne najznámejším značkovacím jazykom je HTML (Hypertext Markup Language), jeden zo základov WWW (World Wide Web).

Zvážte niektoré značkovacie systémy.

RUNOFF bol prvý systém formátovania textu, ktorý si získal významnú známosť. Bol vyvinutý v roku 1964 pre operačný systém CTSS Jerome H. Saltzerom pomocou assembleru MAD.

Produkt v skutočnosti pozostával z niekoľkých programov:

TYPSET, čo bol v podstate editor dokumentov;

RUNOFF - výstupný procesor.

RUNOFF poskytoval podporu pre stránkovanie a umiestnenie nadpisov, ako aj zarovnávanie textu. RUNOFF je priamym predchodcom formátovača dokumentov Multics, ktorý bol zas predchodcom formátovačov Unix (roff a nroff) a ich potomkov. Bol to tiež predchodca FORMAT pre OS/360 IBM a samozrejme implicitne pre všetky nasledujúce programy a systémy na spracovanie textu. Predpokladá sa, že názov pochádza z frázy populárnej v tom čase - Utekám kópiu.

TeX je skratka τεχνη (TEXNH - techne), gréckeho výrazu pre „umenie, remeslo, zručnosť“, zdroja pre slovo „technický“. V angličtine sa to vyslovuje „tech“ (ako pri slove technology).

TeX je sádzací systém vytvorený Donaldom Knuthom. Spolu s jazykom METAFONT pre popis písma a typom písma Computer Modern (Computer Modern typeface) bol navrhnutý pre dva hlavné účely - po prvé, poskytnúť každému používateľovi možnosť vytvárať vysokokvalitné knihy za rozumnú cenu práce a po druhé, aby takýto systém by poskytoval rovnaké výsledky na akomkoľvek počítači, teraz aj v budúcnosti. TeX je slobodný softvér populárny v akademickej komunite, najmä medzi matematikmi, počítačovými fyzikmi, ekonómami a v technických komunitách. Silne konkuruje ďalšiemu populárnemu formátovaču TeX, Unix troff, a používajú sa spolu v mnohých unixových inštaláciách.

TeX je uznávaný ako najlepší spôsob na vytváranie a tlač zložitých matematických vzorcov, no v súčasnosti sa používa aj na mnohé iné sadzobné úlohy, najmä vo forme LaTeXu a iného formátovacieho softvéru.

Príkazy TeX zvyčajne začínajú spätnou lomkou a sú zoskupené do blokov so zloženými zátvorkami. Takmer všetky syntaktické vlastnosti TeXu sa však dajú zmeniť počas vykonávania programu, čo iným programom sťažuje spracovanie vstupu z TeXu. TeX je jazyk založený na makrách a tokenoch a mnoho príkazov, vrátane tých najbežnejšie definovaných používateľom, sa pri vykonávaní rozširuje, až kým nezostanú a nevykonajú sa iba nerozšíriteľné tokeny.

Základná verzia TeXu obsahuje asi 300 inštrukcií nazývaných primitíva. Tieto nízkoúrovňové príkazy však používatelia priamo používajú len zriedka, väčšinu funkcionality poskytujú formátové súbory (kopírovanie pamäte TeX po načítaní veľkých sád makier). Pôvodný (predvolený) formát Nut, ktorý pridáva asi 600 príkazov, sa nazýva Plain TeX. Viac používaným formátom je LaTeX, pôvodne vyvinutý Leslie Lamport, ktorý obsahuje štýly dokumentov pre knihy, listy, snímky atď., a pridáva podporu pre odkazy a automatické číslovanie vzorcov a sekcií.

Ďalším široko používaným formátom je AMS-TeX, vyvinutý Americkou matematickou spoločnosťou a poskytuje oveľa viac priateľských príkazov, ktoré môžu vydavatelia upraviť tak, aby vyhovovali ich značke. Väčšina funkcií AMS-TeX môže byť aplikovaná na LaTeX pomocou "balíčkov" AMS (označovaných ako AMS-LaTeX).

Ak chcete napísať program na tlač reťazca "Programming" v Plain TeX, musíte vytvoriť súbor myfile.tex s nasledujúcim obsahom:

\bye % koniec súboru; nezobrazené v konečnom výstupe.

V predvolenom nastavení je všetko nasledujúce za znakom percenta na riadku komentárom, ktorý interpret TeX ignoruje. Ak sa na tomto súbore spustí TeX (napríklad zadaním tex myfile.tex v režime príkazového riadka), vytvorí sa výstupný súbor s názvom myfile.dvi, ktorý predstavuje obsah stránky vo formáte DVI (Device Independent Format). Výsledky je možné vytlačiť priamo z interaktívneho zobrazovača digitálneho videosystému alebo previesť do bežnejšieho formátu, ako je PostScript, pomocou programu dvips. Varianty TeXu, ako je PDFTeX, priamo vytvárajú súbory PDF.

Zvážte formátovanie matematického vzorca. Ak chcete napríklad napísať známy výraz pre koreň kvadratickej rovnice, môžete zadať:

Kvadratický vzorec je $-b \pm \sqrt(b^2 - 4ac) \over 2a$ \bye

Výsledkom bude nasledujúci text:

Niekoľko systémov na spracovanie dokumentov je založených na TeXe, najmä jadeTeX, ktorý používa TeX interne na tlač z výstupu DSSSL Engine Jamesa Clarka, a Texinfo, dokumentačný procesor systému GNU. TeX je od roku 1984 oficiálnou sadzbou pre operačný systém GNU. .

Sú známe početné rozšírenia a sprievodné programy pre TeX, medzi nimi BibTeX pre bibliografie (distribuované s LaTeXom), PDFTeX, ktorý obchádza formát DVI a výstupy priamo do formátu Adobe Systems' Portable Document Format (pdf), a Omega, ktorý umožňuje používať TeX sada znakov Unicode Väčšinu rozšírení TeX je možné získať zadarmo zo siete Comprehensive TeX Archive Network (CTAN). TeXmacs je editor literatúry faktu založený na TeX, podporuje režim plnej zhody (WYSIWYG) a je navrhnutý tak, aby bol kompatibilný s TeX a Emacs.

V mnohých technických oblastiach, ako je aplikovaná informatika, matematika a fyzika, sa TeX stal de facto štandardom. Mnoho tisíc kníh bolo vydaných pomocou TeXu vydavateľstvami ako Addison-Wesley, Cambridge University Press, Elsevier, Oxford University Press alebo Springer. Mnohé časopisy v týchto oblastiach sa vyrábajú pomocou TeX alebo LaTeX, pričom autori môžu posielať rukopisy vo formáte TeX.

Od verzie 3 používa TeX špecifický systém číslovania verzií, kde sú aktualizácie označené ďalšou číslicou za desatinným číslom, takže číslo verzie sa asymptoticky blíži k l. To je odrazom faktu, že TeX je veľmi stabilný a očakávajú sa len menšie aktualizácie. Aktuálna verzia TeXu je 3.141592; toto bola posledná aktualizácia v decembri 2002.

Každý dokument má tri zložky:

  • obsah;
  • štruktúra;
  • štýl.

Obsah dokumentu sa zvyčajne nepredkladá v ľubovoľnom poradí, ale má určitéštruktúru . Štruktúra je kompozícia a postupnosť častí (blokov) dokumentu.

Štýl Dokument definuje formu, v ktorej bude jeho obsah vyvedený na konkrétne zariadenie (napríklad tlačiareň alebo displej). Pojem štýl zahŕňa charakteristiky písma (názov, veľkosť, farba) celého výstupného dokumentu alebo jeho jednotlivých blokov, poradie stránkovania, usporiadanie blokov na stránkach a ďalšie parametre.

Značkovacie jazyky dokumentovsú umelé jazyky určené na opis štruktúry dokumentu a vzťahov medzi rôznymi objektmi štruktúry. Označovacie údaje sú tiež tzv metaúdaje.

Prvým značkovacím jazykom je jazyk GML .Jeho bezprostredným nástupcom bol jazyk SGML - štandardný zovšeobecnený značkovací jazyk, ktorý definuje pravidlá pre písanie značkovacích prvkov dokumentu.

Požiadavky na jazyk označovania dokumentu:

  1. Jazyk musí byť ľudsky čitateľný.
  2. Označené súbory dokumentov musia byť textové a zakódované pomocou znakov kódu ASCII
  3. Jazyk môže používať odkazy na interné zdroje (v tom istom dokumente) aj externé zdroje (v iných dokumentoch).

V SGML a podobné jazyky používajú špeciálne nástroje na označovanie dokumentov:

  • štruktúra dokumentu;
  • deskriptory alebo prvky a ich súvisiace atribúty;
  • entity (subjekty);
  • komentáre.

Dokumenty SGML majú stromovú štruktúru.

Deskriptory v SGML umiestnené na začiatku (úvodný deskriptor) a na konci (záverečný deskriptor) každého z nich prvok (položka).

Atribúty sú jednoduché symbolické konštrukcie ( položky ), ktoré sa pridávajú k prvkom, aby im umožnili spresniť činnosť deskriptora.

Všeobecné značkovacie jazyky ako SGML , umožňujú používanie atribútov, ku ktorým možno priradiť až 15 rôznych typov hodnôt, vrátane:

  • Odkazy na akékoľvek zdroje mimo dokumentu, ktoré sa zvyčajne označujú ako entity ( entity).
  • Jedinečný identifikátor ( ID ) prvok v dokumente.
  • Ukazovatele identifikátora ( ID ukazovatele ), ktoré majú krížové odkazy na tie prvky, ktoré majú ID uvedené v dokumente.
  • Značky prvkov alebo atribúty, ktoré definujú značky v obsahu prvku.
  • Údaje o znakoch ( znakové údaje) alebo CDATA , čo sú akékoľvek platné znaky, ktoré nemožno použiť ako hodnoty atribútov.

Komentáre umožňujú doplniť informácie, ktoré po spracovaní dokumentu nebudú viditeľné. Komentáre nemajú vplyv na rýchlosť spracovania dokumentu, nepovažujú sa a nespracúvajú sa ako súčasť obsahu SGML -dokument. Sú jednoducho zahrnuté v zdrojovom texte.

Na kontrolu zhody dokumentu s označením daného typu sa používajú špeciálne programy - analyzátory (analyzátory). Analyzátory sú buď samostatné programy, alebo sú súčasťou programu na spracovanie dokumentov SGML. Aby mohol syntaktický analyzátor vykonať validáciu dokumentu, vytvorí sa špeciálny dokument tzvdefinícia typu dokumentu

jazyk HTML je jazyková aplikácia SGML na použitie v internet s pevnou štruktúrou, pevnou množinou prvkov (deskriptorov) a ich atribútmi, ako aj pevnou množinou entít. rozšírený značkovací jazyk XML (Extensible Markup Language). jazyk XML je podmnožinou jazyka SGML , plne kompatibilný s ním.

Jazyk XML poskytuje širokú škálu funkcií, ktoré nie sú dostupné HTML

4 . 3 .2. Verzie a rozšírenia HTML a XML

Prvá verzia hypertextový značkovací jazyk– HTML (HyperText Markup Language), podobne ako samotnú webovú technológiu, vyvinul Tim Berners Lee v roku 1991. HTMLje implementácia pravidiel jazyka SGML pre typ dokumentu, ktorý bol pomenovaný Dokumenty HTML. Jazyk definuje pevnú štruktúru, pevnú množinu značiek a ich atribútov a pevnú množinu entít. Programy na spracovanie dokumentov HTML sa nazývajú web-prehliadače . Výsledkom spracovania dokumentu je Web-stránka zobrazené na obrazovke displeja.

V roku 1994 Internet Support Group - IETF ( Internet Engineering Task Force) vyvinul špecifikáciu HTML 2.0, ktorá odštartovala rozšírené prijatie jazyka HTML na webe internet . V tom istom roku vzniklo konzorcium W3C (World Wide Web Corporation), ktoré združuje 165 komerčných a akademických organizácií, vývojárov a používateľov (od jej vzniku až po súčasnosť je na čele tejto organizácie T. B. Lee). Najnovšia verzia špecifikácie HTML, HTML 4.01, bola prijatá konzorciom v decembri 1999.

  • Jazyk XML poskytuje širokú škálu funkcií, ktoré sa v HTML nenachádzajú.

Posledná verzia špecifikácie jazyka XML, XML 1.1, bola prijatá v apríli 2004.

Na základe jazyka XML W3C vyvinulo ďalší vývoj jazyka HTML – jazyk XHTML (rozšírený HTML - rozšírené HTML). Prvá verzia tohto jazyka, XHTML 1.0, bola prijatá v januári 2000. Táto verzia je vlastne preformulovaním HTML 4 ako aplikácie XML 1.0. Predpokladá sa, že ďalší vývoj jazyka HTML bude prebiehať v súlade so špecifikáciami XHTML.

Nová verzia XHTML, XHTML 1.1, bola prijatá W3C v máji 2001. Toto odporúčanie definuje nový typ dokumentu, modulový XHTML. Každý modul XHTML 1.1 obsahuje jeden alebo viac prvkov jazyka HTML a/alebo atribútov.

Podľa špecifikácie, dokumentov XHTML 1.1 pozostáva z nasledujúcich skupín modulov XHTML:

Základné moduly sú moduly, ktoré sa vyžadujú v akomkoľvek type dokumentu v súlade so špecifikáciou XHTML (táto skupina zahŕňa modulyŠtruktúra , Text , Hypertext a Zoznam ).

Modul apletu , obsahujúci jeden prvok< applet > (tento prvok je zastaraný a odporúča sa namiesto neho použiť prvok< object > ).

Moduly rozšírenia textu, ktoré definujú rôzne doplnkové moduly textového označovania (táto skupina zahŕňa moduly Prezentácia, úprava a obojsmerný text).

Moduly formulárov (táto skupina zahŕňa moduly Základné formuláre a formuláre).

Tabuľkové moduly (táto skupina zahŕňa moduly Základné tabuľky a tabuľky).

Obrazový modul A, ktorý poskytuje základné možnosti vkladania obrázkov (tento modul možno v niektorých implementáciách použiť aj nezávisle na obrazových mapách na strane klienta).

Modul Obrazová mapa na strane klienta , ktorý poskytuje prvky pre obrázkové mapy na strane klienta (tento modul vyžaduje zahrnutie modulu Obrázok).

Objektový modul A, ktoré poskytuje podporu pre zahrnutie objektov na všeobecné použitie.

Modul rámov A, ktorý poskytuje prvky súvisiace s rámami.

URL (relatívne adresy URL dokumentu sa vypočítajú pomocou tohto prvku).

Modul identifikácie názvu , ktorý sa používa na identifikáciu konkrétnych prvkov v dokumentoch HTML.

Starší modul A, ktoré špecifikuje prvky a atribúty, ktoré sa už neodporúčajú v predchádzajúcich verziách HTML a XHTML a už sa neodporúčajú.

4. 3.3. Typy HTML a XHTML štruktúr

Podľa špecifikácie HTML 4.01 pre dokumenty HTML definuje tri štruktúry , popísané tromi DTD. Vývojári web -strany musia vo svojich dokumentoch obsahovať jedno z troch typov vyhlásení. Rozdiel medzi DTD spočíva v prvkoch, ktoré podporujú. Oznámenie DTD by mal byť umiestnený na samom začiatku dokumentu.

HTML 4.01 Strict DTD (presná definícia) zahŕňa všetky prvky a atribúty, ktoré nie sú prepísané ( zastarané ) a nepoužívajú sa v zarámovaných dokumentoch.

HTML 4.0 Transitional DTD definícia (prechodná definícia) zahŕňa všetky prvky zahrnuté v strict DTD , ako aj nevybrané prvky a atribúty.

Definícia HTML 4.0 Frameset DTD (definícia pre snímky) zahŕňa okrem prvkov prechodnej DTD aj snímky.

Prvý riadok dokumentu HTML , definované v súlade so špecifikáciou XHTML

Tento riadok určuje verziu, ktorá sa má použiť XML a kódovanie znakov dokumentu. Pri kódovaní znakov v XML používa sa dvojbajtový kód Unicode . Ako hodnoty parametrov kódovanie najčastejšie používané kódovania UTF-8 , v ktorom sú hodnoty prvých 128 znakov reprezentované v jednobajtovom kódovaní, znaky najbežnejších jazykov (vrátane ruštiny a ukrajinčiny) sú reprezentované dvoma bajtmi a zvyšné znaky sú reprezentované tromi bajtov. Zakódované UTF-16 všetky znaky sú reprezentované dvoma bajtmi (toto kódovanie sa odporúča pre ruské a ukrajinské dokumenty HTML).

značkovacie jazyky) je súbor špeciálnych inštrukcií, nazývaných tagy, navrhnutých na vytvorenie štruktúry v dokumentoch a definovanie vzťahov medzi rôznymi prvkami tejto štruktúry. Inými slovami, označenie ukazuje, ktorá časť dokumentu je nadpis, ktorý podnadpis, čo treba považovať za meno autora atď. Označenie sa delí na štylistické, štrukturálne a sémantické.

Štylistické označenie

Štylistické značenie je zodpovedné za vzhľad dokumentu. Napríklad v HTML tento typ značenia zahŕňa značky ako napr (kurzíva), (tučné), (zdôrazniť) (prečiarknutý text) atď.

Štrukturálne označenie

Štrukturálne značenie definuje štruktúru dokumentu. V HTML sú pre tento typ značiek napríklad značky (odsek), (názov),

(sekcia) atď.

Sémantické označenie

Sémantické značenie informuje o obsahu údajov. Príklady tohto typu značiek sú značky. (názov dokumentu), (kód, používaný pre zoznamy kódov), (premenné),

(adresa autora).

Základné pojmy akéhokoľvek značkovacieho jazyka sú značky, prvky a atribúty.

Tagy a prvky.

Významy značiek a prvkov sú často zamieňané.

Značky alebo kontrolné značky, ako sa tiež nazývajú, slúžia ako pokyny pre renderovací program na strane klienta, ktorý sa zaoberá obsahom značky. Na zvýraznenie značky vzhľadom na hlavný obsah dokumentu sa používajú lomené zátvorky: značka začína znakom menej ako (<) и завершается знаком "больше" (>), v ktorej je umiestnený názov inštrukcií a ich parametre. Napríklad v HTML je značka označuje, že nasledujúci text by mal byť kurzívou.

Prvok sú značky spolu s ich obsahom. Nasledujúca konštrukcia je príkladom prvku:

Tento text je napísaný kurzívou .

Prvok pozostáva z otváracej značky (v našom príklade je to značka ), obsah značky (v príklade ide o text „Toto je text v kurzíve“) a uzatváraciu značku(), hoci niekedy v HTML môže byť koncová značka vynechaná.

Atribúty

Atribúty sa používajú na zadanie akýchkoľvek parametrov, ktoré špecifikujú charakteristiky tohto prvku pri definovaní prvku.

Atribúty pozostávajú z páru „meno“ = „hodnota“, ktorý je možné špecifikovať pri definovaní prvku v počiatočnom tagu. Naľavo a napravo od znamienka rovnosti môžete nechať medzery. Hodnota atribútu je špecifikovaná ako reťazec uzavretý v jednoduchých alebo dvojitých úvodzovkách.

Akákoľvek značka môže mať atribút, ak je tento atribút definovaný.

Keď sa použije atribút, prvok má nasledujúcu formu:

<имя_тега атрибут = "значение"> obsah značky

Text je zarovnaný na stred

Jedna otváracia značka môže obsahovať niekoľko atribútov, napríklad:

Veľkosť a farba textu špecifikovaná

História vývoja značkovacích jazykov.

Koncept hypertextu zaviedol W. Bush v roku 1945 a od 60. rokov sa začali objavovať prvé aplikácie využívajúce hypertextové dáta. Táto technológia však dostala svoj hlavný rozvoj, keď vznikla skutočná potreba mechanizmu na kombinovanie rôznych informačných zdrojov, ktoré poskytujú možnosť vytvárať a prezerať nelineárny text.

V roku 1986 ISO schválila štandardizovaný zovšeobecnený značkovací jazyk. Tento jazyk je určený na vytváranie ďalších značkovacích jazykov, definuje povolenú množinu značiek, ich atribúty a vnútornú štruktúru dokumentu. Takto je možné vytvárať vlastné značky súvisiace s obsahom dokumentu. Teraz je zrejmé, že takéto dokumenty sa ťažko interpretujú bez definície značkovacieho jazyka, ktorá je uložená v definícii typu dokumentu (DTD). DTD zoskupila všetky jazykové pravidlá v štandarde SGML. Inými slovami, DTD popisuje vzťah medzi značkami a pravidlami ich aplikácie. Okrem toho je pre každú triedu dokumentov definovaný vlastný súbor pravidiel, ktoré popisujú gramatiku zodpovedajúceho značkovacieho jazyka. Iba pomocou DTD je teda možné skontrolovať správne použitie tagov, a preto ho treba zaslať spolu s dokumentom SGML alebo zahrnúť do dokumentu.

V tom čase okrem SGML existovalo niekoľko ďalších podobných jazykov, ktoré si navzájom konkurovali, avšak popularita (HTML, ktorý je jedným z jeho potomkov) poskytla SGML nepopierateľnú výhodu oproti svojim náprotivkom.

Pomocou SGML môžete opísať štruktúrované dáta, organizovať informácie obsiahnuté v dokumentoch a prezentovať tieto informácie v nejakom štandardizovanom formáte. Ale kvôli svojej zložitosti sa SGML používal hlavne na opis syntaxe iných jazykov a len málo aplikácií sa zaoberalo priamo dokumentmi SGML. SGML sa zvyčajne používa len vo veľkých projektoch, napríklad na vytvorenie jednotného systému správy dokumentov pre veľkú spoločnosť.

Značkovací jazyk HTML je oveľa jednoduchší a pohodlnejší ako SGML, jeho pokyny sú primárne určené na riadenie procesu zobrazovania obsahu dokumentu na obrazovke. HTML ako spôsob označovania technických dokumentov vytvoril Tim Berners-Lee v roku 1991 špeciálne pre vedeckú komunitu. Spočiatku to bola len jedna z aplikácií SGML.

Napriek tomu, že HTML dokáže iba klasifikovať časti dokumentu a zabezpečiť jeho správne zobrazenie v prehliadači, je to najobľúbenejší značkovací jazyk. Je to preto, že HTML sa dá pomerne ľahko naučiť. Jediné, čo musíte urobiť, je naučiť sa HTML príkazy. DTD pre HTML je uložený v prehliadači. Okrem toho je potrebné poznamenať, že HTML je navrhnuté tak, aby fungovalo na rôznych platformách. Má však niekoľko významných obmedzení:

  1. HTML má pevnú sadu značiek a túto sadu nemožno rozšíriť ani zmeniť;
  2. Značky jazyka HTML zobrazujú iba to, ako majú byť údaje prezentované, teda vzhľad dokumentu. HTML nenesie informácie o význame obsahu obsiahnutého v značkách, štruktúre dokumentu.

Logické a vizuálne značenie

Rozlišujte medzi logickým a vizuálnym značením. V prvom prípade ide len o to, akú úlohu zohráva táto časť dokumentu v jeho všeobecnej štruktúre (napríklad „tento riadok je nadpis“). Druhý presne definuje, ako bude tento prvok zobrazený (napríklad „tento riadok má byť zobrazený tučným písmom“). Myšlienka značkovacích jazykov spočíva v tom, že vizuálna reprezentácia dokumentu by sa mala automaticky odvíjať od logického označenia a mala by byť nezávislá od jeho bezprostredného obsahu. To zjednodušuje automatické spracovanie dokumentu a jeho zobrazenie v rôznych podmienkach (napríklad ten istý súbor môže byť zobrazený inak na obrazovke počítača, mobilu a tlače, keďže vlastnosti týchto výstupných zariadení sa výrazne líšia). Toto pravidlo sa však často porušuje: napríklad pri vytváraní dokumentu v editore, akým je MS Word, môže používateľ zvýrazniť nadpisy tučným písmom, ale nikde nenaznačiť, že tento riadok je nadpis.

Príklady značkovacích jazykov

Značkovacie jazyky sa používajú všade tam, kde sa vyžaduje formátovaný textový výstup: v typografii (SGML, TeX, PostScript, PDF), používateľských rozhraniach počítačov (Microsoft Word, OpenOffice, troff), World Wide Web (HTML, XHTML, XML, WML, VML, PGML, SVG, XBRL).

Ľahké značkovacie jazyky

Jazyky určené na jednoduché a rýchle písanie textu v jednoduchom textovom editore sú tzv ľahký(sk:Odľahčený značkovací jazyk). Vlastnosti takýchto jazykov:

  • Minimálne vlastnosti.
  • Malá sada podporovaných značiek.
  • Ľahko sa učí.
  • Zdrojový text v takomto jazyku sa číta rovnako ľahko ako hotový dokument.

Používajú sa tam, kde si človek musí pripraviť text v bežnom textovom editore (blogy, fóra, wiki), alebo tam, kde je dôležité, aby text mohol čítať aj používateľ s bežným textovým editorom. Tu je niekoľko bežne používaných ľahkých značkovacích jazykov:

  • Označenie Wiki (pozri Wikipedia:Ako upravovať články)
  • Rôzne autodokumentačné systémy (napr. Javadoc).

Príbeh

Termín „značka“ (ako výsledok procesu s rovnakým názvom, eng. značkovanie) pochádza z anglického výrazu „ značkovanie"("označovanie (ako proces)", dosl. "označovanie, označovanie"), prevzaté z tradičnej vydavateľskej praxe umiestňovania špeciálnych podmienených značiek na okraje a do textu rukopisu alebo korektúry pred jeho odoslaním do tlače. „Značkovací muži“ teda označovali typ písma, štýl a veľkosť písma pre každú časť textu. O značenie textu sa dnes starajú redaktori, korektori, grafici – a, samozrejme, samotní autori.

GenCode

Myšlienku používania značkovacích jazykov v počítačovom spracovaní textu s najväčšou pravdepodobnosťou prvýkrát predstavil William Tunnicliffe. William W. Tunnicliffe ) na konferencii v roku 1967. Sám nazval svoj návrh „univerzálne kódovanie“ (angl. generické kódovanie). Počas sedemdesiatych rokov viedol Tunnicliffe vývoj štandardu GenCode pre vydavateľský priemysel a neskôr sa stal predsedom výboru Medzinárodnej organizácie pre normalizáciu (ISO). Medzinárodná organizácia pre štandardizáciu ), ktorý vytvoril SGML, prvý deskriptívny značkovací jazyk. Brian Reid (ur. Brian Reid ) vo svojej dizertačnej práci, ktorú obhájil v roku 1980 na Carnegie University (Ing. Univerzita Carnegie Mellon ), pri vývoji navrhovanej koncepcie, uskutočnila praktickú implementáciu deskriptívneho značenia.

Výskumník IBM Charles Goldfarb je však dnes bežne označovaný za „otca“ značkovacích jazykov. Charles Goldfarb ). Základný koncept k nemu prišiel v roku 1969 pri práci na primitívnom systéme správy dokumentov, ktorý bol určený pre právnické firmy. V tom istom roku sa podieľal na vytvorení jazyka IBM GML, ktorý bol prvýkrát predstavený v roku 1973.

Niektoré skoré implementácie počítačových značkovacích jazykov možno nájsť v typografických nástrojoch UNIX, ako sú troff a nroff. Umožňujú vkladať príkazy na formátovanie do textu dokumentu, aby ste ho naformátovali podľa požiadaviek editora.

Dostupnosť publikačného softvéru s funkciou WYSIWYG (angl. "to, čo vidíte, je to, čo dostanete" to, čo vidíte, je to, čo dostanete) nahradilo väčšinu týchto jazykov medzi bežnými používateľmi, hoci seriózna publikačná práca stále používa značkovanie pre špecifické nevizuálne textové štruktúry a editory WYSIWYG teraz najčastejšie ukladajú dokumenty vo formátoch založených na značkovacích jazykoch. .

Τ Ε Χ

Ďalším dôležitým publikačným štandardom je Τ Ε Χ , ktorú vytvoril a následne zdokonalil Donald Knuth v 70. a 80. rokoch dvadsiateho storočia. Τ Ε Χ spojili špičkové možnosti formátovania textu a popisu písiem, najmä pre matematické knihy profesionálnej kvality. V súčasnosti Τ Ε Χ je de facto štandardom v mnohých vedných odboroch. Okrem Tech existuje LaTeX, čo je široko používaný popisný značkovací systém založený na Τ Ε Χ .

Scribe, GML a SGML

Na začiatku 80-tych rokov viedla myšlienka, že značkovanie by sa malo zamerať na štrukturálne aspekty dokumentu a malo by ponechať vonkajšiu reprezentáciu dokumentu na interpreta, k vytvoreniu SGML. Jazyk bol vyvinutý výborom pod vedením Goldfarba. Skombinoval nápady z mnohých zdrojov, vrátane projektu Tunnikofflick, GenCode. Sharon Adler, Anders Berglund a James A. Marke boli tiež kľúčovými členmi výboru SGML.

SGML presne definovalo syntax pre zahrnutie značiek do textu a tiež samostatne popísalo, ktoré značky sú povolené a kde (DTD - Document Type Definition). To umožnilo autorom vytvárať a používať akékoľvek značky, ktoré chceli, vybrať si, ktoré značky použiť, a dať im mená v bežnom jazyku. SGML by sa teda malo považovať za metajazyk; z nej pochádza viacero špeciálnych značkovacích jazykov. Koniec 80. rokov bol najvýznamnejší pri vzniku nových značkovacích jazykov založených na SGML, ako sú TEI a DocBook.

V roku 1986 bol SGML publikovaný ako medzinárodná norma podľa ISO 8879. SGML našiel široké uplatnenie a bol široko používaný vo veľmi veľkých projektoch. Vo všeobecnosti sa však zistilo, že je ťažkopádny a ťažko sa učí, vedľajším účinkom jazyka bolo, že sa snažil robiť príliš veľa a bol príliš flexibilný. Napríklad SGML vytvorilo koncové značky (alebo počiatočné značky alebo dokonca oboje), ktoré neboli vždy potrebné, pretože sa domnievalo, že toto označenie bude pridané manuálne pracovníkmi podpory projektu, ktorí by ocenili úsporu stlačenia klávesov.

HTML

V roku 1991 bolo používanie SGML obmedzené na obchodné programy a databázy, zatiaľ čo nástroje WYSIWYG (ktoré ukladali dokumenty v proprietárnych binárnych formátoch) sa používali na iné programy na spracovanie dokumentov. Situácia sa zmenila, keď sa Sir Tim Berners-Lee dozvedel o SGML od svojho kolegu Andersa Berglanda. Anders Berglund ) a ďalší v CERN-e použili na generovanie HTML syntax SGML. Bolo to podobné ako v iných značkovacích jazykoch založených na syntaxi SGML, ale začať bolo oveľa jednoduchšie, dokonca aj pre vývojárov, ktorí to nikdy neurobili. Steven DeRose tvrdil, že HTML používajúce popisné značenie (a najmä zo SGML) bolo hlavným faktorom vo vývoji webu, pretože bol navrhnutý tak, aby bol flexibilný a rozšíriteľný (ako aj ďalšie faktory vrátane koncepcie adries URL a bezplatného používania prehliadačmi). ). HTML je dnes najatraktívnejším a najpoužívanejším značkovacím jazykom na svete.

Niektorí počítačoví vedci však spochybňujú status HTML ako značkovacieho jazyka. Ich hlavným argumentom je, že HTML obmedzuje umiestnenie značiek tým, že vyžaduje, aby boli obe značky vnorené do iných značiek alebo do hlavných značiek dokumentu. V dôsledku toho títo vedci považujú HTML za kontajnerový jazyk podľa hierarchického modelu.

XML

XML (Extensible Markup Language) je dnes široko používaný meta značkovací jazyk. XML vyvinulo World Wide Web Consortium vo výbore, ktorému predsedal Jon Bosak. Hlavným účelom XML je byť jednoduchší ako SGML a zamerať sa na konkrétny problém – dokumenty na webe. XML je metajazyk ako SGML, používatelia môžu vytvárať ľubovoľné značky, ktoré chcú (preto „rozšíriteľné“). Vzostup XML pomohol, pretože každý dokument XML mohol byť napísaný rovnakým spôsobom ako dokument SGML a programy a používatelia používajúci SGML mohli pomerne jednoducho migrovať na XML.

XML však stratilo mnoho funkcií SGML zameraných na človeka, ktoré uľahčovali jeho používanie (až kým sa nezvýšilo množstvo značiek a čitateľnosť a upraviteľnosť sa neobnovili na rovnakú úroveň). Ďalšie vylepšenia opravili niektoré problémy SGML na medzinárodnej úrovni a umožnili hierarchicky analyzovať dokument, aj keď nebolo k dispozícii žiadne DTD.

XML bol navrhnutý predovšetkým pre pološtruktúrované prostredia, ako sú dokumenty a publikácie. Výsledkom však bolo sladké miesto medzi flexibilitou a jednoduchosťou a mnohí používatelia si ho rýchlo osvojili. V súčasnosti sa XML široko používa na prenos údajov medzi programami. Podobne ako HTML ho možno opísať ako „kontajnerový“ jazyk.

XHTML

Od januára 2000 sú všetky odporúčania pre W3C založené skôr na XML ako na SGML, bola navrhnutá skratka XHTML (Extensible HyperText Markup Language - Extensible HyperText Markup Language). Špecifikácie jazyka vyžadovali, aby dokumenty XHTML boli naformátované ako dokumenty XML, čo umožňuje použitie XHTML pre jasnejšie a presnejšie dokumenty pomocou značiek z HTML.

Jedným z najpozoruhodnejších rozdielov medzi HTML a XHTML je pravidlo, že všetky značky musia byť zatvorené: prázdne značky, napr.<br/> musia byť obe uzavreté štandardnou koncovou značkou alebo špeciálnou položkou:<br/> (medzera pred „/“ v záverečnej značke je voliteľná, ale často sa používa, pretože ju používajú niektoré prehliadače staršie ako XML a tiež analyzátory SGML). Ostatné atribúty v značkách musia byť v úvodzovkách. Nakoniec, všetky značky a názvy atribútov musia byť napísané malými písmenami, aby sa čítali správne; HTML nerozlišuje veľké a malé písmená.

Ďalší vývoj založený na XML

V súčasnosti sa používa veľa vývojov založených na XML, ako napríklad RDF (Resource Description Framework), XFORMS, DocBook, SOAP a OWL (Ontology Web Language).

Zvláštnosti

Spoločným znakom všetkých značkovacích jazykov je, že v dátovom toku alebo súbore miešajú text dokumentu s pokynmi na značkovanie. Nie je to potrebné, je možné izolovať značky od textu pomocou ukazovateľov, štítkov, identifikátorov alebo iných koordinačných metód. Toto „oddelené označenie“ je typické pre internú reprezentáciu programov, ktoré pracujú so značkovacími dokumentmi. Vložené alebo „medziriadkové“ značenie je však akceptované inde. Tu je napríklad malý kúsok textu označený kódom HTML:

Anatidae

Rodina Anatidae zahŕňa kačice, husi a labute, ale nieúzko príbuzní krikľúni.

Kód inštrukcie označenia (známy ako značky) obklopený lomenými zátvorkami<как здесь>. Text medzi týmito pokynmi je textom dokumentu. Kódy h1, p a em- príklady štrukturálneho označenia, popisujú polohu, účel alebo význam textu v nich obsiahnutého.

Presnejšie, h1 znamená „toto je nadpis prvej úrovne“, p znamená „toto je odsek“ a em znamená „toto je podčiarknuté slovo alebo fráza“. Tlmočník môže použiť tieto pravidlá alebo štýly na zobrazenie rôznych častí textu pomocou rôznych typov písma, veľkostí písma, odsadenia, farby alebo iných štýlov podľa potreby. Značka ako h1 môže byť napríklad znázornená veľkým, tučným typom písma alebo v dokumente s textom s jednotnou medzerou (ako písací stroj) môže byť podčiarknutá alebo nemusí vôbec meniť vzhľad.

Pre kontrast označte i v HTML, príklad vizuálneho označenia; zvyčajne sa používa na identifikáciu špecifických prvkov textu (v tomto bloku použite kurzívu) bez vysvetlenia.

TEI (Tex Encoding Initiative) zverejnila komplexné usmerňujúce dokumenty špecifikujúce, ako kódovať text v prospech ľudstva a vedeckých spoločností. Tieto príručky sa používali na kódovanie historických dokumentov, konkrétnych prác vedcov, periodík atď.

Alternatívne použitia

Zatiaľ čo sa rozvíjala myšlienka používania značkovacích jazykov s textovými dokumentmi, zvýšila sa používanie značkovacích jazykov v iných oblastiach, čo naznačuje, že sa používajú na reprezentáciu rôznych typov informácií vrátane zoznamov skladieb, vektorovej grafiky, webových služieb. , používateľské rozhrania. Väčšina týchto aplikácií je založená na XML, pretože ide o vysoko štruktúrovaný a rozšíriteľný jazyk.

Technická príručka prekladateľa

značkovací jazyk- 06/23/33 markup language : Jazyk pozostávajúci zo vstavaných príkazov, ktoré poskytujú podporu pre označovanie textu počas jeho spracovania.