Vědci mohou podle textu určit autora. Nová technologie najde uplatnění i v kriminalistice

Vladimír Matloch, Dan Faltýnek a Petr Kubečka z Palackého univerzity v Olomouci

Vědci z Univerzity Palackého v Olomouci analyzovali frekvenci slov v textech spisovatelů, politiků i vrahů. Vyvinuli technologii, která dokáže pomocí rozboru textu určit jeho autora. A nejen to, také jeho psychické rozpoložení či sociální prostředí. K analýze stačí 200 až 500 slov. Text je jakýmsi otiskem autora.

Poznatky, které získali, vědci využili při tvorbě postupu pro profilování osob. Technologii je možné využít v přizpůsobení internetového obsahu konkrétnímu uživateli, v reklamě, personalistice, psychologii, kriminalistice i v oblasti bezpečnosti státu. Novinku už eviduje patentový úřad Spojených států, řekl Dan Faltýnek z katedry obecné lingvistiky Univerzity Palackého.

Typické slovo pro Václava Havla 'jako konečně'

Frekvenčními analýzami textu se vědci zabývají už několik let. Metoda se dá použít například při určení autorství psaného slova. Zatím se zaměřovali na slova s vyšší frekvencí výskytu. Teď zvolili odlišný postup. Autora je možné poznat i podle opakujících se slov, vysvětlil Dan Faltýnek.

Text písně Bratříčku zavírej vrátka od Karla Kryla | Foto: ČT24

"Lidé mnohem víc opakují konkrétní témata, konkrétní pocity. Využili jsme to jednak pro jejich identifikaci a začali jsme je používat pro jejich profilování. Nezjistíme jen to, zda je dotyčný extrovert či introvert, ale víme, co je pro něj citlivé. Například Václav Havel kladl důraz na slovo 'jako konečně', americký vrah používal slovo 'efekt' nebo slovo 'spolupráce' používal náš kolega."

Postupem času tak vědci vyvinuli technologii, která umožňuje najít nízko frekventovaná klíčová slova, která jsou společně s důrazem na postoj řečníka k určitému tématu jakýmsi otiskem autora.

K analýze stačí 200 až 500 slov

Objev je podle Faltýnka převratný, neboť dosavadní metody takto vysokou jistotu autorství textu nepřinášely. Olomouckým vědcům díky nové technologii stačí analyzovat pouze 200 až 500 slov, aby mohli s určitou mírou přesnosti dokázat autorství. Pokud mají k dispozici 1500 slov, tak jsou schopni autorství zaručit s velmi vysokou mírou pravděpodobnosti. Dříve si byli jisti až po analýze 6000 slov. Technologie je navíc jazykově nezávislá, doplňuje Ondřej Kučera z katedry asijských studií.

Foto: fancycrave1,  Pixabay,  CC0 1.0 DEED

"Pokud je technologie otestována na angličtině, čínštině a češtině, tak se domníváme, že i v případě těch ostatních jazyků bude fungovat dobře a kvalitně."

Opakování určitých slov může poukázat na psychický stav člověka, nebo jeho sociální prostředí. Vědce například šokovaly výsledky analýzy manifestu amerického vraha, ze které vyplynul jeho motiv i místo následného násilného činu.

Novou technologii lze využít v personalistice, soudnictví nebo při komunikaci s ohroženými skupinami. Své místo najde také v boji proti extremismu, terorismu či dezinformacím, jelikož umožňuje určit inkriminované osoby.