Browsing by Author "Stanisz, Tomasz"
Results Per Page
Sort Options
Item Complexity characteristics of punctuation usage patterns in written language(Institute of Nuclear Physics Polish Academy of Sciences, 2022) Stanisz, Tomasz; Drożdż, Stanisław; Hołyst, Janusz; Kułakowski, KrzysztofJęzyk naturalny posiada szereg specyficznych cech, które pozwalają traktować go jak układ złożony. Ma on skomplikowaną, hierarchiczną organizację, a właściwości i oddziaływania charakterystyczne dla poszczególnych jego struktur niekoniecznie wynikają wprost z właściwości elementów składających się na te struktury. Tematem pracy jest badanie tych aspektów organizacji języka naturalnego, które w użyteczny sposób można opisywać za pomocą formalizmu stosowanego do opisu układów złożonych. Przedmiotem analizy jest język w formie pisanej - którego próbkę stanowią teksty literackie w kilku językach europejskich (angielskim, niemieckim, francuskim, włoskim, hiszpańskim, polskim i rosyjskim). Pierwszą badaną kwestią są rozkłady potęgowe opisujące częstość występowania słów w tekstach oraz wpływ, jaki na kształt tych rozkładów ma uwzględnienie częstości występowania znaków interpunkcyjnych. Kolejnym zagadnieniem jest reprezentacja tekstów w postaci szeregów czasowych, skonstruowanych w oparciu o podział na zdania lub na fragmenty pomiędzy kolejnymi znakami interpunkcyjnymi. Okazuje się, że szeregi te posiadają cechy często spotykane w sygnałach generowanych przez układy złożone - obecność korelacji długozasięgowych i związanych z nimi odpowiednich struktur fraktalnych lub multifraktalnych. Co więcej, analiza podziału tekstów na fragmenty wyznaczone przez interpunkcję pozwala zaobserwować, że odległości pomiędzy kolejnymi znakami interpunkcyjnymi można opisać za pomocą dyskretnego rozkładu Weibulla; stanowi to pewną statystyczną prawidłowość, której podlegają teksty we wszystkich przebadanych w pracy językach. Ostatnia część rozprawy poświęcona jest sieciom lingwistycznym (sieciom złożonym reprezentującym wybrane aspekty organizacji języka) i koncentruje się na sieciach sąsiedztwa słów - których struktura odzwierciedla współwystępowanie słów w tekstach. Rezultaty badania sieci sąsiedztwa słów wskazują, że wielkości charakteryzujące takie sieci mogą być wykorzystywane do klasyfikacji tekstów, na przykład w rozpoznawaniu autorstwa. Dodatkowo, metody analizy sieci zostały zastosowane do sieci lingwistycznych innego typu, konkretnie do tak zwanych sieci skojarzeń pomiędzy słowami, skonstruowanych w oparciu o dane pochodzące z odpowiednich eksperymentów psycholingwistycznych. W sieciach tych zostały zidentyfikowane złożone struktury, istotnie różne od tych, które można zaobserwować w sieciach przypadkowych. We wszystkich przeprowadzonych analizach dotyczących języka pisanego kluczowym zagadnieniem jest interpunkcja i jej wpływ na mierzalne cechy języka. W analizie częstości występowania słów znaki interpunkcyjne są traktowane jak słowa, co prowadzi do zwiększenia zgodności rozkładu częstości z rozkładem potęgowym, określonym prawem Zipfa. Wzięcie pod uwagę interpunkcji w sieciach sąsiedztwa słów dostarcza użytecznej informacji, której uwzględnienie istotnie poprawia efektywność identyfikacji cech rozróżniających teksty. Z rezultatów analizy szeregów czasowych wynika, że organizacja, jaką do języka wprowadza interpunkcja, ma zarówno właściwości w znacznym stopniu uniwersalne (wspólne dla różnych tekstów), jak i pewne cechy charakterystyczne dla poszczególnych tekstów - na przykład dla tekstów w konkretnym języku.