Kategória: python

Zhlukovanie dokumentov podľa silných stránok SWOT

python | Tamás Szőke | 28. júna 2020

SWOT analýza je dôležitým vstupom pre tvorbu rozvojových stratégií PHSR. Tento notebook je o skúmaní podobnosti silných stránok obcí. Výsledkom sú zhluky obcí, ktoré majú podobné silné stránky.

Počítanie n-gramov vo swot analýzach

python | Tamás Szőke | 24. júna 2020

Príklad frekvenčnej analýzy n-gramov vo SWOT analýzach (s aj bez POS tagov). V oblasti výpočtovej lingvistiky a pravdepodobnosti je n-gram súvislou sekvenciou n položiek z danej vzorky textu. Položkami môžu byť fonémy, slabiky, písmená, slová alebo bázové páry podľa aplikácie. V našom prípade sú to bo a tri gramy slov.

Lematizácia SWOT

python | Tamás Szőke | 24. júna 2020

Výsledkom dolovania SWOT tabuliek sú textové reťazce nachádzajúce sa v príslušných kvadrantoch SWOT analýzy. Jednotlivé slová (tokeny) tvoriace tieto textové reťazce sa v nich nachádzajú v rôznych gramatických tvaroch. Ak ich chceme ďalej analyzovať tak potrebujeme najprv získať základné alebo “slovníkové” tvary slov. Tento proces sa volá lematizácia.

Extrakcia vízie rozvoja územia

python | Tamás Szőke | 17. júna 2020

V nasledujúcopm príklade použijeme predpripravené dáta a pomocou regulérnych výrazov vyextrahujeme víziu rozvoja z jednotlivých dokumentov PHSR.

Dolovanie SWOT

python | Tamás Szőke | 17. júna 2020

SWOT analýza by sa v dokumentoch mala objaviť ako tabuľka o rozmere 4×4. V realite sú to ale tabuľky s variabilným počtom stĺpcov a riadkov a s variabilnou pozíciou elementov SWOT. V niektorých prípadoch je SWOT v dokumentoch uvedený ako súvislý text a absentuje tabuľková forma.

Prítomnosť SWOT analýzy v dokumentoch PHSR

python | Tamás Szőke | 17. júna 2020

Jedným z kľúčových obsahových prvkov dokumentov PHSR je SWOT analýza, ktorá slúži na definovanie východísk pre návrhovú časť PHSR.

Príklad extrakcie formuláru U1

python | Tamás Szőke | 17. júna 2020

Formulár U1 – Zámer spracovania PHSR. Obsahuje informácie o pláne na vypracovanie PHSR. Táto tabuľka sa tvorí pred samotným spracovaním PHSR a popisuje predpokladaný spôsob spracovania dokumentu, rámcový harmonogram a predpokladané náklady.

Príprava tabuliek na extrakciu dát

python | Tamás Szőke | 17. júna 2020

V predchádzajúcich skriptoch sme súbory korpusu PHSR homogenizovali na formát pdf a následne sme z nich vyextrahovali tabuľky do samsotatných excelovských súborov. Samostatné súbory sú užitočné pre manuálne overenie výsledkov následných algoritmov ale nie sú optimálne pre automatizované spracovanie. Preto isch skonsolidujeme do jedného objektu.

Extrakcia surových tabuliek

python | Tamás Szőke | 17. júna 2020

Dokumenty PHSR obsahujú množstvo tabuliek a formulárov s dôležitým obsahom avšak s výraznou variabilitou. Testovali sme viacej nástrojov a knižníc až sme nakoniec narazili na camelot. Tento zošit obsahuje príklad použitia camelotu na extrakciu tabuliek z pdf súborov.

Prítomnosť vzorových tabuliek

python | Tamás Szőke | 17. júna 2020

Ďalšou úrovňou overenia konformity bolo overenie prítomnosti formulárov v súlade s metodikou platnou pre PO 2014-2020. Na rozdiel od základných obsahových častí PHSR, ktoré sú priamo uvedené v zákone, formuláre vyplývajúce z metodiky nie sú záväzné.