SWOT analýza je dôležitým vstupom pre tvorbu rozvojových stratégií PHSR. Tento notebook je o skúmaní podobnosti silných stránok obcí. Výsledkom sú zhluky obcí, ktoré majú podobné silné stránky.
Otvorené
Stratégie
SWOT analýza je dôležitým vstupom pre tvorbu rozvojových stratégií PHSR. Tento notebook je o skúmaní podobnosti silných stránok obcí. Výsledkom sú zhluky obcí, ktoré majú podobné silné stránky.
Príklad frekvenčnej analýzy n-gramov vo SWOT analýzach (s aj bez POS tagov). V oblasti výpočtovej lingvistiky a pravdepodobnosti je n-gram súvislou sekvenciou n položiek z danej vzorky textu. Položkami môžu byť fonémy, slabiky, písmená, slová alebo bázové páry podľa aplikácie. V našom prípade sú to bo a tri gramy slov.
Výsledkom dolovania SWOT tabuliek sú textové reťazce nachádzajúce sa v príslušných kvadrantoch SWOT analýzy. Jednotlivé slová (tokeny) tvoriace tieto textové reťazce sa v nich nachádzajú v rôznych gramatických tvaroch. Ak ich chceme ďalej analyzovať tak potrebujeme najprv získať základné alebo “slovníkové” tvary slov. Tento proces sa volá lematizácia.
V nasledujúcopm príklade použijeme predpripravené dáta a pomocou regulérnych výrazov vyextrahujeme víziu rozvoja z jednotlivých dokumentov PHSR.
SWOT analýza by sa v dokumentoch mala objaviť ako tabuľka o rozmere 4×4. V realite sú to ale tabuľky s variabilným počtom stĺpcov a riadkov a s variabilnou pozíciou elementov SWOT. V niektorých prípadoch je SWOT v dokumentoch uvedený ako súvislý text a absentuje tabuľková forma.
Jedným z kľúčových obsahových prvkov dokumentov PHSR je SWOT analýza, ktorá slúži na definovanie východísk pre návrhovú časť PHSR.
Formulár U1 – Zámer spracovania PHSR. Obsahuje informácie o pláne na vypracovanie PHSR. Táto tabuľka sa tvorí pred samotným spracovaním PHSR a popisuje predpokladaný spôsob spracovania dokumentu, rámcový harmonogram a predpokladané náklady.
V predchádzajúcich skriptoch sme súbory korpusu PHSR homogenizovali na formát pdf a následne sme z nich vyextrahovali tabuľky do samsotatných excelovských súborov. Samostatné súbory sú užitočné pre manuálne overenie výsledkov následných algoritmov ale nie sú optimálne pre automatizované spracovanie. Preto isch skonsolidujeme do jedného objektu.
Dokumenty PHSR obsahujú množstvo tabuliek a formulárov s dôležitým obsahom avšak s výraznou variabilitou. Testovali sme viacej nástrojov a knižníc až sme nakoniec narazili na camelot. Tento zošit obsahuje príklad použitia camelotu na extrakciu tabuliek z pdf súborov.
Ďalšou úrovňou overenia konformity bolo overenie prítomnosti formulárov v súlade s metodikou platnou pre PO 2014-2020. Na rozdiel od základných obsahových častí PHSR, ktoré sú priamo uvedené v zákone, formuláre vyplývajúce z metodiky nie sú záväzné.