[FSUG PD] richiesta suggerimento per estrazione dati da pagina webv

Antonio Dalvit antonio.dalvit a gmail.com
Mer 5 Ago 2015 09:40:40 CEST


ciao a tutti!

Come alcuni di voi sanno, mi trovo ormai quotidianamente a scontrarmi con i
lavori da scimmia che fanno nella PA.

Spesso ho risolto i problemi con uno script o buttando giù due righe di
python, ma oggi mi trovo una grana un pò più impegnativa.

Da una pagina web dinamica (per chi è del mestiere, impresainungiorno.gov.it)
devo estrarre da una schermata cui si accede con login e password, una
serie di dati racchiusi in tag HTML (<tag> pippo </tag>).

Le scimmie fanno questo processo:
A) aprono la pagina web del portale
|
B) copia/incolla forsennato delle parti che interessano (con correlati
errori)
|
C) inserimento in un secondo gestionale


Il processo che ho in mente dovrebbe essere questo:
1) accesso al portale da parte dell'utente;
|
2) usando una plugin di google chrome o firefox lanciare l'eventuale script
che analizza la pagina web
|
3) sempre lo script opera una query all'interno del testo per individuare
il tag opportuno, salvarne il contenuto/proprietà
|
4) pubblicare i dati su di una UI semplificata (la pagina web è complessa e
si perde un mucchio di tempo a recuperare i dati).

In questo modo dovrei ridurre i tempi persi nello scorrere la pagina e
trovare i campi di interesse ed eliminare gli errori dovuti a copia/incolla
sbagliati.

Si potrebbe inserire automaticamente questi dati nel secondo gestionale, ma
richiede la definizione di un xml ad hoc che ho analizzato ed è infarcito
di codici e dati proprietari e generati a cazzo.

Mi ero orientato ad usare python con elementTree, ma magari conoscete delle
soluzioni più semplici...












-- 
Antonio Dalvit

Prince2 Foundation Certified
Project Manager PMP - #1385543
Six Sigma green belt professional SSGB - #64263


mobile: +39 3286483250
email: antonio a antoniodalvit.com
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.fsugpadova.org/pipermail/fsug-pd/attachments/20150805/f2160d5b/attachment.htm>


Maggiori informazioni sulla lista fsug-pd