[FSUG PD] richiesta suggerimento per estrazione dati da pagina webv
Antonio Dalvit
antonio.dalvit a gmail.com
Mer 5 Ago 2015 09:40:40 CEST
ciao a tutti!
Come alcuni di voi sanno, mi trovo ormai quotidianamente a scontrarmi con i
lavori da scimmia che fanno nella PA.
Spesso ho risolto i problemi con uno script o buttando giù due righe di
python, ma oggi mi trovo una grana un pò più impegnativa.
Da una pagina web dinamica (per chi è del mestiere, impresainungiorno.gov.it)
devo estrarre da una schermata cui si accede con login e password, una
serie di dati racchiusi in tag HTML (<tag> pippo </tag>).
Le scimmie fanno questo processo:
A) aprono la pagina web del portale
|
B) copia/incolla forsennato delle parti che interessano (con correlati
errori)
|
C) inserimento in un secondo gestionale
Il processo che ho in mente dovrebbe essere questo:
1) accesso al portale da parte dell'utente;
|
2) usando una plugin di google chrome o firefox lanciare l'eventuale script
che analizza la pagina web
|
3) sempre lo script opera una query all'interno del testo per individuare
il tag opportuno, salvarne il contenuto/proprietà
|
4) pubblicare i dati su di una UI semplificata (la pagina web è complessa e
si perde un mucchio di tempo a recuperare i dati).
In questo modo dovrei ridurre i tempi persi nello scorrere la pagina e
trovare i campi di interesse ed eliminare gli errori dovuti a copia/incolla
sbagliati.
Si potrebbe inserire automaticamente questi dati nel secondo gestionale, ma
richiede la definizione di un xml ad hoc che ho analizzato ed è infarcito
di codici e dati proprietari e generati a cazzo.
Mi ero orientato ad usare python con elementTree, ma magari conoscete delle
soluzioni più semplici...
--
Antonio Dalvit
Prince2 Foundation Certified
Project Manager PMP - #1385543
Six Sigma green belt professional SSGB - #64263
mobile: +39 3286483250
email: antonio a antoniodalvit.com
-------------- parte successiva --------------
Un allegato HTML è stato rimosso...
URL: <http://lists.fsugpadova.org/pipermail/fsug-pd/attachments/20150805/f2160d5b/attachment.htm>
Maggiori informazioni sulla lista
fsug-pd