Gentoo Forums
Gentoo Forums
Gentoo Forums
Quick Search: in
creazione parser per recuperare dati da pagina web
View unanswered posts
View posts from last 24 hours
View posts from last 7 days

 
Reply to topic    Gentoo Forums Forum Index Forum italiano (Italian) Forum di discussione italiano
View previous topic :: View next topic  
Author Message
lordalbert
l33t
l33t


Joined: 26 Nov 2006
Posts: 840
Location: Italy

PostPosted: Tue Feb 08, 2011 11:27 pm    Post subject: creazione parser per recuperare dati da pagina web Reply with quote

Ciao. Ho intenzione di segnarmi tutti i valori dei vari giorni di alcune azioni/fondi comune (in borsa). Non ho ancora trovato un programma che lo faccia, almeno in maniera semplice, quindi ecco l'idea: estrapolare il valore da pagina web, e poi creare un file (tipo csv) su cui scrivere i valori e trasformarlo poi in un foglio di calcolo.
Quello che mi servirebbe, è uno script che prenda da una pagina web (per esempio questa http://finanza.lastampa.it/Funds/1ARBT/ArcaBTBreveTermine.aspx?tip=1 ) il valore e la data relativa, e memorizzi i dati estrapolati in un file.
Il problema è che non so come fare... io pensavo a grep, però... prendiamo ad esempio le righe attorno al valore da estrarre (8,744):

Code:

<tr class="TbRw1">

      <td><strong>Valore</strong></td>
      <td align="center">8,744</td>
      <td align="center">8,747</td>


Non posso fare un grep <td align....> bla bla bla perchè non riesco a identificare il td align della riga che serve a me, e quindi non otterrei soltanto il valore che serve a me, ma anche altri.

Qualcuno ha qualche idea in merito?
Back to top
View user's profile Send private message
MajinJoko
l33t
l33t


Joined: 20 Sep 2005
Posts: 639
Location: Bergamo / Verona

PostPosted: Wed Feb 09, 2011 9:39 am    Post subject: Reply with quote

Se conosci il PHP, potresti provare a trattare la pagina come XML e accedere ai contenuti che ti servono con la libreria simplexml.
O magari esiste qualcosa di simile per l'html.

Oppure, nel linguaggio che conosci, cercare un parser html.

È proprio buttata lì, ma è ciò che mi viene in mente al momento..
_________________
[(.. watashi wa Urumi Kanzaki ga suki da ..)]
Back to top
View user's profile Send private message
cloc3
Advocate
Advocate


Joined: 13 Jan 2004
Posts: 4807
Location: http://www.gentoo-users.org/user/cloc3/

PostPosted: Thu Feb 10, 2011 3:37 pm    Post subject: Reply with quote

sembra una formattazione relativamente semplice.
chissà, forse è possibile girarla in pipe da wget a sed, con il mitico howto di Daniel Robbins.
_________________
vu vu vu
gentù
mi piaci tu
Back to top
View user's profile Send private message
table
Apprentice
Apprentice


Joined: 17 Feb 2007
Posts: 279
Location: Gazzaniga (BG) Italy

PostPosted: Tue Feb 22, 2011 1:18 pm    Post subject: Reply with quote

Ciao,

io in passato ho fatto cose molto simili con l'uso di wget grep sed e awk.

Si tratta semplicemente di combinare questi sturmenti per arrivare ad un output decente.

Eventualmente contattami su skype o via pm così posso darti qualche dritta .
_________________
Pulisci l'html con:
Code:
sed 's/<[Bb][Rr][ \t]*\/*>/\n/g;s/<\/*[^>]\+\/*>//g'

skype: matteopinguino
Back to top
View user's profile Send private message
Display posts from previous:   
Reply to topic    Gentoo Forums Forum Index Forum italiano (Italian) Forum di discussione italiano All times are GMT
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum