View previous topic :: View next topic |
Author |
Message |
primat Guru
Joined: 12 Jan 2004 Posts: 437 Location: Berlin
|
Posted: Tue Oct 19, 2004 12:58 pm Post subject: [OT] Wortstatistik von Dokument |
|
|
Hallo,
ich habe gerade ein kleines Problem und hoffe, das mir einer vom euch schlauen Forenlesern helfen kann.
Ich möchte ein Wortstatistik von einem Dokument haben. Dabei brauche ich die absolute häufigkeit der in dem Dokument vorkommenden Worte.
Also:
wort1 7
wort2 5
...
weiß jemand eine Möglichkeit, wie man sowas einfach hinbekommt?
Gibt es vielleicht schon ein fertiges tool? Es geht um reine Text Dateien.
Gruss
Sebo |
|
Back to top |
|
|
Carlo Developer
Joined: 12 Aug 2002 Posts: 3356
|
Posted: Tue Oct 19, 2004 1:34 pm Post subject: |
|
|
cat <file> | fmt -w 1 | sort | uniq -c, vorher müssen aber die Satzzeichen raus. _________________ Please make sure that you have searched for an answer to a question after reading all the relevant docs. |
|
Back to top |
|
|
toskala Advocate
Joined: 14 Dec 2002 Posts: 2080 Location: hamburg, germany
|
Posted: Tue Oct 19, 2004 2:13 pm Post subject: |
|
|
satzzeichen killst einfach mit sed raus.
cat textfile | sed -e 's/[^a-zA-Z ]//g'
edit:
achja, und wenn zahlen auch erhalten bleiben sollen
cat textfile | sed -e 's/[^a-zA-Z0-9 ]//g' _________________ adopt an unanswered post
erst denken, dann posten |
|
Back to top |
|
|
primat Guru
Joined: 12 Jan 2004 Posts: 437 Location: Berlin
|
Posted: Tue Oct 19, 2004 2:19 pm Post subject: |
|
|
Danke, das hilft mir schon ganz gut weiter. Ich kämpfe jetzt mit den Satzzeichen. Die müsste man doch irgenwie weg"sed"en können!
Gruss
War zu spät! Danke toskala und carlo!
Last edited by primat on Tue Oct 19, 2004 2:38 pm; edited 1 time in total |
|
Back to top |
|
|
toskala Advocate
Joined: 14 Dec 2002 Posts: 2080 Location: hamburg, germany
|
Posted: Tue Oct 19, 2004 2:26 pm Post subject: |
|
|
hihi
gern geschehen _________________ adopt an unanswered post
erst denken, dann posten |
|
Back to top |
|
|
|