Wörterhacken: jTokeniser
Des Korpuslinguisten und der Korpuslinguistin schweisstreibenste Beschäftigung ist das Wörterhacken – auch Tokenising genannt: Wort- und Satzgrenzen automatisch entdecken und markieren. In Version 2...
View ArticleZeig mir wo die Bäume stehn!
Beim Wühlen in grossen Korpora sieht man manchmal den Wald vor lauter Bäumen nicht mehr. Man hangelt sich durch KWiC-Ansichten, Beleg- und Kollokationenlisten und findet kaum mehr raus. Manchmal ist es...
View ArticleÜber den Wolken…
Anscheinend besuchte ich länger die Spiegel-Online-Seite nicht mehr: Erst heute fällt mir das neue Design auf. Am 6. September wurde anscheinend Version 7.0 der Nachrichtenseite veröffentlicht. Neu ist...
View ArticleKorpora und Wirklichkeit
Heute wieder in der Kategorie “Korpuslinguistik” ganz fachlich/sachlich: Das Recherchenblog verweist auf eine Linkliste der Seite Infobroker.ch, auf der frei zugängliche Zeitungsdatenbanken aufgeführt...
View ArticleBäume zeichnen: Maschinelles syntaktisches Parsing (Deutsch)
Um maschinell Wortarten zu bestimmen, gibt es fürs Deutsche den Part-of-Speech-Tagger “TreeTagger” aus Stuttgart, eine Art Defakto-Standard fürs Deutsche (und andere Sprachen). Doch wie sieht es mit...
View ArticleLDA-Toolkit: Korpusanalyse zum Klicken statt Tippen
Korpuslinguistische Analysen begnügen sich heute nicht mehr damit, bloß Belege für ein bestimmtes Phänomen in einem bestehenden Korpus zu suchen. Vielmehr möchte man eigene Korpora aufbauen und...
View ArticleStatistische Analysen von Korpora: Mit R direkt auf die CWB zugreifen
Ich bin etwas stolz auf die folgende Grafik: Die typischen Personalpronomen in Pressetexten (sueddeutsche.de und bild.de) über Wulff und Merkel Allerdings nicht, weil sie besonders schön aussehen würde...
View ArticleDie typische Bergtour
Als Korpuslinguist kann ich mit Hilfe des Text+Berg-Korpus der alpinistischen Periodika des Schweizer Alpenclubs von 1864 bis heute mal eine empirisch fundierte Geschichte erzählen: Die typische...
View ArticleVom Download zum XML-Korpus: Gangbare Wege für die Lehre
Mein Online-Handbuch Korpuslinguistik (“Einführung in die Korpuslinguistik“) enthält ein Kapitel zur Erstellung von eigenen Korpora. Es ist dabei das Ziel, einfache Wege zu beschreiben, wie man aus...
View ArticleAnatomie eines Textes: Bildgebendes Verfahren für Textkorpora
Was „zeigt“ sich, wenn eine Maschine einen Text „liest“, also sequenziell Wort für Wort abarbeitet? Eher für didaktische Zwecke habe ich eine kleine Spielerei versucht (und dabei mit P5.js...
View ArticleVon Schätzen und Monstern. Drei Thesen zu Visualisierungspraktiken in den...
Visualisierungen wissenschaftlicher Daten boomen. Sie werden eingesetzt, um riesige Datenmengen überhaupt überblicken zu können, z.B. indem Beziehungen zwischen Akteuren als Netzwerk visualisiert...
View Article