Lehrende: Prof. Dr. Christian Biemann
Veranstaltungsart: Vorlesung
Anzeige im Stundenplan: NLP - VL
Semesterwochenstunden: 2
Unterrichtssprache: Englisch
Min. | Max. Teilnehmerzahl: - | 66
Kommentare/ Inhalte: Das Web beinhaltet mehr als 10 Milliarden indexierbare Webseiten, die mittels Stichwortsuche zugänglich sind. Die Vorlesung behandelt Methoden der automatischen Sprachverarbeitung bzw. des Natural Language Processing (NLP) zur Verarbeitung großer Mengen unstrukturierter Texte im Web und zur Analyse von Online-Inhalten als wertvolle Ressource für andere sprachtechnologische Anwendungen im Web. Zentrale Inhalte: - Verarbeitung unstrukturierter Texte im Web - NLP-Grundlagen: Tokenisierung, Wortartenerkennung, Stemming, Lemmatisierung, Chunking - NLP Pipelines: Grundlagen und Anwendungen - Web Content Mining - Web-Inhalte und ihre Charakteristika, u.a. verschiedene Genres, z.B. persönliche Seiten, Nachrichtenportale, Blogs, Foren, Wikis - Web-Mining im Web 2.0, z.B. Wikipedia, Wiktionary - Qualitätsbewertung von Web-Inhalten - Das Web als Korpus, insb. innovative Verwendung des Webs als sehr großes, verteiltes, verlinktes, wachsendes und multilinguales Korpus - NLP-Anwendungen für das Web - Einführung in das Information Retrieval - Web-Suche und natürlichsprachliche Suchschnittstellen - Web-basierte Beantwortung von natürlichsprachlichen Fragen - Multilingualität und Maschinelle Übersetzung - Sentimentanalyse und Erkennung von Hassrede - Repräsentationslernen mit Embeddings - Lexikalische Semantik: Paraphrasen, Synonyme, semantische Ähnlichkeit - Namenserkennung und Entity Linking - Crossmodales Lernen - automatische Zusammenfassung
Lernziel: Nachdem Studierende die Veranstaltung besucht haben, können sie - Methoden und Ansätze zur Verarbeitung unstrukturierter Texte verstehen und differenzieren, - die Arbeitsweise von Web-Suchmaschinen nachvollziehen und erläutern, - exemplarische Anwendungen der Sprachverarbeitung im Web selbständig aufbauen und analysieren, - das Potenzial von Web-Inhalten für die Verbesserung von sprachtechnologischen Anwendungen analysieren und einschätzen.