Discovery and explainability of fine-grained structures in large-scale user-generated data sets

Kastner, Johannes

Discovery and explainability of fine-grained structures in large-scale user-generated data sets

Since the beginning of the 21st century, the exploration of ever-growing data sets has gained more and more attention in research and application-related data analysis. In particular, recommender systems-related use cases due to social networks and media, as well as increasingly popular services in online shopping and marketing, became of specific interest. Moreover, entertainment media such as music and video streaming services and many associated communities and forums are also services that collect large amounts of user-based data. Analyzing correlations, structures, and groups based on various characteristics in sometimes enormous data sets, e.g., place targeted, user-based advertising or making recommendations for music and movies, is essential. In addition, analyzing user behavior and interactions in social networks and media is a crucial area in research to create traceability and understanding of behavior. Also, changes in user profiles over time and correlations between userSince the beginning of the 21st century, the exploration of ever-growing data sets has gained more and more attention in research and application-related data analysis. In particular, recommender systems-related use cases due to social networks and media, as well as increasingly popular services in online shopping and marketing, became of specific interest. Moreover, entertainment media such as music and video streaming services and many associated communities and forums are also services that collect large amounts of user-based data. Analyzing correlations, structures, and groups based on various characteristics in sometimes enormous data sets, e.g., place targeted, user-based advertising or making recommendations for music and movies, is essential. In addition, analyzing user behavior and interactions in social networks and media is a crucial area in research to create traceability and understanding of behavior. Also, changes in user profiles over time and correlations between user behavior and news propagation paths are other significant areas in research. Giving structure to this amount of data and extracting relevant results requires human expertise. However, this is very expensive for humans, as it is very time-consuming to identify commonalities and differences in structures and patterns for individual specific data sets. In particular, identifying specific user roles in social media and networks has taken on a special significance in the last 20 years, as the proportion of bots, spammers, or users who otherwise engage in harmful behavior has increased significantly. Moreover, in addition to these user roles, many other classes of users exist that are distinguished from other users by their behavior on the network and fine-grained characteristics. While the focus in research and practice has so far been on generalized user roles, such as detecting harmful user behavior, fine-grained identification has largely fallen by the wayside due to the need for expert input and transferability to other data sets and the associated effort. Furthermore, taking the rise of influencers as an example, the development of user roles over time, among other things, is a worthwhile but still largely unexplored topic. In this work, the use of human expertise for the recognition and transferability of patterns and structures in the context of known \ac{ML} methods will now be applied and gradually reduced. In particular, the refinement and classification of generalized user roles into fine-grained structures benefit from a largely automated and scalable process. Furthermore, traceability aspects serve as substantial knowledge gains, especially at the beginning of the analysis, to enable transferability to new scenarios. In the process, users distinguished by many conspicuous, partly complementary characteristics, such as their actions in the social network, their position, and their ability to influence other users, are first grouped comprehensibly. Subsequently, a trained and supervised classifier assigns each cluster a probability to the existing user roles. The method excites as it can be successfully applied to datasets that are temporally and thematically distinct from the original dataset. Further research also shows that transferability to completely new datasets with a different origin is possible with little effort. Different sampling strategies are investigated to successfully analyze datasets in terms of scalability and stability of user roles and are combined probabilistically afterward. Moreover, a transition model is presented, which can make predictions for users in previously unexamined datasets in a temporal context to investigate longer-term trends regarding user role migrations. The evaluation results show that many stable distinct user roles are reliably detected, that transferability concerning topical and temporal influences is possible with small cutbacks, and that transferability to entirely new data sets can be successfully implemented with moderate effort. The results of the transition model also show that a large number of users can be predicted reliably to a large extent. Ultimately, all of these aspects also ensure that the approach can cope with a wide variety of data sets in terms of scalability and, with minor drawbacks, hardly relies on the need for expert input. In addition, the transferability of the approach to datasets representing cascades of user messages as a graph is also carried out in the context of this work. Compared to user role analysis, similar graphs are summarized by various largely hidden properties, with the difference that a \ac{DL} procedure is performed. The evaluation of this use case also shows that parts of the model work on entirely different scenarios and that knowledge can also be extracted and analyzed based on patterns. Furthermore, the transferability also allows an enormous saving of human resources. Moreover, an approach is presented to minimize the costly and tedious data preparation process by integrating normalization and standardization into a clustering procedure. Again, as with fine-granular user analysis, the primary goal is to cluster common structures and abstract them from others to save human resources. This thesis presents methods for recognizing fine-grained structures in diverse scenarios, abstracting them successfully, and analyzing them with minimal expert input. In particular, the gain in knowledge and the traceability of how structures emerge during the analysis confirm the usefulness of the methods. Furthermore, these approaches are strengthened in their significance by scalability and transferability.…
Die Erforschung von riesigen, immer weiter wachsenden Datensätzen hat seit Beginn des 21. Jahrhunderts durch die sozialen Netzwerke und Medien, sowie auch durch immer populärer werdende Dienste im Bereich des Online Shoppings und Marketings immer mehr Beachtung in der Forschung aber auch in der anwendungsbezogenen Datenanalyse in Zusammenhang mit Empfehlungssystemen gefunden. Auch Unterhaltungsmedien wie Musik- als auch Video-Streaming Dienste und viele damit verbundene Communitys und Foren sind Dienste, die gro\ss e Mengen an nutzerbasierten Daten sammeln. Dabei ist es essenziell, anhand vieler sehr unterschiedlicher Eigenschaften in teils sehr großen Datensätzen Zusammenhänge, Strukturen und Gruppen zu analysieren, um beispielsweise gezielt und nutzerbasiert Werbung zu platzieren oder Empfehlungen für Musik als auch Filme zu unterbreiten. Darüber hinaus ist auch die Analyse von Nutzerverhalten und Interaktionen in sozialen Netzwerken und Medien ein sehr ausschlaggebender Bereich inDie Erforschung von riesigen, immer weiter wachsenden Datensätzen hat seit Beginn des 21. Jahrhunderts durch die sozialen Netzwerke und Medien, sowie auch durch immer populärer werdende Dienste im Bereich des Online Shoppings und Marketings immer mehr Beachtung in der Forschung aber auch in der anwendungsbezogenen Datenanalyse in Zusammenhang mit Empfehlungssystemen gefunden. Auch Unterhaltungsmedien wie Musik- als auch Video-Streaming Dienste und viele damit verbundene Communitys und Foren sind Dienste, die gro\ss e Mengen an nutzerbasierten Daten sammeln. Dabei ist es essenziell, anhand vieler sehr unterschiedlicher Eigenschaften in teils sehr großen Datensätzen Zusammenhänge, Strukturen und Gruppen zu analysieren, um beispielsweise gezielt und nutzerbasiert Werbung zu platzieren oder Empfehlungen für Musik als auch Filme zu unterbreiten. Darüber hinaus ist auch die Analyse von Nutzerverhalten und Interaktionen in sozialen Netzwerken und Medien ein sehr ausschlaggebender Bereich in der Forschung um Nachvollziehbarkeit und Verständnis für das Verhalten zu schaffen. Auch die Veränderungen von Nutzerprofilen im Laufe der Zeit, sowie die Korrelationen zwischen Nutzerverhalten und Ausbreitungspfaden von Nachrichten zu verfolgen sind weitere bedeutende Bereiche in der Forschung. Um dieser Menge an Daten Struktur zu geben und relevante Ergebnisse zu gewinnen wird menschliche Expertise benötigt, die jedoch für Menschen sehr teuer ist, da es sehr zeitaufwendig ist, Gemeinsamkeiten und Unterschieden in Form von Strukturen und Mustern für einzelne spezifische Datensätze ausfindig zu machen. Insbesondere die Identifikation von spezifischen Nutzerrollen in sozialen Medien und Netzwerken hat in den letzten 20 Jahren einen besonderen Stellenwert eingenommen, da der Anteil an Bots, Spammern oder Nutzern, die anderweitig schädliches Verhalten an den Tag legen, sehr stark zugenommen hat. Darüber hinaus existieren neben diesen Nutzerrollen auch viele andere Klassen von Nutzern, die sich durch ihr Verhalten im Netzwerk und zu anderen Nutzern von diesen durch feingranulare Eigenschaften abheben. Während in der Forschung und Praxis der Fokus bislang auf generalisierten Nutzerrolen, wie beispielsweise der Erkennung von schädlichem Nutzerverhalten lag, blieb die feingranulare Identifikation aufgrund der Notwendigkeit des Einsatzes von Experten und der Übertragbarkeit auf andere Datensätze und dem damit verbundenen Aufwand, bislang weitestgehend auf der Strecke. Ferner ist am Beispiel des Aufstiegs der Influencer unter anderem auch die zeitliche Entwicklung von Nutzerrollen ein sehr interessantes, aber noch weitestgehend unerforschtes Thema. Im Rahmen dieser Arbeit soll nun der Einsatz von menschlicher Expertise für die Erkennung und Übertragbarkeit von Mustern und Strukturen im Zusammenhang mit bekannten \ac{ML} Verfahren eingesetzt und schrittweise reduziert werden. Insbesondere die Verfeinerung und Klassifikation von generalisierten Nutzerrollen in feingranulare Strukturen profitiert von einem weitestgehend automatisierten und skalierbaren Prozess. Darüber hinaus dienen vor allem zu Beginn der Analysen die Aspekte der Nachvollziehbarkeit für wichtige Erkenntnisgewinne um eine Übertragbarkeit auf neue Szenarien zu ermöglichen. Im Prozess werden zunächst Benutzer, die sich durch eine Vielzahl von auffälligen, teils komplementären Eigenschaften wie deren Aktionen im sozialen Netzwerk, deren Position, sowie deren Eigenschaft andere Nutzer zu beeinflussen in nachvollziehbarer Art und Weise zusammengefasst. Im Anschluss daran erhält jeder dieser Cluster mithilfe eines trainierten und überwachten Klassifikators eine Wahrscheinlichkeit zu den vorhandenen Nutzerrollen. Das Verfahren besticht dadurch, dass es auf Datensätze, die sich temporal und thematisch vom Ursprungsdatensatz abheben, erfolgreich angewendet werden kann. Weitere Untersuchungen zeigen auch, dass die Übertragbarkeit auf komplett neue Datensätze mit anderem Ursprung mit geringem Aufwand möglich ist. Um auch Datensätze erfolgreich im Hinblick auf Skalierbarkeit und Stabilität von Nutzerrollen analysieren zu können, werden verschiedene Sampling- und Kombinationsstrategie untersucht. Au\ss erdem wird ein Transitionsmodell vorgestellt, welches im temporalen Kontext in der Lage ist, Vorhersagen für Nutzer in bislang nicht untersuchten Datensätzen eine Vorhersage für erwartete Nutzerrolen zu treffen, um auch längerfristige Trends hinsichtlich Nutzerrollenwanderungen untersuchen zu können. Die Ergebnisse der Evaluation zeigen, dass eine Vielzahl an stabilen unterschiedlichen Nutzerrollen zuverlässig erkannt werden, dass die Übertragbarkeit hinsichtlich thematischer und zeitlicher Einflüsse mit kleinen Abstrichen möglich ist, sowie dass die Übertragbarkeit auf komplett neue Datensätze mit moderatem Aufwand erfolgreich umgesetzt werden kann. Auch die Ergebnisse des Transitionsmodell zeigen, dass eine Vielzahl an Nutzern weitestgehend zuverlässig vorhergesagt werden können. Letztendlich sorgen all diese Aspekte auch dafür, dass der Ansatz hinsichtlich Skalierbarkeit mit unterschiedlichsten Datensätzen zurechtkommt und mit geringen Abstrichen kaum auf die Notwendigkeit des Einsatzes von Experten angewiesen ist. Au\ss erdem wird im Rahmen dieser Arbeit auch die Übertragbarkeit des Ansatzes auf Datensätze, die Ausbreitungsgraphen von Nachrichten repräsentieren, vollzogen. Verglichen mit der Nutzerrollenanalyse werden hier ähnliche Graphen durch eine Vielzahl von weitestgehend verborgenen Eigenschaften zusammengefasst, mit dem Unterschied, dass hier ein Deep Learning Verfahren vollzogen wird. Auch die Auswertung dieses Anwendungsfalles zeigt, dass Teile des Verfahrens auf komplett anderen Szenarien funktionieren und dass ebenfalls Wissen anhand von Strukturen extrahiert und analysiert werden kann. Darüber hinaus ermöglicht die Übertragbarkeit ebenfalls eine enorme Einsparung von menschlichen Ressourcen. Ferner wird unter anderem ein Ansatz vorgestellt, um den sehr aufwendigen und langwierigen Prozess der Datenaufbereitung zu minimieren, indem Aspekte der Normalisierung und Standardisierung in ein Clusteringverfahren integriert werden. Auch hier ist, wie bei der feingranularen Nutzeranalyse das vorrangige Ziel, gemeinsame Strukturen zusammenzufassen und von anderen zu abstrahieren sowie, dass dadurch menschliche Ressourcen eingespart werden können. Die in dieser Arbeit vorgestellten Verfahren zeigen allesamt, dass es möglich ist in mannigfaltigen Szenarien mit teilweise komplett unterschiedlichen Ausgangssituationen hinsichtlich der verfügbaren Datensätze, feingranulare Strukturen zu erkennen, diese erfolgreich voneinander zu abstrahieren, sowie mit möglichst wenig Zeitaufwand von Experten zu analysieren. Insbesondere der Erkenntnisgewinn und die Nachvollziehbarkeit, wie Strukturen im Laufe der Analysen entstehen, bestätigen den Nutzen der Verfahren. Darüber hinaus werden diese Ansätze durch die Aspekte der Skalierbarkeit und Übertragbarkeit in ihrem Stellenwert verstärkt.…

Metadaten
Author:	Johannes Kastner GND
URN:	urn:nbn:de:bvb:384-opus4-1120127
Frontdoor URL	https://opus.bibliothek.uni-augsburg.de/opus4/112012
Advisor:	Peter M. Fischer
Type:	Doctoral Thesis
Language:	English
Year of first Publication:	2024
Publishing Institution:	Universität Augsburg
Granting Institution:	Universität Augsburg, Fakultät für Angewandte Informatik
Date of final exam:	2024/01/04
Release Date:	2024/05/08
Tag:	Clustering; Classification; Active-Learning; Sampling
GND-Keyword:	Künstliche Intelligenz; Maschinelles Lernen; Überwachtes Lernen; Unüberwachtes Lernen
Pagenumber:	xix, 268
Institutes:	Fakultät für Angewandte Informatik
	Fakultät für Angewandte Informatik / Institut für Informatik
	Fakultät für Angewandte Informatik / Institut für Informatik / Lehrstuhl für Datenbanken und Informationssysteme
Dewey Decimal Classification:	0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Licence (German):	Deutsches Urheberrecht mit Print on Demand

Open Access

Discovery and explainability of fine-grained structures in large-scale user-generated data sets

Download full text files

Export metadata

Statistics

Print On Demand

Additional Services