Mining and Modeling Complex Relational Data with Unnamed Actors

3 different network layouts for the same data

Mining and Modeling Complex Relational Data with Unnamed Actors

Summary | Synthèse

Through text mining to extract named and unnamed entities and social network visualization to illustrate their relationships, we can represent unnamed women’s presence in the socio-political network despite their absence in the archival record.

By examining quantitative measures of the social network, we learn more about women’s positions within the structure of Ottoman-Algerian society.

Through an analysis of the individual lives, relationships and the underlying structures that make up the Ottoman-Algerian network in Constantine between 1567 and 1837, I argue that Algerian women were essential intercultural mediators and conduits to power.


Grâce à l’exploration de texte pour extraire les entités nommées et non nommées et à la visualisation du réseau social pour illustrer leurs relations, nous pouvons représenter la présence des femmes non nommées dans le réseau sociopolitique malgré leur absence dans les archives.

En examinant les mesures quantitatives du réseau social, nous en apprenons davantage sur les positions des femmes au sein de la structure de la société ottomane-algérienne.

En analysant les vies individuelles, les relations et les structures sous-jacentes qui constituent le réseau algéro-ottoman à Constantine entre 1567 et 1837, je soutiens que les femmes algériennes étaient des médiatrices interculturelles essentielles et des voies d’accès au pouvoir.

Methodology | Méthodologie

Mining Entities and Relationships

Three strategies

  1. Simple named entity recognition (NER) using Stanford CoreNLP with a French language package.
  2. Referenced individuals: those who were referenced in the text but unnamed (e.g. ‘the daughter of Ahmed’). Done manually for this project, as this remains an unsolved computational challenges. See my current work on this task.
  3. Inferenced individuals: if there was a parent-child relationship, we added the second parent. Also done manually.

Significance: This is not merely a numbers game. The more people we can accurately represent in the graph, the better sense we have for the structure of relationships and the relative positions of men and women of various ethnicities in the society under consideration. It is this structure that we can meaningfully explore with network analysis.

GenderNamedReferenced (% = Named + Referenced)Inference
(% is cumulative)
Row Totals
Man101
(85%)
11
(71%)
0
(62%)
112
Woman18
(15%)
27
(29%)
25
(38%)
70
Column Totals1193825182
Raw numbers and proportions of men and women in the three social network graphs

Trois stratégies

  1. Reconnaissance simple des entités nommées (NER) à l’aide de Stanford CoreNLP avec un package en français.
  2. Individus référencés : ceux qui sont référencés dans le texte mais qui ne sont pas nommés (par exemple “la fille d’Ahmed”). Cette tâche a été réalisée manuellement dans le cadre de ce projet, car elle reste un défi informatique non résolu. Voir mon travail actuel sur cette tâche.
  3. Individus référencés : s’il y avait une relation parent-enfant, nous avons ajouté le deuxième parent. Également effectué manuellement.

Importance : Il ne s’agit pas simplement d’une question de chiffres. Plus le nombre de personnes représentées dans le graphique est élevé, plus nous avons une idée précise de la structure des relations et de la position relative des hommes et des femmes de différentes ethnies dans l’Union européenne.

Network Analysis

Methods to assess individual actor importance in a social network graph:

  • Degree centrality
  • Betweenness centrality: Ulrik Brandes, “A Faster Algorithm for Betweenness Centrality.” The Journal of Mathematical Sociology 25, no. 2 (June 1, 2001): 163–77. https://doi.org/10.1080/0022250X.2001.9990249.
  • Harmonic Closeness Centrality: Used Brandes’ algorithm for this measure, but the results were inconclusive due to the high number of triangles in the network.

Ongoing research focuses on the following methods

  • Eigenvector centrality
  • Transitivity
  • Cutpoints

R-script of recent work and analysis using the methods above.

Data and Code

Data: Sanders, Ashley, and Veronica Dean. “Social Network of Ottoman Constantine, Algeria,
1567-1837,” Open Science Framework, May 16, 2023. https://doi.org/doi:10.17605/OSF.IO/4NFSU.

Code: Ongoing research in R

Results | Résultats

Kinship connections can be meaningfully investigated using quantitative network metrics. Betweenness centrality scores are particularly informative because they highlight the individuals who served as essential social bridges between people, family units, and socio-political cliques. Technically, betweenness centrality is a measure of the number of shortest paths that travel through a node.[i] A path is a sequence of edges in the graph in which all nodes and edges are distinct. The length of a path is the number of edges on it.

Portion of Ottoman-Constantine social network with nodes sized by betweenness centrality and the top individuals labeled.

Therefore, those with the highest rankings forged and maintained links between Ottoman officials and local families, bolstering Ottoman sovereignty in this frontier province. Imperial officers depended on these connections both to govern effectively and for their own safety and security while in office. Of the top individuals, ranked by betweenness centrality, 12 of the 26 shown (46 percent) are women, a proportion higher than the general proportion of women to men in the graph (38 percent). Of these twelve women, half are unnamed but explicitly referenced in the documents.

Individuals ranked by betweenness centrality as calculated using Ulrik Brandes’ Betweenness Centrality algorithm and graphed with Tableau.

Les liens de parenté peuvent être étudiés de manière significative à l’aide de mesures quantitatives des réseaux. Les scores de centralité d’interdépendance sont particulièrement instructifs car ils mettent en évidence les individus qui ont servi de ponts sociaux essentiels entre les personnes, les unités familiales et les cliques sociopolitiques. Techniquement, la centralité d’interdépendance est une mesure du nombre de chemins les plus courts qui passent par un nœud. Un chemin est une séquence d’arêtes dans le graphe dans lequel tous les nœuds et toutes les arêtes sont distincts. La longueur d’un chemin est le nombre d’arêtes qu’il comporte.

Par conséquent, les personnes les plus haut placées ont forgé et entretenu des liens entre les fonctionnaires ottomans et les familles locales, renforçant ainsi la souveraineté ottomane dans cette province frontalière. Les officiers impériaux dépendaient de ces liens à la fois pour gouverner efficacement et pour assurer leur propre sécurité pendant leur mandat. Parmi les individus les plus importants, classés en fonction de leur centralité d’interdépendance, 12 des 26 personnes représentées (46 %) sont des femmes, une proportion plus élevée que la proportion générale de femmes par rapport aux hommes dans le graphique (38 %). Sur ces douze femmes, la moitié n’est pas nommée mais est explicitement citée dans les documents.

Leave a Reply

Your email address will not be published. Required fields are marked *

Social Media Auto Publish Powered By : XYZScripts.com