Ongoing: Multilingual Natural Language Processing

""

Ongoing: Multilingual Natural Language Processing

Summary | Synthèse

Pivoting from my dissertation, my next project, “American Exports: The Legacy of American Colonialism in the Conquest of French Algeria,” employs multilingual natural language processing methods on a large corpus to examine the role of the United States as a model settler colony in the development and validation of French colonial policy in Algeria between 1830 and 1840.

French statesmen carefully examined the American colonial system through networks of communication and physical travel to the United States, applying these lessons to policies and practices in Algeria. They gauged their progress by drawing comparisons to the United States. I have gathered more than 400 digitized volumes of more than 1000 pages each of French Parliamentary records, published memoirs, eye-witness accounts, newspaper accounts, polemical publications, and military correspondence, and have begun using methods such as topic modeling and Word2Vec to analyze the corpus.


Pivotant de ma thèse, mon prochain projet, “American Exports : L’héritage du colonialisme américain dans la conquête de l’Algérie française”, utilise des méthodes d’analyse textuelle computationnelle multilingue sur un large corpus pour examiner le rôle des États-Unis en tant que colonie de peuplement modèle dans le développement et la validation de la politique coloniale française en Algérie entre 1830 et 1840.

Les hommes d’État français ont soigneusement examiné le système colonial américain par le biais de réseaux de communication et de voyages aux États-Unis, appliquant ces leçons aux politiques et aux pratiques en Algérie. Ils ont évalué leurs progrès en établissant des comparaisons avec les États-Unis. J’ai rassemblé plus de 400 volumes numérisés de plus de 1000 pages chacun de documents parlementaires français, de mémoires publiés, de récits de témoins oculaires, de comptes rendus de journaux, de publications polémiques et de correspondance militaire, et j’ai commencé à utiliser des méthodes telles que la modélisation des sujets et Word2Vec pour analyser le corpus.


Methods | Méthodologie

  • Challenge: the corpus contains both French and English texts.
    • Approach: Large Language Model (LLM) multilingual mT5 for summarizing and answering questions
    • Significance: Most natural language processing tasks are performed with English texts. This project provides an additional model for multilingual parsing and tests modern models for historical documents.

For this project, I am collaborating with the Bibliothèque Nationale de France to offer my workflows and the resulting plain text files to the BnF to make better quality documents available to other researchers. For example, although the PDF files of the nineteenth-century parliamentary archives are excellent, the plain text files have been OCRd without taking into account their 2-4 column format, and are therefore unusable for computer research or screen readers for accessibility. I have therefore re-OCRed a number of volumes, and would be happy to share documents, code, or even install a machine to re-OCR all these volumes for BnF. I’m also working on a script to clean up and divide the volumes by document or date before creating a thematic model, which could also be developed for the series and made available to other researchers to give them both an idea of themes over time and to navigate this corpus more easily.


  • Défi : le corpus contient des textes en français et en anglais.
    • Méthode : Large Language Model (LLM) multilingue mT5 pour le résumé et la réponse aux questions
    • Importance : La plupart des tâches de traitement du langage naturel sont effectuées avec des textes en anglais. Ce projet fournit un modèle supplémentaire d’analyse multilingue et teste des modèles modernes pour des documents historiques.

Pour ce projet, je propose une collaboration avec la Bibliothèque Nationale de France afin d’offrir mes flux de travail et les fichiers en texte brut qui en résultent à la BnF pour mettre des documents de meilleure qualité à la disposition d’autres chercheurs. Par exemple, bien que les fichiers PDF des archives parlementaires du 19ème siècle soient excellents, les fichiers en texte brut ont été OCRd sans tenir compte de leur format en 2-4 colonnes, et sont donc inutilisables pour la recherche informatique ou les lecteurs d’écran pour l’accessibilité. J’ai donc ré-OCRé un certain nombre de volumes, et je serais heureuse de partager les documents, le code, ou même d’installer une machine pour ré-exécuter l’OCR de tous ces volumes pour la BnF. Je travaille également sur un script pour nettoyer et diviser les volumes par document ou par date avant de créer un modèle thématique, qui pourrait également être développé pour la série et mis à la disposition d’autres chercheurs pour leur donner à la fois une idée des thèmes au fil du temps et pour naviguer plus facilement dans ce corpus.


Historical Context and Significance

Despite French politicians’ vocal disapproval of brutal American tactics against Native Americans, French military officers deployed and justified practices at least as harsh in Algeria to “exterminate” (in their words) the local population to make way for European settlers, citing the United States as their model. Through networks of communication and physical travel to the United States, French statesmen carefully examined the colonial system in the United States and applied lessons they found there to policies and practices in Algeria.  In military reports, memoirs, Parliamentary discourse, and the press, French writers often grafted either the means or effects of the American colonial “model” onto their own racist views of Algerians or, less frequently, in defense of them.

Questions about legitimate uses of force remained hotly contested throughout the first decade of colonial conquest when the United States appeared in French documents and Parliamentary debate as both a model of, or the antithesis to, French colonial objectives. In both cases, the United States served as a benchmark by which French statesmen judged their “progress” in colonial Algeria. Through an examination of French discourses and military actions, we discover how notions of American imperialism bolstered the brutal conquest of Algeria. By 1871, nearly one in three Algerians had died as a result. The French came far closer to their stated desire to exterminate the local inhabitants than most people in metropolitan France realized.


Malgré la désapprobation exprimée par les hommes politiques français à l’égard des tactiques américaines brutales contre les Amérindiens, les officiers militaires français ont déployé et justifié des pratiques au moins aussi dures en Algérie pour “exterminer” (selon leurs termes) la population locale afin de faire place aux colons européens, en citant les États-Unis comme leur modèle. Par le biais de réseaux de communication et de voyages aux États-Unis, les hommes d’État français ont soigneusement examiné le système colonial américain et ont appliqué les leçons qu’ils y ont trouvées aux politiques et aux pratiques en Algérie. Dans les rapports militaires, les mémoires, le discours parlementaire et la presse, les écrivains français greffent souvent les moyens ou les effets du “modèle” colonial américain sur leur propre vision raciste des Algériens ou, plus rarement, pour les défendre.

Les questions relatives à l’usage légitime de la force sont restées très controversées tout au long de la première décennie de la conquête coloniale, lorsque les États-Unis sont apparus dans les documents français et les débats parlementaires à la fois comme un modèle et comme l’antithèse des objectifs coloniaux français. Dans les deux cas, les États-Unis ont servi de référence aux hommes d’État français pour juger de leurs “progrès” dans l’Algérie coloniale. En examinant les discours français et les actions militaires, nous découvrons comment les notions d’impérialisme américain ont soutenu la conquête brutale de l’Algérie. En 1871, près d’un Algérien sur trois en était mort. Les Français ont été bien plus près de leur désir déclaré d’exterminer les habitants locaux que la plupart des habitants de la France métropolitaine ne l’ont réalisé.

Leave a Reply

Your email address will not be published. Required fields are marked *

Social Media Auto Publish Powered By : XYZScripts.com