Ongoing: Multilingual Natural Language Processing

""

Ongoing: Multilingual Natural Language Processing

Pivoting from my dissertation, my next project, “American Exports: The Legacy of American Colonialism in the Conquest of French Algeria,” employs multilingual natural language processing methods on a large corpus to examine the role of the United States as a model settler colony in the development and validation of French colonial policy in Algeria between 1830 and 1840.

French statesmen carefully examined the American colonial system through networks of communication and physical travel to the United States, applying these lessons to policies and practices in Algeria. They gauged their progress by drawing comparisons to the United States. I have gathered more than 400 digitized volumes of more than 1000 pages each of French Parliamentary records, published memoirs, eye-witness accounts, newspaper accounts, polemical publications, and military correspondence, and have begun using methods such as topic modeling and Word2Vec to analyze the corpus.


Pivotant de ma thèse, mon prochain projet, “American Exports : L’héritage du colonialisme américain dans la conquête de l’Algérie française”, utilise des méthodes d’analyse textuelle computationnelle multilingue sur un large corpus pour examiner le rôle des États-Unis en tant que colonie de peuplement modèle dans le développement et la validation de la politique coloniale française en Algérie entre 1830 et 1840.

Les hommes d’État français ont soigneusement examiné le système colonial américain par le biais de réseaux de communication et de voyages aux États-Unis, appliquant ces leçons aux politiques et aux pratiques en Algérie. Ils ont évalué leurs progrès en établissant des comparaisons avec les États-Unis. J’ai rassemblé plus de 400 volumes numérisés de plus de 1000 pages chacun de documents parlementaires français, de mémoires publiés, de récits de témoins oculaires, de comptes rendus de journaux, de publications polémiques et de correspondance militaire, et j’ai commencé à utiliser des méthodes telles que la modélisation des sujets et Word2Vec pour analyser le corpus.


Technical Details and Significance

  • Challenge: Proper data preparation.
    • Page layouts in the volumes are not standard and all of them had to be re-OCRd.
      • Bash + Google Tesseract to detect page layouts and correctly OCR the texts.
    • Each volume must be split by document, but the patterns that delineate documents in each volume are often different.
  • Challenge: the corpus contains both French and English language texts.
    • mT5 multilingual LLM for summarization and question-answering
  • Significance: Most natural language processing tasks are conducted with English language texts. This project provides an additional model of multilingual analysis and tests modern models for historical documents.

  • Défi : Préparation correcte des données.
    • La mise en page des volumes n’est pas standard et tous les textes ont dû être ré-OCRdés.
      • Bash + Google Tesseract pour détecter les mises en page et pour ocr correctement les textes.
    • Chaque volume doit être divisé par document, mais les motifs qui délimitent les documents dans chaque volume sont souvent différents.
  • Défi : le corpus contient des textes en français et en anglais.
    • LLM multilingue mT5 pour le résumé et la réponse aux questions
  • Importance : La plupart des tâches de traitement du langage naturel sont effectuées avec des textes en anglais. Ce projet fournit un modèle supplémentaire d’analyse multilingue et teste des modèles modernes pour des documents historiques.

Historical Context and Significance

Despite French politicians’ vocal disapproval of brutal American tactics against Native Americans, French military officers deployed and justified practices at least as harsh in Algeria to “exterminate” (in their words) the local population to make way for European settlers, citing the United States as their model. Through networks of communication and physical travel to the United States, French statesmen carefully examined the colonial system in the United States and applied lessons they found there to policies and practices in Algeria.  In military reports, memoirs, Parliamentary discourse, and the press, French writers often grafted either the means or effects of the American colonial “model” onto their own racist views of Algerians or, less frequently, in defense of them.

Questions about legitimate uses of force remained hotly contested throughout the first decade of colonial conquest when the United States appeared in French documents and Parliamentary debate as both a model of, or the antithesis to, French colonial objectives. In both cases, the United States served as a benchmark by which French statesmen judged their “progress” in colonial Algeria. Through an examination of French discourses and military actions, we discover how notions of American imperialism bolstered the brutal conquest of Algeria. By 1871, nearly one in three Algerians had died as a result. The French came far closer to their stated desire to exterminate the local inhabitants than most people in metropolitan France realized.


Malgré la désapprobation exprimée par les hommes politiques français à l’égard des tactiques américaines brutales contre les Amérindiens, les officiers militaires français ont déployé et justifié des pratiques au moins aussi dures en Algérie pour “exterminer” (selon leurs termes) la population locale afin de faire place aux colons européens, en citant les États-Unis comme leur modèle. Par le biais de réseaux de communication et de voyages aux États-Unis, les hommes d’État français ont soigneusement examiné le système colonial américain et ont appliqué les leçons qu’ils y ont trouvées aux politiques et aux pratiques en Algérie. Dans les rapports militaires, les mémoires, le discours parlementaire et la presse, les écrivains français greffent souvent les moyens ou les effets du “modèle” colonial américain sur leur propre vision raciste des Algériens ou, plus rarement, pour les défendre.

Les questions relatives à l’usage légitime de la force sont restées très controversées tout au long de la première décennie de la conquête coloniale, lorsque les États-Unis sont apparus dans les documents français et les débats parlementaires à la fois comme un modèle et comme l’antithèse des objectifs coloniaux français. Dans les deux cas, les États-Unis ont servi de référence aux hommes d’État français pour juger de leurs “progrès” dans l’Algérie coloniale. En examinant les discours français et les actions militaires, nous découvrons comment les notions d’impérialisme américain ont soutenu la conquête brutale de l’Algérie. En 1871, près d’un Algérien sur trois en était mort. Les Français ont été bien plus près de leur désir déclaré d’exterminer les habitants locaux que la plupart des habitants de la France métropolitaine ne l’ont réalisé.

Leave a Reply

Your email address will not be published. Required fields are marked *

Social Media Auto Publish Powered By : XYZScripts.com