The Enron Corpus - fra e-mails til kunstig intelligens

I slutningen af 90’erne voksede energivirksomheden Enron Corporation i USA sig enorm. På få år gik de fra blot at nedgrave små lokale rørledninger til at blive en stor global spiller på energimarkedet. Aktierne nåede rekordkurser, og Enron lå nr. 7 på Fortune 500-listen over USAs største virksomheder. Det gik altså ret godt! Men i 2001 stod konkursen for døren, og den endte med at få en overraskende effekt på den teknologiske udvikling.
Konkursen fik nemlig betydning for udviklingen af den kunstige intelligens, som vi anvender i dag. Men hvordan hænger det sammen? Hvordan kan en konkurs have indvirkning på kunstig intelligens? Det kan du læse mere om her.
En mands død – en anden mands data
Intet er så skidt, at det ikke er godt for noget. For selvom kollapset af Enron betød, at 22.000 mennesker mistede deres job og mange aktionærer mistede penge, så ledte forfaldet også til, at the Federal Energy Regulatory Commission, i deres undersøgelse af konkursen, offentliggjorde ca. 500.000 e–mails sendt mellem ansatte i Enron. Det betød, at et kæmpe datasæt med information om, hvordan rigtige mennesker kommunikerer, blev offentligt tilgængeligt.
Styr på data
I 2003, da de mange e-mails fra Enron blev frigivet, var det for svært for en computer at overskue materialet, og sætte det i en form for orden. Den store mængde data lå ustruktureret og de tunge filer var upraktiske at arbejde med. Forskere fra MIT (Massachusetts Institute of Technology) opkøbte datasættet, og de gik i gang med at få styr på data. Datasættet skulle renses for de ansattes personlige data for eksempel bankoplysninger, performancedata og personlige fotos samt spam og dubletter. Til sidst skulle alle de mange mails sorteres i mapper og kategoriseres. De endte med et datasæt bestående af ca. 200.000 e-mails, som i dag udgør det største af sin slags.
Fra data til viden
De mange e-mails har ikke ligget urørt hen, siden de blev frigivet. Forskere over hele verden har brugt The Enron Corpus til at undersøge, hvordan rigtige mennesker kommunikerer. Som eksempel bruges datasættet i dag til at teste og træne sprogteknologi. Datasættet har også givet liv til systemer, der kan spore store samfundsudfordringer som svindel eller terror-organisering. Af de mere jordnære eksempler på, hvad de mange e-mails har været brugt til gennem tideren kan nævnes: automatisk prioritering af e-mails og tilhørende påmindelser, den interface vi hver dag bruger på mobilen og analyse af forbrugeres forhold til et brand ud fra, hvordan de skriver om det på nettet. Et sidste eksempel er computervirksomheden HP, der har brugt datasættet til at udvikle en løsning, som kan spore de aftaler, folk laver over e-mail. Alt dette hører under kategorien kunstig intelligens, og påvirker de fleste mennesker hverdag positivt.
Meget mere end arbejdsmails
Men datasættet har også givet anledning til dataetiske overvejelser. Da datasættet først blev frigivet, modtog the Federal Energy Regulatory Commission adskillige klager fra de tidligere ansatte. Deres e-mails indeholdte mere end blot mødereferater og kaffeaftaler, før de blev sorteret, renset og organiseret. De ansatte havde også sendt og modtaget mere private beskeder, og adskillige affærer og upassende udtalelser kom frem i lyset. Offentliggørelsen afføder dataetiske spørgsmål, for kan man egentlig tillade sig at offentliggøre e-mails, som ikke har noget med undersøgelsen af Enrons konkurs at gøre? Selvom de mest prekære e-mails blev sorteret fra, er personlige oplysninger stadig at finde i datasættet. Personlige oplysninger såsom telefonnumre samt ægtefællers og børns navne
Offentliggørelsen af the Enron Corpus har også ført til, at medarbejdere i stærkt regulerede sektorer, som for eksempel finanssektoren, i dag bruger udtrykket ”LTOL” – e-mail-lingo for ”Let’s take this offline”.
Selvom konkursen havde store konsekvenser for alle de involverede, der mistede deres arbejde og aktionærerne, som misterede store finansielle summer, medførte det også helt ny viden og muligheder, som vi i dag dagligt bruger.
Arbejdsspørgsmål:
- Hvad er Fortune 500? Tag gerne internettet i brug.
- Hvad vil det sige at gå konkurs?
- Hvad menes der med den teknologiske udvikling? Tag gerne internettet i brug.
- Hvad tænker du på, når du hører ordene kunstig intelligens?
- Hvad laver Federal Energy Regulatory Commission? Hvorfor er de blevet sat til at undersøge Enrons konkurs?
- Hvad kunne datasættet bestående af ca. 200.000 e-mails bruges til?
- Hvorfor gav datasættet anledning til dataetiske overvejelser?
Det didaktiske perspektiv:
Kilder:
Hansen, S. L. (16. Januar 2002) Enron: Historiens største konkurs. Hentet den 18. oktober 2021 fra https://nyheder.tv2.dk/article.php/id-59013%3Aenron-historiens
Heller, N. (17. Juli 2017) What the Enron E-mails say about us. Hentet den 18. oktober 2021 fra https://www.newyorker.com/magazine/2017/07/24/what-the-enron-e-mails-say-about-us
Leber, J. (2. Juli 2013) The immortal life of the Enron E-mails. Hentet den 18. oktober 2021 fra https://www.technologyreview.com/2013/07/02/177506/the-immortal-life-of-the-enron-e-mails/
Milne, E. (2021) Email and the Everyday: Stories of Disclosure, Trust, and Digital Labor. Cambridge, Massachusetts: The MIT Press