Projekt Carabela: Umjetna inteligencija za otkrivanje tajni istorije Španije

Projekt Carabela: Umjetna inteligencija za otkrivanje tajni istorije Španije


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Umjetna inteligencija (AI) i mašinsko učenje (ML) u službi istoričara, zajedno sa algoritmima koji pronalaze dokumente od velikog interesa za istoriju Španije. Iza toga je Projekt Carabela, projekat koji su u posljednje dvije godine razvili istraživači s Universitat Politècnica de València (UPV) i Centra za podvodnu arheologiju Andaluzijskog instituta za povijesno nasljeđe.

U tom okviru su se razvili i primijenili nove AI / ML tehnike koji omogućavaju pristup sadržaju više od 130.000 slika iz Generalnog arhiva Indije i Pokrajinskog istorijskog arhiva Cádiz. Projekt je dobio podršku programa BBVA Foundation za pomoć naučnoistraživačkim timovima u području digitalnih humanističkih nauka.

„Ovim tehnikama možemo pratiti bilo koji grafički dokument istom brzinom kao i web pretraživač, identificirajući određene riječi, kombinacije riječi, fraze itd. Sve to zahvaljujući statističkim modelima koje smo obučili na primjerima i koji su sada veliki saveznici za proučavanje ovih zbirki u historiji Španije. A iste metode mogu se primijeniti i na mnoge druge povijesne dokumente ”, ističe Enrique Vidal, istraživač u centru za prepoznavanje obrazaca i tehnologije za ljudske jezike (PRHLT) UPV-a.

Opšti arhiv Indije

The fondovi Generalnog arhiva Indije Oni su od izuzetnog interesa za proučavanje istorije Španije u Americi - od juga Sjedinjenih Država do Ognjene zemlje - i Filipina tokom 15. do 19. vijeka.

Is about rukopisi povezani sa španskim pomorskim putovanjima i trgovinom, čija se analiza ne može izvršiti tradicionalnim tehnikama transkripcije OCR - budući da su namijenjene štampanom tekstu - niti posebnim tehnikama rukopisnih materijala, jer su rezultati koje nude kada se primjenjuju na ove povijesne tekstove previše neprecizni.

"Carabela nam je omogućila da idemo dalje, s tehnikama mašinskog učenja koje omogućavaju indeksiranje slika rukom ispisanog teksta u velikim zbirkama istorijskih dokumenata čije stanje očuvanosti i zamršeni stilovi pisanja čine gotovo nemogućim ljudima da čitaju svoje dokumente", kaže Joan Andreu Sánchez, također istraživač na PRHLT-UPV.

Ove tehnike mogu prepoznati i prepoznati različite vrste slova koja se koriste u svakom od perioda u kojima su dokumenti datirani, pa čak i analiziraju slike čiji je kvalitet vrlo nizak.

Ključ je u kapacitet njegovih algoritama za dobivanje modela koji se automatski „uče“ iz primjera.

„Takvi modeli zahtijevaju relativno malu količinu podataka o učenju da bi se dobili vrlo zadovoljavajući rezultati. Ove metode omogućavaju zadovoljavajući odgovor na izazove koje postavljaju sami dokumenti, poput razlika u pravopisima, mrljama ili kvalitetu slike ”, dodaje Vidal.

U ovom slučaju, učenje je obavljeno na oko 500 stranica iz Archivo de Indias, koje su odabrali i prepisali Carlos Alonso i njegov tim stručnjaka iz Centra za podvodnu arheologiju.

Olupine i Australija

Caravel je iznijela na vidjelo rukopisne informacije o olupinama koji čine arheološko nasljeđe prve veličine, zbog velikog povijesnog i kulturnog bogatstva njegovog sadržaja. "Carabela tako takođe doprinosi izbjegavanju pljačke potopljenog naslijeđa", objašnjava Joan Andreu Sánchez.

No, nesumnjivo, jedno od najneiznenađujućih nalaza u tim fondovima dogodilo se kada se, tražeći pojmove povezane s Australijom, poput „Incognita Southern Land“, pismo s početka 18. vijeka upućeno kralju Felipeu V..

„U ovom pismu, koje je napisao jezuit Andrés Serrano, otkrili smo vrlo precizne reference na južni kontinent iz 1705. godine, mnogo prije nego što je kapetan James Cook 1770. stigao do njegovih obala. Malo poznati podaci o istoriji Australije i koje sada otkrivamo primjenom tehnika indeksiranja i vjerovatnoće pretraživanja razvijenih u našem centru “, objašnjava Enrique Vidal.

PROČITAJTE, Zlatno doba i Transkribus

U ovom istom polju rada, PRHLT tim je učestvovao u evropskom projektu READ koji je proučavao i analizirao dokumenti iz zlatnog doba španske književnosti, među njima Rukopisi Lope de Vega iz zbirke Nacionalne biblioteke i prepiska braće Grimm iz Državnog arhiva Marburg.

Takođe i iz Nacionalnog arhiva Finske, od čega je indeksirano oko 150 000 stranica, a u budućim projektima namjerava indeksirati oko 1 milion stranica.

Takođe, U okviru projekta razvijen je Transkribus, softverska platforma koja omogućava anotiranje slika starih dokumenata velike istoriografske vrijednosti.

Transkribus se prvenstveno koristi kao alat za generiranje podataka o obucis obzirom na to da tehnike ručnog pisanja teksta trebaju podatke za automatsko učenje. U bliskoj budućnosti uključivat će i druge značajke, poput automatske obuke modela za druge jezike.

READ je također zaključio stvaranjem europske zadruge čiji je osnivač UPV i koja Transkribus softver čini dostupnim svim registriranim korisnicima.

Trenutno, Transkribus platforma Ima više od 30.000 korisnika iz cijelog svijeta, što ga čini međunarodnim referentnim alatom za sve povjesničare.


Video: 10 Scariest. Robot Moments