søndag 6. januar 2013

170 milliarder tweets skal arkiveres

Når fremtidige generasjoner skal lære om vår tid vil de i tillegg til historiske arkiver og biblioteker nå også få muligheten til å søke i arkivet over alle oppdateringer, såkalte "tweets", som er postet på Twitter siden 2006. Det skal være snakk om 170 milliarder tweets totalt, like mange som det finnes nettsider på internett og et antall som øker med en halv milliard om dagen.

Det er derfor en en formidabel mengde data det er snakk om å organisere. De som skal gjøre jobben er The Library of Congress i USA. De skriver (i følge et oppslag på C-net):

"Twitter is a new kind of collection for the Library of Congress but an important one to its mission. As society turns to social media as a primary method of communication and creative expression, social media is supplementing, and in some cases supplanting, letters, journals, serial publications, and other sources routinely collected by research libraries."

I følge Fast Company har Library of Congress en avtale fra 2010 med Twitter om å få adgang til historiske tweets. Den gang var det bare sendt 21 milliarder tweets i hele Twitters levetid siden 2006, men nå har Library of Congress fått overført 150 milliarder nye tweets som er sent siden 2010. Og veksttakten øker stadig. 

Diskene som inneholder de to kopiene av alle disse meldingene tar 133 terrabytes med plass. Plassen er faktisk ikke det største problemet, for oppdateringer på Twitter består av tekst og er på maks 140 tegn. Problemet er å gjøre databasen tilgjengelig og søkbar på en fornuftig måte, slik at man kan bruke den til noe praktisk. Fast Company beskriver utfordringen slik:

"The library has experience with large digital collections. It regularly archives, for instance, websites, government databases, and policy events. But Twitter is new territory. “It’s not only very large,” Dizard says. “It’s expanding daily and at an increasing velocity. The variety of tweets is high.” Not even Twitter, which employs some of the best engineers in Silicon Valley, has attempted to create a searchable archive of tweets. That’s partly because the commercial demand for historical access pales in comparison to that for real-time advertising. But the massive server space and resources such a project would consume are certainly another factor. Jamie de Guerre, VP Product at Topsy, a private company that provides some access to the Twitter archive, compares the task of indexing Twitter to indexing the entire Internet."

Library of Congress følger med i tiden, noe de også viser gjennom å ha en egen blogg der de skriver om aktuelle prosjekter de jobber med. På bloggen kan man også finne informasjon om det store Twitter-prosjektet.