Mars 1989 beskrev Tim Berners-Lee hur information skulle kunna utbytas via Internet genom
hypertext. 1990 hade visionen realiserats och fått namnet
World Wide Web (
CERN 2006). Senare uppstod den svenska termen
webben.
Den semantiska webben innebär en ny form av innehåll på webben. Informationen är semantiskt uppmärkt och skall därmed lösa problemet att maskinellt bearbeta naturligt språk. Gemensamma format för integration av data från olika källor och beskrivningar av hur data relaterar till reella objekt skall låta en person, eller maskin, använda en oändlig mängd av databaser. Databaser knutna till varandra genom semantisk likhet (
Herman 2007).
Tim Berners-Lee, James Handler och Ora Lassila beskriver fenomenet i den mycket läsvärda artikeln
The semantic web: A new form of web content that is meaningful to computers will unleash a revolution of new possibilities vilken legat till grund för den här artikeln.
Den semantiska webben sågs till en början som en del av Web 2.0 men ses nu som en självständig företeelse (
Ahlberg 2007). Det finns även exempel då den semantiska webben har benämnts
Web 3.0, se
Carr (2006) och
Ives (2007). Den semantiska webben är dock en väletablerad benämning och den som används av
World Wide Web Consortium. Medan Web 2.0 är ett nytt sätt att använda webben som en plattform innebär den semantiska webben en webb där information är lagrad så att den kan utnyttjas maskinellt.
Information på den semantiska webben representeras genom metadatamodellen
Resource Description Framework (RDF). Metadata är information som tilldelas information. Ett tydligt exempel är bibliografisk klassifikation: de koder som som finns på bokryggar i bibliotekshyllor informerar om den information som finns i böckerna. RDF är således en metod för att beskriva information, och som sådan utgör den en mycket viktig beståndsdel av den semantiska webben.
Den semantiska webbens beståndsdelar
RDF använder tripletter motsvarande subjekt, objekt och predikat i naturligt språk för beskrivningar. Tripletterna skrivs ofta med
XML-syntax, men även andra format är möjliga. Strukturen i RDF-uttryck kan förstås som en graf[1] där subjekt och objekt utgör noder som länkas samman av predikat. Grafen är riktad så att subjekt alltid pekar på objekt (
Klyne & Caroll 2003, kap. 3.1).
För identifiering av subjekt, objekt och predikat används
Uniform Resource Identifier (URI). Därmed kan ett nytt begrepp definieras genom att en URI anges. En URI är en unik teckensträng, enligt syntaxen hos ett
URI-schema, som identifierar en specifik resurs. Först i en URI anges schemats namn och ett kolon, därefter bestäms syntaxen av vilket schema som används. Två exempel på URI:er är:
http://www.web20kurs.se/wordpress/index.php och urn:isbn:91-7018-324-4.
Begreppen URI, URL och URN kan lätt leda till förvirring och synen på dem har förändrats övertid. Ursprungligen sågs URI som ett överordnat begrepp som omfattade både URL och URN. Det ansågs att en resurs kunde identifieras antingen genom dess placering (URL) eller dess namn oberoende av placering (URN). Distinktionen mellan URL och URN har dock avtagit i betydelse och URL utgör idag en informell, men användbar, beteckning på URI:er enligt "http:"-schemat (URI Planning Interest Group 2001).Utsagor uttryckta som RDF kan kombineras för deduktiva slutledningar. På så vis kan en dator ge ett svar på en fråga, istället för att som i dagens sökmotorer returnera en träfflista.
Två skilda databaser kan emellertid använda olika URI:er för samma begrepp. Därför behövs en struktur som specificerar de termer som används och relationerna mellan dem. Inom
datalogin används termen
ontologier för sådana strukturer.
Ontologier strukturerar information i
klasser av
objekt,
attribut och
relationer mellan klasser. Attribut utgör egenskaper hos en klass som används för dess beskrivning.
Digitala signaturer gör det möjligt att identifiera vem som skrivit vad. På så vis går det att bedöma tillförlitligheten och använda informationen därefter. Det finns också en tanke om att förfalskad data skall kunna filtreras bort helt. Som illustrationen visar är digitala signaturer en nödvändig komponent för att uppnå en tillförlitlig webb. Den semantiska webben innebär just att information kan användas i dess rätta sammanhang och den kan kontrolleras.
En förutsättning för att den semantiska webben skall komma till stånd är att informationen på webben beskrivs med RDF. Sådana beskrivningar skall kunna genereras från redan existerande informationskällor, t.ex. med
XSLT. Det krävs således inte några enorma kunskaper för att bidra till utvecklingen (
Palmer 2001). Det kommande
XHTML 2.0 kommer också att innebära ett stort steg i rätt riktning för att nå visionen.
Noter:[1] Grafteori är ett matematikområde med stor relevans för datalogi. Mycket kort kan en graf beskrivas som ett nätverk av punkter. Punkterna benämns
noder och förbindelser mellan dem kallas
kanter. Två förbundna noder utgör
grannar.
Källor och litteraturtips:
Ahlberg, Jonas (2007).
Den semantiska webben.
Jonas webresurs.
Berners-Lee, Tim, Handler, James & Lassila, Ora (2001).
The semantic web: A new form of web content that is meaningful to computers will unleash a revolution of new possibilities.
Scientific American, maj 2001.
Carr, Nicholas (2006).
Welcome to Web 3.0!.
Rough type: Nicholas Carr's blog.
CERN (2006).
info.cern.ch: The website of the world's first ever web-server.
Herman, Ivan (2007).
W3C semantic web activity.
Iselid, Lars (2001).
Den semantiska webben - ny revolution på Internet?.
Datormagazin, nr 8.
Ives, Bill (2007).
Semantic web: Is this Web 3.0?.
Portals and KM.
Klyne, Graham, ed. & Carroll, Jeremy J., ed. (2003).
Resource description framework (RDF): Concepts and abstract syntax.
Palmer, Sean B. (2001).
The semantic web: An introduction.
Shadbolt, Nigel, Berners-Lee, Tim & Hall, Wendy (2006).
The semantic web revisited.
IEEE Intelligent Systems, vol. 21, no. 3, s. 96-101.
URI Planning Interest Group.
URIs, URLs, and URNs: Clarifications and Recommendations 1.0 (2001).