Googles nya bildformat gör att vi ser förändring

2010-10-07

Technology Review såg jag att Google föreslagit ett nytt bildformat som de kort förklarar enligt:

"It works like this: software converts an image stored in another file format to the WebP format by looking at a block of 16 pixels in the original image, and noting the color of each pixel in that block. The software then predicts what the pixel colors in an adjacent block of 16 pixels will be, based on the first block. Finally, it compares the predicted values to the actual colors of the pixels in the next block. If the WebP algorithm's educated guess is correct, no additional data needs to be added to the compressed image file."

Från: A Look Inside Google's New Image Format

Bättre komprimerade bilder är givetvis utmärkt för alla på nätet. Mer intressant menar åtminstone jag med detta är dock följande:

  • Vi kan jämföra detta med huffmankodning där det här sker rekursivt ner till geometriska delmängder av bilden.
  • Precis som för huffmankodning får vi implicit entropin uttryckt.
  • Därmed ser vi här mycket enkelt utan att tunga extra beräkningar när vi tittar på en bild var förändringar i bilden sker.
  • Det motsvarar t.ex. var något börjar och slutar.
  • Att ta ut objekt ur bilden blir därför mer beräkningseffektivt även om andra åtgärder fortfarande krävs.
  • Vidare får man troligt också uttryckt vad som kan vara snabba rörelser i en bild då jag tror att det märks i förändringshastigheten i närheten av objekt där de skiljer sig något om de rör sig även med kameror svåra att misslyckas med.

Technology Review skriver att Google redan använder detta för filmklipp t.ex. på Youtube. Där har vi samma värde men också utefter tidsdimensionen d.v.s. man kan exempelvis utnyttja detta för att mer effektivt identifiera tidpunkter när något händer (det kan säkert finnas effektivare metoder för det också men vad som gör den mest effektiva komprimeringen kommer alltid vara bättre givet att man inte utanför filmklippet kan begränsa mängden man beaktar d.v.s. vad som är effektivare måste uttrycka informationen antingen kortare eller bättre anpassat för en befintligt implementerad algoritm där besparingen snarast ligger i att inte koda om denna). En funktion för att hoppa över eller i editering skära redundant tid när ingenting händer från filmklippet är en möjlighet som finns.

Ska man peka på en möjlig nackdel med algoritmen är det att den från den här aspekten hade kunnat addera mer på klientens beräkning för att göra detta lättare att dra nytta av men syftet är komprimering och vad vi diskuterar här är ju en möjligheter som kommer utanför komprimeringen.

Det uppenbara alternativet om man vill analysera bilder från den här aspekten annars är att själv sitta och översätta bilderna till en representation man kan mata en modell av visuell perception för. Här får man troligen betydligt mindre arbete man behöver göra för att exempelvis identifiera alla bilder som innehåller en hund eller en cirkel o.s.v.

Lika intressant kan vi utnyttja detta - givet att vi kan identifiera nya bilder - förändringshastigheten av entropin som uttrycks av bilderna. Fotograferar folk saker med fler objekt? Situationer där fler saker händer? Hur är ljusstyrkan i bilderna från personer boende i en viss region? Skiljer sig den ljusstyrkan från en annan bild från regionen? Fotograferar folk oftare hus? Eller oftare människor?

Förändring i entropi uttryckt för ett alfabet man närmast godtyckligt kan uttrycka är väldigt flexibelt. Vad som kvarstår när man kan göra det effektivt är endast att beskriva vilken förändring i annan entropi det speglar t.ex. humör eller preferenser i vad man gör på semestern eller om folk föredrar att röra sig ute eller inte. Blev de mer passiva eller mer rörliga efter en given händelse eller tidpunkt?

Kulturella avstånd

Hade vi i den här målningen istället sett några hästar i fjärran som personerna står och pekar på, och vi sedan inte återfinner något annat av karavanen än målningen kan vi gissa att det var rövare som de råkade ut för. Utan bildanalys är det dock inte ens säkert att man lägger märke till sådana detaljer. Med denna algoritm kan vi dock få förändringar mot omgiven detekterade billigare därför att klienterna har gjort delar av arbetet.


Karavaner representerar ju också lång kommunikation där avståndet är stort vilket innebär större risker, högre krav på organisation, mer kapital och omfattande kunskap men ger också en större utdelning. Det motsvarar vad jag kallar kulturellt avstånd modellen (se t.ex. Organisation skapar intelligens och är internets största utmaning).

Vi byter information med varandra där det idag inte längre nödvändigtvis motsvarar mat eller överlevnad utan det kan uttrycka värde också utanför det enkelt att konstatera för pengar där den relationen luckrats upp under lång tid - utan snarast den belöningsstyrda mekanismen i sig oavsett om det är en känsla att vara rik, att bygga makt, ett nöje av att avsluta något man är nöjd med eller din direkta stimulans via samma mekanism men annorlunda uttryckt hierarkiskt i hjärnan som inlärning ger.

Samma sak kan vi säga gälla webben där värdet Google tar av att analysera en bloggs länkar ger dem något men det tillför också personen värde genom att sökmotorn kan användas. Det är mycket lång kommunikation men den ligger högt i en dimension som ger bredd till antal men där de ligger lägre för den andra sidan som vi kan se so att grupper möts individuellt ofta förhandlande.

Kulturella avstånd är också vad bilder kan uttrycka en approximation av sett för ett företag, en person eller en stad relativt en större population. D.v.s. vad de ser behöver inte så mycket uttrycka som att de skiljer sig åt vilket det givetvis också kan göra men när vi betraktar situationen att andra likheter finns i grunden kanske det på hur snabbt de tar in nya impulser där vi exempelvis kan förvänta oss att Kalifornien uttrycker mer av det än Alaska.

Sådant är dock vad som kan ge värde men som vi ofta kan känna ett visst motstånd mot och ibland reagerar hela länder irrationellt här vilket jag menar var vad Japan drabbades av när de efter många hundra år av nästan total isolering plötsligt började försöka erövra resten av världen.

Det är en extrempunkt där risken för den minskar genom kontinuerlig kommunikation där isolering undviks. Men där man också har viss respekt för att det bäst sker med viss medveten om att småsteg kan vara bättre (jämför bygget av moskén i närheten av Ground Zero där det är en positiv sak men lite extra avstånd utåt hade kanske varit bättre för att realisera det värdet).

Förövrigt ej från Google men delvis finansierat av dem har vi också följande kanske mer intressant för många (ev. mig också) där ju förövrigt vad det visar kan vara ett skelett för att sortera vad du ser i bilder lika väl som text:

NELL: Never-Ending Language Learning

Notera att de publicerar relationerna vilket är excellent. Det är statistik intressant för många (jag kan se att den kan skapa värde för mig). Existensen förtjänar vårt gillade. Mycket går att bygga från det, det är användbart för grundforskning och det är kanske också något vi behöver hemmahörande i ett annat område av statistisk bedömning.

Jag ska dock återvända till NELL längre fram (troligen) och peka på ett sett att se på det där man adderar ett inlärningslager - egentligen ganska uppenbart om man tänker tillbaka hur vi själva lär oss att tala de absolut första åren - relaterat till kulturella avstånd d.v.s. effektivaste inlärningen är inte endast relaterat till korrekthet i en relation i sig där man kanske givet att ett strukturellt mönster finns kan deducera ut rekursiva relationer.

Inga kommentarer:

Skicka en kommentar