Varför har inte Microsoft Photosynth eller Seadragon varit mer integrerade med onlinetjänster som Flickr?

Chris HollanderJag antar att Robert bara tänkte fråga varför dessa tekniker inte implementeras i stor utsträckning på nätet, snarare än bara på Photosynth.net och några Silverlight-appar och Seadragon AJAX iframes.

Robert Beckstead, om varför du inte bara kan fråga flickr efter ett stads- eller platsnamn och genast bläddra bland alla foton på flickr i 3D, det finns några olika saker att tänka på. Här är några:

1) Fotolicenser: Många foton på flickr, andra fildelningstjänster och webben i stort är upphovsrättsskyddat. Detta innebär att om Bing Maps till exempel körde en tjänst på sina servrar hela tiden som andades in varje enskild bild på det offentliga nätet och pumpade den genom Photosynth för att beräkna deras positioner, kan fotografer stämma Microsoft och kosta Microsoft pengar. På grund av detta bestämde Photosynth-teamet att gå med en modell för att bygga en fotodelningswebbplats där alla foton som laddas upp är ansvaret för enskilda användare som uttryckligen har gått med på att låta Photosynth använda sina bilder i en synth.

Bing Maps publicerade förra året en community tech-förhandsvisning (http://www.bing.com/maps/explore/#/zxmb5v72n0ggmbsh) med endast Creative Commons licensierade, geotaggade Flickr-foton, där de använde geotaggarna till ungefärliga bilder som sannolikt skulle matcha (GPS-signaler kan vara ungefär 100 meter borta i städer, där signalerna studsar av byggnaderna eller där en person manuellt har lagt till geotaggar och taggat ett avlägset objekt, snarare än där de stod för att se det osv.) och matchade dem mot deras panoramabilder från gatan. Problemet för Microsoft är att deras panoramatäckning på Streetside fortfarande är så otroligt liten jämfört med Google Maps, att de ännu inte har tillräckligt med en trellis byggd för användarnas foton att hänga på, för att starta detta som en pågående tjänst - dvs. Photosynth i molnet för Bing Images.

Du kanske har lagt märke till att Google Maps har deras "Användarfoton" -funktion i Street View som aggressivt tar geotaggade bilder från Googles två fotograferingswebbplatser Panoramio och Picasa Web samt Flickr och webben i stort och matchar dem alla mot deras massiva Street View fotografisk katalog. Du kanske också märker att Google inte verkar bry sig om bilder är upphovsrättsskyddade eller inte. De tar ställning att om det är tillgängligt på den offentliga webben kommer Google att organisera det för att hjälpa människor att hitta saker bättre och om det skadar fotografernas känslor, då synd. Jag tror inte att Microsoft någonsin skulle kunna komma undan med den typen av övning, även om jag tror att både fotograferna och kartkillarna som vill organisera alla dessa foton, videoklipp etc. har giltiga poäng och bekymmer ..

2) Datorvision: För att bilderna i en fotosynth ska kunna bläddras av användare måste fotornas positioner och poser först beräknas. Det tar tid och även om det pågår forskning inom många datavetenskapliga avdelningar vid universitet och företagsenheter som Microsoft Research och Google Labs, tar det fortfarande en hel del tid att registrera ett stort antal foton i en enda rekonstruktion. Dagens Photosynth-app kan hantera cirka 2,000 bilder åt gången, med tanke på att din dator har tillräckligt med RAM-minne installerat. Om det fanns en 64-bitarsversion av Photosynth-appen, förutsatt att du hade en enorm mängd RAM-minne installerat på din dator, kunde du sätta ihop fler bilder åt gången, men det skulle vara en otroligt beskattningsberäkning.

Här är ett par forskningsprojekt som syftar till att öka antalet bilder som kan registreras och hur snabbt det händer:

Skelettuppsättningar för effektiv struktur från rörelse:
http://www.cs.washington.edu/homes/snavely/projects/skeletalset/

Bygga Rom på en dag:
http://www.pgrammetry.com/forum/viewtopic.php?f=34&t=101

Bygga Rom på en molnfri dag:
http://www.pgrammetry.com/forum/viewtopic.php?f=34&t=100

Att trycka på kuvertet med moderna metoder för buntjustering:
http://research.microsoft.com/apps/pubs/default.aspx?id=131806

3) Bildformat: Seadragon / Deep Zoom är ett kraftfullt sätt att surfa på visuell information, men det är beroende av att bilddata sekvenseras på ett visst sätt. Det är den verkliga nyckeln bakom att bara kunna ladda de delar du behöver när du behöver dem. Tyvärr är praktiskt taget alla bilder på webben inte formaterade på detta sätt vilket innebär att antingen:
(a) du måste övertyga webbbranschen i stort att anta ett format med flera upplösningar som Seadragons Deep Zoom Image och Deep Zoom Collection (ett gratisformat som publiceras offentligt på MSDN). Detta skulle vara svårt om det inte införs via W3C som en webbstandard, för även om det redan finns öppna källkod DZI-tittare för webbutvecklare att använda, skulle det kräva antingen en speciell kod för att kompilera en viss upplösning för användarna att ladda ner när de ville eller skulle kräver att bildredigerare skapar programvara för att öppna och redigera format med flera upplösningar.
(b) om du inte kan få alla webbplatser att konvertera sina befintliga och nya bilder till ett format med flera upplösningar, måste Microsoft skapa sina egna kopior av varje bild online och skapa en DZI-kopia av den så att en Seadragon-klient enkelt kan få tillgång till alla data (det är inte otänkbart att Bing Images skulle kunna göra detta)
or
(c) du måste övertyga skapare av bildredigeringsprogram, kameratillverkare, etc. att mata ut bilder i ett kaklat format med flera upplösningar som standard, så att innehållet som kommer från slutanvändare när de laddar upp bilder till webben redan finns i en upplösningsformat när det publiceras på webbplatser, vilket tvingar webben att stödja bildformat med flera upplösningar.

Kort sagt, det är väldigt svårt att få ett nytt bildformat antaget, med tanke på antalet bildredigerare som redan arbetar med standard .jpgs, etc. Att använda Photosynth-appen för att ladda upp bilder till photosynth.net innebär att Photosynth-teamet kunde garantera att alla bilder konverterades till DZI, men att försöka tvinga detta på andra webbplatser är svårt, om inte omöjligt. Tyvärr kommer många webbutvecklare direkt att vägra att anta ett nytt bildformat trots att fördelarna för webben skulle vara enorma, utan någon annan anledning än bildformatet kommer från Microsoft.

Det finns några intressanta projekt där ute som ser potentialen i Seadragons sätt att surfa på bilder och försöker tillämpa den på Flickr-foton. Se http://photopivot.com/ för ett exempel. Det här är mer som punkt (b) ovan där någon som tror på fördelarna med ett multi-res-format som DZI är villig att skapa sina egna kopior av flickr-foton på sina egna webbservrar och konvertera sina kopior till DZI så att slutanvändarna kan nyttja förmånerna.

När det gäller frågan om att använda Seadragon tech för att surfa på webbsidor delar jag också Roberts frustration över Internet Explorer-teamets brist på vision (och andra Microsoft-team också - Windows, Windows Live, Office, etc.).

Tyvärr, även om Seadragon var en mycket större påse med knep när den förvärvades som en start av Live Labs än att bara bläddra i högupplösta bilder (textdemonstrationerna (som, även om de använde en DZI för miniatyrändamål, bytte till att återge vektor truetypsteckensnitt när bildplattorna skulle ha varit större att lagra i RAM än texten), vektorkartdemos med powerlaw-skalning, den dynamiskt beräknade fraktala Mandelbrot-uppsättningen, etc. etc.), Silverlight-teamet, som nu äger resterna av Seadragon-tekniken , har varit nöjd med att helt enkelt ha en typ av kontroll som använder en urvattnad version av Seadragon som du kan bädda in i resten av din Silverlight-app, snarare än att Deep Zoom ska vara ett zoombart gränssnitt för varje sista bit av XAML i appens menyer .

Silverlight 5 sägs ha GPU-stöd för äkta hårdvaruaccelererad 3D, så kanske Deep Zoom-kontrollen äntligen kommer att matcha prestandan för Photosynths Direct3D-visare och den ursprungliga Seadragon-klienten från 2005/2006. Om någon på Microsoft någonsin inser att det här är användbart för mycket mer än att visa bilder vet jag verkligen inte.

GPU-acceleration har i allmänhet tagit alldeles för lång tid för att möta webbläsning. Även om grafikprocessorer började vara tillgängliga i mitten till slutet av 1990-talet via PC-spel har webbläsarskapare tagit fram till 2010 att börja arbeta med att använda datorns grafikkort för att påskynda, berika och göra flytande din webbupplevelse och de flesta webbläsare lansera slutversioner som inkluderar GPU-stöd 2011. Med detta stöd för grafikkortet på plats kan zoomningens smidighet enkelt uppnås i webbläsare, men att kunna göra detta med bilder av obegränsad storlek eller ett stort antal sådana bilder kommer fortfarande att kräver användning av en bildformatering som DZI.

Lämna en kommentar