philipsandmark
- 22 apr.
- 15 min läsning

AI-nyheter, vecka 16 - samtliga länkar till nyhetsinslagen

Robotar i ditt hem? Redan nästa år? Som viker din tvätt, städar och vaktar din bostad... Kanske… åtminstone om man ska tro på Bernt Øivind Børnich, VD för det norska företaget 1X, ett av världens ledande robotikföretag i samarbete med OpenAI.

Med Adobe kommer du att kunna lägg till, eller ta bort föremål i dina filmer, redigera kläder eller hela scener, och Sora har tydligen integrerats så att även du kan använda den främsta AI-modellen på marknaden för att skapa filmer.

Google hade sin årliga megakonferens Cloud Next. Vi kan lugnt säga att AI dominerade showen. Gemini 1.5 pro kommer att integreras i så gott som samtliga av Googles molnbaserade tjänster.

Vad detta innebär och mycket mer i veckans AI-nyheter där jag tar dig in i den framtid vi redan befinner oss i.

Till 36:14

1X är ett robotik- och numera även AI-företag från Norge som bygger några av världens bästa AI-drivna robotar. I veckan intervjuades deras VD och grundare Bernt Øivind Børnich och avslöjade att vi eventuellt kan förvänta oss att se robotar i vanliga hushåll redan nästa år. Vi talar alltså här om robotar som kan hjälpa till med allt möjligt hushållsarbete som att vika tvätt, ta hand om disken, eller plocka upp efter stökiga barn. Detta är betydligt närmare i tid än allt jag hört tidigare och konsekvenserna av detta är mer påtagliga än vad en första anblick ger sken av, vilket jag strax återkommer till.

1X första robot kallas för EVE och var den första kommersiella humanoida roboten som såldes och implementerades i den riktiga världen (alltså utanför olika robotikföretags egna anläggningar) Roboten EVE’s uppgift blev att bidra med övervakning och säkerhetskontroller på några av USA’s största anläggningar för flyg- och rymdteknik, men med bättre teknik kommer även nya förmågor och 1X verkar ha kommit riktigt långt i sin utvecklingsprocess.

Roboten EVE från 1X håller nu på att ersättas av nästa generations robot från 1X som är en tvåfotad modell och kallas för NEO. Det är denna modell som kommer att börja massproduceras nästa år och blir då även tillgänglig för vanliga konsumenter. Exakt hur tillgänglig den är går såklart att ifrågasätta med tanke på vad priset blir för att ”hänga med NEO i ditt vardagsrum”. När Bernt blev tillfrågad om vad den kommer att kosta sa han i alla fall att den blir billigare än Teslas robot Optimus, som Elon Musk hävdar ska kosta runt 25 000 dollar.

Vad som gör robotar från 1X spännande nog för att de ska hamna som huvudnyhet på den här kanalen är ett par saker. Som du redan hört har det att göra med hur snart i tid vi kan förvänta oss att kunna ta in en av dessa robotar i våra egna hem, men mer än så är det implikationerna av vad robotar i den riktiga världen kommer att innebära för utvecklingen av artificiell intelligens. Jag har tidigare på den här kanalen talat om hur AI saknar en förståelse för den fysikaliska världen, så som gravitation och densitet och hur denna brist på data gör dem mindre intelligenta. Att nu låta dessa robotar arbeta i den riktiga världen gör att det som AI’n lär sig, genom alla de interaktioner den är med om, skapar tillgång till mycket värdefull data. En enkel jämförelse är att det går att läsa en bok för att förstå hur man bygger ett hus, men det är först när man bygger det där huset och lär sig från sina misstag som man blir riktigt bra på att bygga hus. Datainhämtning och tillgång till data av riktigt hög kvalitet är en fundamental byggsten i utvecklingen av mer kapabla och kompetenta AI-modeller. Om 1X är bäst på att inhämta en viss typ av data, som är sällsynt och extremt värdefull, eftersom den kräver att AI interagerar med den riktiga världen, förstår man snabbt varför OpenAI valt att investera i detta bolag på deras resa mot allmän generell intelligens och allt bättre AI-modeller.

Till: 23:57

Här vill jag även tillägga att när en robot väl lärt sig hur man gör en sak, så kan alla robotar från samma företag lära sig samma sak. I praktiken innebär detta att om du har 1000 robotar som tränar på 1000 olika saker samtidigt, så kommer alla robotar att lära sig vad alla andra robotar lärde sig, samtidigt som roboten lär sig vad den själv tränade på och alla nya robotar som tillverkas kommer att kunna det som alla tidigare robotar lärt sig. Det är ganska lätt att förstå hur robotar som EVE och NEO kan bli extremt kompetenta väldigt väldig snabbt, särskilt om de massproduceras och hamnar i alla de olika situationer som vi människor befinner oss i.

https://youtu.be/3d6ATVlKgQc?si=S_QL8PgM1W_KTiog&t=887

till 15:46

När en AI-robot sedan har lärt sig tillräckligt många förmågor genom att öva på en variation av utmaningar, sker även det som redan nu går att observera med Large Language Models, som ChatGPT. AI-roboten lär sig att förstå den fysikaliska världen och mönster i denna som gör att den får så kallade emerging capabilites – förmågor som den aldrig tränats på, men helt plötsligt kan, eftersom den har tillräckligt god kunskap om världen för att intuitivt klara av nya utmaningar.

https://youtu.be/3d6ATVlKgQc?si=-5IYh9fv2ZxsHCCe&t=1096

Till 19:10

Intressant fakta om 1X robot som är på gång är att den endast väger 30 kg och kan lyfta upp till 70 kg. Alla yttre delar på roboten är dessutom mjuka, vilket tillsammans med den låga vikten leder till att det är en väldigt säker robot att ha i närheten av människor, vilket i sin tur är en av orsakerna till att 1X kan lansera sin robot i den riktiga världen, hos vanliga konsumenter, tidigare än dess konkurrenter.

https://youtu.be/3d6ATVlKgQc?si=6_U9gK4-1fEOEKhf&t=1628

Till 27:55

Om du uppskattar den här typen av analyser hade jag varit jättetacksam om du gav en tumme upp och dela gärna med dig av dina egna tankar i kommentarsfältet, tack!

https://www.1x.tech/

------

Yann Lecun om vad som krävs för AGI och hur mycket data/information en 4 åring har tagit del av i jämförelse med den data en Large Language Model har tränats på:

AGI är ett något förvirrande begrepp, eftersom vad allmän generell intelligens är, lätt fastnar i filosofiska diskussioner om vad intelligens överhuvudtaget är, precis om diskussioner om medvetande och försök att definiera detta begrepp ständigt misslyckas. Lecun har dock ett par viktiga poänger här som jag anser vara av särskilt intresse för att vi ska kunna tala om någon sorts generell intelligens.

Robotars inträde i världen och den datainsamling som detta medför tror jag kommer att leda till att det första problem som Lecun tar upp troligen inte längre är något problem. Bernt på 1X lyfter i sin intervju fram vikten av att få ut deras robotar i den riktiga världen, och specifikt de miljöer som utgör den vanliga konsumentens värld, där alla de utmaningar vi människor stöter på, som kan framstå som enkla, exempelvis kliva in i ett hem, leta sig fram till köket, sätta på vattnet, hitta kaffekokaren och koka sig en kopp kaffe, egentligen är extremt komplexa utmaningar för en AI-modell. Det krävs helt enkelt att AI’n har en väldigt god världsbild, eller som det kallas på engelska world model, för att den ska förstå hur den utför en uppgift i flera olika steg. Dessutom krävs det en god dos ingenjörskonst för att tackla de motoriska utmaningar som vi tar för givet, tack vare våra händer, fingrar och leder, samt den balans och känsel som krävs för att utföra en till synes enkel uppgift som att koka en kopp kaffe. Moravec’s paradox: https://sv.wikipedia.org/wiki/Moravecs_paradox

Bernt om embodiment:

https://youtu.be/3d6ATVlKgQc?si=-Vw3W3-Oznk4YyX7&t=2315

------

Appropå robotar har forskare vid Google DeepMind och Cambridges universitet nyligen lärt små humanoida robotar att spela fotboll mot varandra. Det ser kanske mest bara gulligt ut, men vad som pågår i de bildsekvenser du ser är de första stegen mot en revolutionerande framtid, med extremt komplex inlärning och robotik.

Forskarna lärde först ut grundläggande färdigheter som att gå och resa sig upp, för att sedan låta robotarna öva på att spela mot gradvis förbättrade versioner av sig själva.

Jämfört med den första generations robotar som forskarna använde sig av, förflyttade sig de AI-tränade versionerna nästan 3 gånger snabbare, vände sig om 5 gånger snabbare och reste sig upp från fall 63% snabbare.

Forskarna upptäckte vidare att AI:n hjälpte till att lära robotarna riktigt smarta strategier, som att ta korta, snabba steg när de försvarade sig utan att uttryckligen bli tillsagda att göra det.

https://twitter.com/GoogleDeepMind/status/1778377999202541642

Robotar är defintivt på gång, men jag tror inte ens att Google räknade med att man skulle se dem hemma hos folk redan nästa år.

https://www.adobe.com/se/acrobat/pdf-reader.html

Adobe är ett företag som många kanske framför allt associerar med ett program som fungerar som en PDF-läsare.

De tillhandahåller dock ojämförbart mer kraftfulla verktyg inom exempelvis bildredigering och videoproduktion med Adobe Premiere Pro.

https://podcast.adobe.com/enhance

Jag använder själv Adobe Podcast för att förstärka ljudkvaliteten på min mikrofon, så här låter min röst utan Adobe Podcasts AI, och så här låter den när den har förstärkts.

Nu har Adobe presenterat en hel rad AI drivna verktyg som man kan använda sig av i Premiere Pro och som kommer att lanseras någon gång det här året.

Du kan exempelvis lägga till föremål med hjälp av Adobe Firefly

Eller ta bort föremål…

Vilket kan vara särskilt användbart om man behöver redigera filmer som innehåller varumärkeslogotyper

Dessa funktioner ger följaktligen dig som kreatör möjligheten att låta din kreativa sida få full genomslagskraft.

Här är några exempel på hur filmscener kan redigeras i efterhand:

Byt kläder eller utstyrsel

Förläng en videosekvens så att den passar den känsla du vill fånga i filmen

Adobe har även ett samarbete med tredjepartsföretag, varav ett par har tagits upp på den här kanalen tidigare, exempelvis Pika och Runway, men det absolut största med detta tredjepartssamarbete är att Adobe avslöjar att de har ett samarbete med OpenAI’s AI modell Sora – En AI som medför enorma framsteg inom videoproduktion. Att man dessutom får tre variationer på den scen man promptar och därefter kan välja den som passar bäst är helt klart något som underlättar filmskapandet.

Värt att nämna är att du redan nu kan skapa bilder gratis med hjälp av Adobe Firefly.

https://firefly.adobe.com/

Här är ännu en påminnelse om utvecklingen av Deepfakes och hur lätt det är att bli lurad av vad du ser på Internet. Det du ser sker i realtid och visar alltså hur AI helt kan förändra utseendet på en person och i det här fallet göra en man till en kvinna. Att det sker i realtid är särskilt skrämmande eftersom man lätt kan bli lurad att tro att det man ser är på riktigt eftersom man exempelvis kan be personen man talar med i en chatt att göra en handrörelse eller något liknande, som bevis för att det man tittar på inte är något tidigare inspelat material. Jag säger det igen, det går inte att lita på något du ser på Internet längre... förutom den här nyhetskanalen då så klart.

https://x.com/nickfloats/status/1779936149793914998

Hur lätt det är att kapa någons identitet med hjälp av AI och få dem till att säga saker de aldrig sagt är troligen orsaken till att Microsoft håller inne på den här AI-modellen som de utvecklat. Med hjälp av ett endast ett foto återskapar de munrörelser och känslouttryck bättre än jag sett någon annan göra tidigare. Det är fortfarande något uncanny valley över filmerna som skapas av stillbilden, men återigen, det här är det sämsta Microsoft någonsin kommer att vara på det här.

https://www.microsoft.com/en-us/research/project/vasa-1/

Här är ytterligare ett exempel som är intressant då det visar olika filmer som skapats med hjälp av samma originalbild, men där man promptat AI’n att lägga till ett visst känslouttryck till ansiktet, från neutralt till glatt till argt till förvånat.

Googles stora konferens - Cloud Next 2024 - handlade helt och hållet om AI. Det finns mycket att säga om det som presenterades av Google och följande är endast ett axplock som jag anser berör de mest intressanta delarna. Värt att nämna är att Google såklart vill sälja sina egna tjänster och produkter, vilket är orsaken till att jag sållat ganska friskt i syfte att göra det enklare för dig att förstå vad som faktiskt är AI-nyheter. Dessutom har jag svårt att rekommendera någon att titta på eventen med tanke på hur överdrivet cheezy Googles presentatörer är.

Det kan vara en kulturkrock, men hur man som företag bygger förtroende med den här typen av överdrivet tillgjorda personligheter, är för mig helt oförståeligt. Oavsett fanns det en del intressant information och det ger mig även en möjlighet att berätta mer om Googles egenutvecklade AI, som heter Gemini, och vad som är så speciellt med den.

https://www.youtube.com/live/V6DJYGn2SFk?si=LdV9RMf4DmOGsH4U

Till skillnad från ChatGPT, som endast är tränad på text och därför kallas för en Large Language Model, är Gemini multimodal, vilket innebär att den utöver text tränats på ljudklipp, bilder och filmer.

Gemini 1.5 är Googles mest avancerade AI-modell och är jämförbar med ChatGPT 4 när det kommer till dess förmåga att resonera och generera den typ av svar som vi användare önskar att få. Innan jag går in på de unika egenskaper som denna AI-modell har, och som får den att stå ut i jämförelse mot ChatGPT4, vill jag kort förklara skillnaden mellan de versioner av Gemini 1.5 som finns tillgängliga.

Gemini 1.5 kommer i tre versioner, där Nano är deras enklaste modell, Pro är mellanversionen och Ultra är deras mest avancerade AI-modell. Orsaken till att man har skapat 3 versioner av samma modell är att beräkningskraften och energidriften är betydligt högre med Gemini 1.5 Ultra, den mest kapabla modellen, men det är inte alltid som man behöver hjälp av en AI som kräver de dyraste uträkningarna.

Hur som helst är det värt att förstå vad som gör Gemini 1.5 annorlunda från ChatGPT4. För det första kan Gemini ta emot en betydligt större mängd information från dig som användare i jämförelse med ChatGPT4. Den här bilden illustrerar tydligt dessa skillnader där vi ser att Gemini 1.5 Pro, som då alltså är mellanversionen, klarar av att ta emot 1 miljon tokens, vilket motsvarar cirka 700 000 ord, 30 000 linjer kod, 11 timmar ljud, eller 1 timme film.

https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#architecture

Om du inte vet vad tokens är så kan du på ett enkelt sätt göra en jämförelse med en valuta där en viss typ av information kostar ett visst antal tokens, vare sig det är text, ljud eller filmer.

Gemini 1.5 är även extremt bra på att hitta vad som kallas för nålen i höstacken, alltså precis den lilla del som du letade efter i det berg av information som du kan prompta den med. För att förstå detta bättre kan du föreställa dig att du ger Gemini 7 böcker på 100 000 ord var och sedan ber den att hitta precis den del i dessa böcker som svarar på din fråga. Att utföra den här typen av uppgifter har tidigare varit begränsad av AI’s förmåga att komma ihåg det som du sa till den i början av en prompt. Tänk dig själv när du förklarar något för en människa och hur det som du sade i början av samtalet lätt går förlorat eftersom konversationen fylldes på med så mycket mer information.

https://deepmind.google/technologies/gemini/#gemini-1.5

Nog om detta och låt oss gå tillbaka till Cloud Next eventet. Gemini 1.5 Pro integreras nu, på ett eller annat sätt, i så gott som samtliga av Googles tjänster. De gör detta med hjälp av så kallade agenter, alltså specialtränade versioner av Gemini 1.5, som därefter kan fortsätta att utvecklas med hjälp av varje företags unika data. Syftet med detta är såklart att automatisera arbetsuppgifter som är direkt relaterade till det som olika företag sysslar med. För att bättre förstå dessa agenter kan du föreställa dig att de var och en har en specialitet där en är bättre på kreativa uppgifter, medan en annan är bättre kundrelaterade frågor. Dessa agenter kan därefter samarbeta för att på bästa sätt lösa en och samma uppgift. Att dessa AI-agenter tar hänsyn till ett företags unika data, vare sig det handlar om tekniska beskrivningar, kundrelaterad information eller varför inte analyser kring mode och trender som ett företag inhämtat, är riktigt intressant och du som kund kommer troligen att märka av en mycket mer personlig upplevelse när du shoppar inom kort. För företag som vill använda sig av Googles AI-agenter blir det enkelt förklarat som en uppsjö av mobilappar, där det går att hitta det verktyg som passar ens eget företag bäst. En app som dessutom går att anpassa ytterligare och göra personlig i relation till varje företags unika förutsättningar.

Utöver detta presenterade Google sin AI Hypercomputer som enkelt förklarat är en extremt kraftfull superdator, förmögen att klara av extremt krävande beräkningar och optimerad för att göra detta med hjälp av kombination av grafikkort och tensor processorer. Att förklara vad tensor processorer är på den här kanalen, tror jag blir lite overkill, men likt grafikkort är det en processor som i det här fallet är särskilt utvecklad för att göra den typ av beräkningar som en AI behöver göra.

Med tanke på hur långt det här inslaget blev vill jag bara sammanfatta Googles Cloud Next event med att Google fortsätter bygga ut sin infrastruktur för att möta de behov som företag har av AI i framtiden och Googles utveckling av armbaserade processorer som Axion verkar ligga helt och hållet i linje med Ray Kurzweils förutsägelser om AGI – Allmän Generell Intelligens – och hur kostnaden för antalet uträkningar per sekund per dollar följer en exponentiell tillväxtkurva, eller vad sägs om att Axion påvisar 50 % bättre prestanda än jämförbara modeller, samtidigt som den är 60 % mer energieffektiv? Om du inte har koll på vad AGI är och hur en AI modell som är så kompetent att den klarar av att utföra större delen av alla mänskliga kognitiva uppgifter innebär, rekommenderar jag dig att kolla in Veckans AI-nyheter vecka 14.

https://cloud.google.com/blog/products/compute/introducing-googles-new-arm-based-cpu

I slutet på den här veckan kom så slutligen ännu en nyhetsbomb. Meta har nu släppt sin Open Source modell Llama 3 och den är galet bra för att vara Open Source. Meta har historiskt sett (vilket är lite kul att säga med tanke på att vi bara talar om ett år tillbaka i tiden här) varit drivande i utvecklingen av öppna AI-modeller – Öppna AI modeller är en AI som man helt enkelt kan ladda ner till sin dator där hemma och göra vad man vill med, vilket inkluderar bygga en specialiserad AI till företag eller för privat bruk, vilket även innebär att man aldrig behöver dela med sig av information till tredje part.

Här är först och främst en benchmark-översikt som visar hur mycket bättre Llama 3 är:

https://llama.meta.com/llama3/

MMLU-benchmarken är den första delen jag vill lyfta fram. MMLU står för Massive Multitask Language Understanding och mäter enkelt förklarat hur bra en AI är på att resonera över ett brett spektrum av olika ämnen genom att bedöma dess förmåga att förstå och tillämpa kunskap. Man kan säga att MMLU är en viktig benchmark för att förstå hur intelligent AI’n är.

Jämför man då Llama 3’s minsta modell med motsvarande öppna modeller som Googles Gemma (en betydligt enklare modell än Gemini,) eller Mistrals AI-modell ser man snabbt hur mycket bättre den är. AI-modeller som är så här små och endast består av 7 miljarder parametrar är så små att de kan få plats på exempelvis en nyare version av iphone och vi ser månad för månad en utveckling där förbättrade förmågor hos AI-modeller, som blir allt mindre, leder till att du troligen snart kan ladda ner en AI lika bra som ChatGPT4 på vilken smart phone som helst.

Om man sedan jämför Metas större AI-modell av Llama 3, som består av 70 miljarder parametrar är den till och med snäppet bättre än Googles Gemini 1.5 pro – den modell som jag nyss berättade om att Google integrerar i sina molntjänster och som i sin tur är jämförbar med förmågorna hos ChatGPT4 (även om ChatGPT4 inte ingår i den här benchmarken). I praktiken innebär detta att man nu kan ladda ner ChatGPT4 till sin egen dator och göra vad man vill med den, vilket i sig är något skrämmande med tanke på hur kompetent version 4 är i jämförelse med ChatGPT 3.5.

En annan benchmark värd att nämna är HumanEval som mäter hur bra Llama 3 är på att skriva kod och på första försöket klarar av att skriva all kod som behövs för ett spel som snake.

Llama 3 har specifikt tränats på en betydligt större mängd data för kod, vilket är en förmåga som vi direkt kan se att dessa mindre modeller tidigare saknat förmåga att hantera på ett tillfredsställande sätt.

Vidare har även de matematiska förmågorna förbättrats avsevärt, där exempelvis GSM8K är en benchmark som undersöker matematiska problem med en svårighetsgrad upp till och med högstadiematematik. Särskilt anmärkningsvärt här är att Metas större AI-modell av Llama3 även på denna punkt är bättre än Gemini 1.5 pro, vilket är riktigt imponerande.

Utöver dessa tydliga förbättringar enligt benchmark tester har Llama 3 förmågan att generera bilder medan du skriver in i din prompt, vilket du kan se i det här exemplet, samtidigt som den kan skapa kortare videoklipp:

https://twitter.com/ai_for_success/status/1781146831621406758

Extra intressant är att Llama3 håller på att tränas som en ännu större modell än den med 70 miljarder parametrar som är jämförbar med ChatGPT4. Meta kommer troligen snart att släppa information om deras 400 miljarder parametrar stora modell och om man jämför skillnaderna Llama 3 på 8 miljarder parametrar och den på 70 miljarder parametrar, så kommer ett hopp till 400 miljarder parametrar innebära att Llama3, en open source modell, fri för alla att ladda ner och göra om till en AI-modell efter egna behov, blir den överlägset mest kapabla AI-modellen på marknaden. Konsekvenserna av detta är smått oförutsägbara.

Jag måste återigen poängtera hur otroligt snabbt det går med utvecklingen av mer kapabla AI modeller och orsaken till att jag tar upp detta är att de flesta av oss har en bild av att teknikförbättringar självklart sker över tid, men vi fastnar ändå lätt i bilden av att man bara får en smått bättre version när, exempelvis, nästa generations Iphone kommer. I fallet med förbättrade AI-modeller talar vi om så otroligt stora förbättringar att deras förmågor blir näst intill väsensskilda från vad föregående generations AI innebar och dessa förbättringar sker med en hastighet av 9-12 månader. Exponentiell tillväxt är inte särskilt svårt att förklara, men väldigt svårt att förstå.

Denna veckas AI-nyheter avslutas med en musikvideo som skapats av Daniel Eckler

https://twitter.com/daniel_eckler/status/1778421669201093057

Han har även en komplett guide som förklarar varje steg och hur han gick tillväga för att åstadkomma detta sanslösa musikstycke som är väl värt att ta en titt på för dig som vill lära dig mer. För att se hela videon hittar du en länk i beskrivningen till den här filmen så att du får en möjlighet att stötta den person som ligger bakom det här arbetet. Om du är intresserad av AI och musik kanske det här är din väg in i AI-världen. Om jag bara hade tiden till det hade jag absolut skapat en kanal med AI genererad musik och musikvideos…

https://twitter.com/daniel_eckler/status/1778869973232103589

Om du vill hålla dig uppdaterad med de senaste nyheterna dagligen kan du följa Lär Med AI på X. Hoppas du fann den här sammanfattningen av veckans AI nyheter användbar och intressant. Om du vill hjälpa den här kanalen är det bästa du kan göra att sprida innehållet till fler och en like och en kommentar hjälper Youtubes algoritm att göra detsamma. Tillsammans utbildar vi Sverige som en AI-nation. Ha det bra!

AI-nyheter, vecka 16 - samtliga länkar till nyhetsinslagen

Senaste inlägg