2024.11.30. 06:00
Régimódi? Használjon papírt, a számítógép mégis segíteni fog (videó)
Elkészült a „Feels Like Paper!” nevű, papíron használható mesterséges intelligencia felület.
Feels Like Paper!
Forrás: Lucas Moreau
A számítógépekkel ellentétben a papírról sokan úgy tartják, hogy sokkal jobb könyvolvasásra, egyszerű jegyzetek és emlékeztetők készítésére. Lucas Moreau kifejlesztette a „Feels like Paper!”-t, ami lehetővé teszi mesterséges intelligencia használatát kézírással, közvetlenül a papíron.
A „Feels like Paper” sorozat három prototípusból áll: „Maths & Questions”, „Mark & Comment” és „Draw & Dream”.
A Maths & Questions app lehetővé teszi a felhasználóknak, hogy matematikai képleteket írjanak papírra, miközben MR (mixed reality) fejhallgatót viselnek: a papíron megjelennek a számítási eredmények. A rendszer az Apple Vision Framework API-ját használva matematikai képleteket használ, automatikusan felismeri az egyenlőségjeleket és a kérdőjeleket, és elküldi az olvasott képleteket egy nagyszabású nyelvi modellnek az eredmények kiszámításához. Nézzük csak:
A kézzel írt betűk animációját Moreau szerint „mintha egy barátságos szellem írná”.
Ha a felhasználó jelölővel kiemel egy papírra írt mondatot, a számítógépen ugyanaz a mondat valós időben kijelölődik.
Ha valaki beszéd közben a kisujjával érinti a papírt, a hangot automatikusan rögzítik, és az AI Whisper átírja digitálisra. A megjegyzések automatikusan megjelennek a kiemelések felett.
Ezen kívül a Mark & Comment” feldolgozás során, miután OpenCV használatával optikai karakterfelismerő folyamattal konvertálták az írást, elég kézírásban válaszolni, a GPT-4o besegít.
A „Draw & Dream” alkalmazás valós időben konvertálja a papírra kézzel rajzoltakat a számítógépen videóvá. Úgy működik, a felhasználó által rajzolt kép automatikusan bekerül az AI StreamDiffusion képgeneráló rendszerbe, amely a promptnak (leírt parancsnak) megfelelően generálja a képet. Ennek a generált képnek a videója valós időben jelenik meg a Unity alkalmazáson keresztül.
Morrow képfeldolgozó folyamatot implementálta Pythonba, hogy a megrajzolt képeket StreamDiffusionba táplálja. A „Brute-Force matcher” használatával az egymást követő képkockák jellemzőit illeszteti össze, és a homográfia segítségével mintegy madártávlatból láttatja a képet.
Szerinte a generatív mesterséges intelligencia nem csupán technikai eszköz, hanem segít az embereknek saját alkotásaik elkészítésében, olyan interakciókat biztosít, amelyek tovább serkentik kreatívitásukat.
Digitália
- Már a LinkedInen is átvernek: hogyan védekezhetünk?
- Aggasztóan hosszú kommunikációs csönd után végre hazatelefonált az űrhajó
- Milyen hatással van az immunrendszerünkre, ha félelemet ébresztő helyre megyünk?
- Magassági rekordot döntött ez a repülőgép, visszahozhatják a szuperszonikus járatokat
- Mi lett az év szava 2024-ben? A romlás