近日,達(dá)晨財(cái)智完成對視頻大模型公司愛詩科技億級A1輪融資領(lǐng)投,光源資本擔(dān)任獨(dú)家財(cái)務(wù)顧問。資金將主要用于底層視頻大模型的技術(shù)研發(fā)及團(tuán)隊(duì)搭建等方面。
2024年2月,OpenAI發(fā)布Sora之后,在視頻大模型行業(yè)掀起了新的風(fēng)浪,愛詩科技也因此受到廣泛關(guān)注。愛詩科技由字節(jié)跳動前視覺技術(shù)負(fù)責(zé)人王長虎創(chuàng)辦于2023年4月,專注于打造全球頂尖的AI視頻生成模型及應(yīng)用,并服務(wù)于營銷、廣告、游戲等內(nèi)容創(chuàng)作行業(yè)。王長虎是人工智能領(lǐng)域的專家,也有豐富的產(chǎn)品經(jīng)驗(yàn)。他博士畢業(yè)于中國科學(xué)技術(shù)大學(xué),2009年畢業(yè)后,擔(dān)任過微軟亞洲研究院主管研究員,曾在新加坡國立大學(xué)擔(dān)任研究工程師。2017年初,王長虎加入字節(jié)跳動,任人工智能實(shí)驗(yàn)室總監(jiān)、集團(tuán)視覺技術(shù)負(fù)責(zé)人,搭建了視覺技術(shù)團(tuán)隊(duì)和視覺算法平臺和業(yè)務(wù)中臺,并支撐了抖音和TikTok等產(chǎn)品從0到1的建設(shè)和發(fā)展。這是王長虎第一次創(chuàng)業(yè),他表示:“我一直有一個(gè)創(chuàng)業(yè)的情結(jié),想要嘗試從0開始,孵化技術(shù)和產(chǎn)品,用人工智能影響和幫助盡可能多的企業(yè)和用戶。UGC向AIGC轉(zhuǎn)變過程中存在大量的機(jī)會,我們想抓住這個(gè)機(jī)會?!?/span>眼下,整個(gè)視頻行業(yè)被Sora的驚艷亮相炒的風(fēng)風(fēng)火火,有人把Sora的出現(xiàn)形容為視頻生成領(lǐng)域的ChatGPT時(shí)刻,OpenAI和其他公司的差距正在進(jìn)一步拉大,創(chuàng)業(yè)公司很難出頭。王長虎持有相反的觀點(diǎn),他認(rèn)為,目前Sora的技術(shù)發(fā)展相當(dāng)于在GPT2和GPT3之間,還沒到GPT-4的水平,留給市場的空間很大。在他看來,視頻模型的生成能力好壞體現(xiàn)在三個(gè)維度:第一,準(zhǔn)確性,即判斷生成的視頻內(nèi)容是否和輸入的prompt或圖片匹配,符合用戶預(yù)期;第二,一致性,即生成的視頻中的主體、背景和運(yùn)動是否有連貫性,是否符合真實(shí)世界的物理規(guī)律;第三,信息豐富度,即在一段時(shí)間內(nèi)生成的視頻是否能夠呈現(xiàn)足夠的故事性。王長虎提到,Sora的生成視頻效果確實(shí)比現(xiàn)在市面上的視頻大模型要好,對于整個(gè)行業(yè)和愛詩科技而言,是挑戰(zhàn)也是機(jī)會。“一方面,Sora采用了DiT(Diffusion Transformer)的技術(shù)路線,驗(yàn)證了該架構(gòu),其次,Sora出現(xiàn)之后整個(gè)AI視頻生成行業(yè)會迎來新的爆發(fā)性機(jī)會,愛詩作為最早入局的公司之一,更有機(jī)會去追上并趕超Sora,在這個(gè)賽道取得一席之地?!?/span>技術(shù)上,DiT(Diffusion Transformer)被認(rèn)為是Sora采用的一種技術(shù)架構(gòu),該技術(shù)路線架構(gòu)靈活度更高,且顯著提升視頻的生成質(zhì)量。愛詩科技在創(chuàng)立之初就選擇了這條路線。目前,海外市場,愛詩科技國際版AI視頻生成產(chǎn)品PixVerse已經(jīng)正式運(yùn)營,用戶可以通過網(wǎng)頁端,或者加入Discord-PixVerse服務(wù)器進(jìn)行體驗(yàn)。今年3月,面向國內(nèi)用戶的愛詩大模型也已通過備案,現(xiàn)已開放內(nèi)測,內(nèi)測鏈接為https://aishiai.com/waitlist。△國際版PixVerse網(wǎng)頁端產(chǎn)品界面產(chǎn)品方面,PixVerse主要支持文生視頻、圖生視頻等主功能,在2023年10月,愛詩就把生成的視頻內(nèi)容做到了4K的分辨率。以文生視頻功能為例,PixVerse產(chǎn)品界面有Prompt 、Style、Aspect-ratio、Negative-prompt四個(gè)功能參數(shù),其中Prompt 指的是需要輸入的一段句子或關(guān)鍵詞語;Style 決定了視頻畫面的風(fēng)格;Aspect-ratio決定了視頻的畫幅比例;Negative-prompt 幫助規(guī)避視頻中用戶不想呈現(xiàn)的內(nèi)容,用文字表達(dá)即可。比如,輸入Prompt:a little girl with bun hair wear flight attendant blue uniform stand in the plane cabin. she smile to the passanger,就可以得到下面這段4秒的視頻。
也有很多海外用戶借助PixVerse和其他AI創(chuàng)作工具制作微電影、廣告、動漫等,形成了新一代的AI工具流。
商業(yè)化發(fā)展層面,愛詩的思路是聚焦C端,通過技術(shù)平臺,構(gòu)建AI視頻生成全價(jià)值鏈,提升內(nèi)容生成、審核、分發(fā)及商業(yè)化各環(huán)節(jié)的效率,并最終實(shí)現(xiàn)AI Native視頻產(chǎn)品應(yīng)用閉環(huán),滿足各個(gè)行業(yè)和用戶的需求。王長虎認(rèn)為,OpenAI的商業(yè)節(jié)奏在初期會和之前GPT-4的路線一樣,更注重完善整個(gè)大的技術(shù)體系,在模型側(cè)發(fā)力,開放API,讓用戶和開發(fā)者自己進(jìn)行產(chǎn)品開發(fā)同時(shí),愛詩的發(fā)展也將不僅僅局限于技術(shù),還會關(guān)注更多應(yīng)用產(chǎn)品側(cè)的機(jī)會。
根據(jù)海外流量檢測網(wǎng)站similarweb.com,目前愛詩海外產(chǎn)品PixVerse月訪問量增長迅猛,已經(jīng)超過百萬,用戶群里中有影視、游戲、廣告主、藝術(shù)創(chuàng)作者等各行各業(yè)的人。△數(shù)據(jù)來自海外流量檢測網(wǎng)站similarweb.com眼下,創(chuàng)立已有一年的愛詩目前在團(tuán)隊(duì)擴(kuò)張方面也相對謹(jǐn)慎,目前,愛詩公司團(tuán)隊(duì)有20多人,相比去年只多了十個(gè)人。王長虎認(rèn)為,團(tuán)隊(duì)是愛詩最核心的競爭力之一。愛詩目前的團(tuán)隊(duì)成員大部分都在早期就支撐了抖音、TikTok從0-1階段,曾把AI視頻技術(shù)廣泛應(yīng)用到了今日頭條、抖音等字節(jié)跳動全線產(chǎn)品中,在視頻技術(shù)領(lǐng)域有豐富的經(jīng)驗(yàn)。“比如在技術(shù)層面,數(shù)據(jù)清洗、自動標(biāo)注、模型加速等工程化問題,都是此前在字節(jié)做產(chǎn)品期間就面臨過的難題,當(dāng)時(shí)單我們團(tuán)隊(duì)就操盤了數(shù)萬塊GPU?!蓖蹰L虎告訴36氪。在他看來,這些能力都可以復(fù)用在愛詩的產(chǎn)品建設(shè)過程中,幫助公司在資源有限的情況下,更好產(chǎn)生ROI更高的算法和生成能力。此外,過去一年,團(tuán)隊(duì)已經(jīng)在視頻大模型的技術(shù)產(chǎn)品有一定的積累,也有助于公司在競爭中持續(xù)保持優(yōu)勢。關(guān)于未來發(fā)展,王長虎透露,接下來 3——6 個(gè)月,愛詩最重要的目標(biāo)是,技術(shù)上能夠追平甚至趕超Sora,做出更好的產(chǎn)品,同時(shí)也會持續(xù)推進(jìn)國內(nèi)和海外產(chǎn)品的更新迭代,在2024年底做到大規(guī)模的C端應(yīng)用落地。王長虎認(rèn)為:“未來,提供視頻大模型的技術(shù)公司一定是少數(shù),愛詩希望持續(xù)打磨技術(shù)層和產(chǎn)品層能力,做出國民級的AI原生視頻產(chǎn)品應(yīng)用,服務(wù)廣大的C端用戶。”達(dá)晨財(cái)智談到,此次投資愛詩主要看中團(tuán)隊(duì)的幾個(gè)層面:首先,創(chuàng)始人王長虎此前曾在微軟亞洲研究院任職,發(fā)表過上百篇的頂會期刊論文,對計(jì)算機(jī)視頻的前沿技術(shù)具有非常高的敏感度,且團(tuán)隊(duì)從0到1搭建字節(jié)的計(jì)算機(jī)視頻底層算法模型,在模型、數(shù)據(jù)、算力上都經(jīng)歷過大規(guī)模的工程化檢驗(yàn),在視頻大模型上的創(chuàng)業(yè)上有其他團(tuán)隊(duì)不具備的天然背景優(yōu)勢;其次,團(tuán)隊(duì)執(zhí)行力極強(qiáng),公司模型按周迭代,同時(shí)有諸多的分叉版本在同時(shí)優(yōu)化,公司很早就嘗試用Transfomer替代Diffusion Model中的Unet的技術(shù)路線,模型效果也在逐步提升;第三,團(tuán)隊(duì)是工程師文化的典型,管理扁平,每個(gè)人對技術(shù)都有追求和信仰。接下來,期待愛詩能打造出下一代端到端Super AI-Native的視頻平臺、產(chǎn)品、應(yīng)用。成為國內(nèi)最頭部的多模態(tài)AI企業(yè)。*本文轉(zhuǎn)載自智能涌現(xiàn),作者武靜靜,編輯鄧詠儀