5月13日,字節(jié)跳動(dòng)旗下火山引擎開啟上海站的大模型巡展活動(dòng),一批新的大模型產(chǎn)品亮相。與此前大幅躍遷的產(chǎn)品更迭不同,小而專、聚焦實(shí)用,甚至是推出大模型工具,成為此次發(fā)布會(huì)產(chǎn)品的特點(diǎn)。
實(shí)用至上,火山引擎這場(chǎng)發(fā)布會(huì)可視為如今行業(yè)巨頭布局的一個(gè)縮影?!白止?jié)在大模型產(chǎn)品迭代上的思路越來越清晰,要能有可靠的商業(yè)場(chǎng)景,能被客戶用起來,這很重要?!币晃唤咏止?jié)跳動(dòng)的相關(guān)人士表示,相比執(zhí)著于“一鳴驚人”的大招,今年以來,“小步快跑”“多線程并進(jìn)”成為字節(jié)發(fā)展的思路。
更小更便宜 實(shí)用至上
依靠短視頻崛起的字節(jié)跳動(dòng)在視頻生成模型上有了新動(dòng)作。5月13日,在上海站的發(fā)布會(huì)上,火山引擎發(fā)布了豆包視頻生成模型Seedance 1.0 lite,支持文生視頻、圖生視頻,視頻生成時(shí)長(zhǎng)支持5s、10s,分辨率提供480P、720P。
“這是一款參數(shù)規(guī)模很小的模型,但同時(shí)依然能夠?qū)崿F(xiàn)影視級(jí)的質(zhì)量,且視頻生成速度大幅提升。”火山引擎相關(guān)負(fù)責(zé)人介紹道,這款產(chǎn)品可謂兼顧效果、速度、性價(jià)比。
“這次大模型優(yōu)化的一個(gè)重要思路就是要在指令遵循方面進(jìn)一步提升精度?!币晃幌嚓P(guān)技術(shù)人士表示,通過優(yōu)化語義理解能力,在生成視頻上可以更加精確控制人物表情、衣著服裝。包括一些文本中對(duì)于程度副詞的理解與響應(yīng),都做了不小的提升。
這樣的調(diào)整在持續(xù)優(yōu)化模型推理成本的背景下,顯然有著更為明確的市場(chǎng)意圖?;鹕揭嫦M@款大模型能夠在電商廣告、娛樂特效、影視創(chuàng)作、動(dòng)態(tài)壁紙等場(chǎng)景中發(fā)揮更大的作用。在現(xiàn)場(chǎng),不少電商客戶表示,如今不少的營(yíng)銷廣告素材都可以通過相關(guān)大模型制作,從而降低制作成本與周期。
火山引擎發(fā)布的另一款大模型——豆包1.5·視覺深度思考模型也遵循了“實(shí)用至上”的思路。
數(shù)據(jù)顯示,豆包1.5·視覺深度思考模型(Doubao-1.5-thinking-vision-pro),激活參數(shù)僅20B,但具備強(qiáng)大的多模態(tài)理解和推理能力,在60個(gè)公開評(píng)測(cè)基準(zhǔn)中,有38個(gè)取得業(yè)內(nèi)最佳表現(xiàn),在視頻理解、視覺推理、GUI Agent能力等方面均處于第一梯隊(duì)。
值得一提的是,該模型新增GUI Agent能力?;趶?qiáng)大的GUI定位性能,可在PC端、手機(jī)端等不同環(huán)境中完成復(fù)雜交互任務(wù)。例如,可對(duì)新開發(fā)的App功能進(jìn)行自動(dòng)化檢測(cè)。
布局AI生態(tài)
企業(yè),無疑是這場(chǎng)大模型商戰(zhàn)中各方爭(zhēng)奪的焦點(diǎn)?;鹕揭媾读巳缃竦腁I生態(tài)圖景:已在汽車、智能終端、互聯(lián)網(wǎng)、金融、教育科研、零售消費(fèi)等行業(yè)廣泛落地,覆蓋4億終端設(shè)備、八成主流車企、70%系統(tǒng)重要性銀行和數(shù)十家證券基金公司、近七成C9頂級(jí)高校和100多家科研院所。
同時(shí),火山引擎進(jìn)一步介紹了Data Agent——這是一款面向企業(yè)的數(shù)據(jù)全場(chǎng)景智能體。從介紹來看,這款智能體具備主動(dòng)思考、洞察、分析、行動(dòng)能力,可以幫助企業(yè)挖掘數(shù)據(jù)資產(chǎn)價(jià)值,功能覆蓋數(shù)據(jù)分析、智能營(yíng)銷等關(guān)鍵領(lǐng)域。
“火山引擎相關(guān)業(yè)務(wù)自成立之初就堅(jiān)持內(nèi)外統(tǒng)一,這樣既能保障對(duì)內(nèi)服務(wù),又能做好對(duì)外支持?!被鹕揭婵偛米T待說,這樣的原則在這場(chǎng)AI Agent的布局中依然適用,“通過技術(shù)和資源復(fù)用,我們能為內(nèi)外客戶提供性價(jià)比更高的服務(wù)”。
為幫助開發(fā)者更便捷地利用AI提升開發(fā)效率,字節(jié)旗下國(guó)內(nèi)首款A(yù)I原生IDE產(chǎn)品Trae也宣布升級(jí)。值得注意的是,此次更新后這一工具可以通過MCP讓AI主動(dòng)調(diào)用外部工具等。
MCP即基于模型上下文協(xié)議,由國(guó)外大模型公司Anthropic開發(fā),并于2024年11月正式發(fā)布。這一工具被譚待稱為類似HTML和HTTP的協(xié)議,因此被業(yè)內(nèi)稱為AI領(lǐng)域的“萬能插座”。
這是字節(jié)跳動(dòng)方面又一次對(duì)外釋放布局MCP協(xié)議的重要信號(hào)。譚待此前表示,統(tǒng)一協(xié)議有助于降低開發(fā)成本、加速行業(yè)發(fā)展?;鹕揭鎸W⒂谄髽I(yè)端的垂類智能體開發(fā),并為AI開發(fā)者提供便利工具。
“我們內(nèi)部使用Data Agent進(jìn)行數(shù)據(jù)分析,Trae也在內(nèi)部應(yīng)用,火山引擎要成為AI原生、AI實(shí)踐的典范,這樣才能助力客戶和開發(fā)者實(shí)現(xiàn)AI轉(zhuǎn)型。”在之前的采訪中,譚待如是表示。
(來源:上海證券報(bào))