阿里达摩院开源video-凯发app

产品

阿里达摩院开源video-llama 帮大语言模型加上“眼睛”“耳朵”

阿里达摩院的研究人员提出了video-llama,一个具有综合视听能力大模型。video-llama能够感知和理解视频中的视频和音频信号,并能理解用户输入的指令,完成一系列基于音视频的复杂任务,例如音/视频描述,写作,问答等。

阿里达摩院开源video-llama 帮大语言模型加上“眼睛”“耳朵”

阿里达摩院的研究人员提出了video-llama,一个具有综合视听能力大模型。video-llama能够感知和理解视频中的视频和音频信号,并能理解用户输入的指令,完成一系列基于音视频的复杂任务,例如音/视频描述,写作,问答等。目前论文,代码,交互demo都已开放。另外,在video-llama的项目凯发app主页中,该研究团队还提供了中文版本的模型,让中文用户的体验更好。

关键词

24快报
元宇宙的喜与忧
2024年2月23日 10:28
json抓取失败
网站地图