题目
多模态模型中常见的模态包括哪些?A. 文本B. 图像C. 音频D. 视频E. 触觉
多模态模型中常见的模态包括哪些?
A. 文本
B. 图像
C. 音频
D. 视频
E. 触觉
题目解答
答案
ABCD
A. 文本
B. 图像
C. 音频
D. 视频
A. 文本
B. 图像
C. 音频
D. 视频
解析
多模态模型的核心在于能够处理和融合不同形式的数据(即“模态”)。常见的模态包括文本、图像、音频、视频,这些是当前技术中最成熟、应用最广泛的类型。触觉虽然在某些前沿研究中被提及,但尚未成为主流应用的一部分。因此,本题需结合多模态模型的定义和实际应用场景进行判断。
多模态模型的“模态”指数据的不同表现形式。以下逐一分析选项:
-
文本(A)
文本是多模态模型的基础模态,如自然语言处理任务中常用的文本输入(如句子、段落)。 -
图像(B)
图像处理(如计算机视觉任务)是多模态模型的重要组成部分,常与文本结合(如图像描述生成)。 -
音频(C)
音频(如语音、音乐)在语音识别、语音合成等任务中被广泛使用,与文本的结合(如语音转写)也十分常见。 -
视频(D)
视频是图像和音频的时序组合,常用于视频分析、行为识别等任务,属于高级模态。 -
触觉(E)
虽然触觉(如压力、温度感知)在机器人领域有研究,但目前尚未成为多模态模型的主流模态。
结论:正确答案为A、B、C、D。