题目

多模态模型中常见的模态包括哪些？A. 文本B. 图像C. 音频D. 视频E. 触觉

多模态模型中常见的模态包括哪些？

A. 文本

B. 图像

C. 音频

D. 视频

E. 触觉

题目解答

答案

ABCD
A. 文本
B. 图像
C. 音频
D. 视频

解析

多模态模型的核心在于能够处理和融合不同形式的数据（即“模态”）。常见的模态包括文本、图像、音频、视频，这些是当前技术中最成熟、应用最广泛的类型。触觉虽然在某些前沿研究中被提及，但尚未成为主流应用的一部分。因此，本题需结合多模态模型的定义和实际应用场景进行判断。

多模态模型的“模态”指数据的不同表现形式。以下逐一分析选项：

文本（A）
文本是多模态模型的基础模态，如自然语言处理任务中常用的文本输入（如句子、段落）。
图像（B）
图像处理（如计算机视觉任务）是多模态模型的重要组成部分，常与文本结合（如图像描述生成）。
音频（C）
音频（如语音、音乐）在语音识别、语音合成等任务中被广泛使用，与文本的结合（如语音转写）也十分常见。
视频（D）
视频是图像和音频的时序组合，常用于视频分析、行为识别等任务，属于高级模态。
触觉（E）
虽然触觉（如压力、温度感知）在机器人领域有研究，但目前尚未成为多模态模型的主流模态。

结论：正确答案为A、B、C、D。