题目

33. 字典为：[dislike, like, I, movie, this] 例如，某条评论为“I like this movie” 则向量化的数据为：_ 转换为One-hot编码为：_

33. 字典为：[dislike, like, I, movie, this] 例如，某条评论为“I like this movie” 则向量化的数据为：_____ 转换为One-hot编码为：_____

题目解答

答案

为了将评论“I like this movie”向量化并转换为One-hot编码，我们需要按照以下步骤进行： 1. 将评论分解为单词：评论“I like this movie”可以分解为以下单词：I, like, this, movie。 2. 将单词映射到字典中的索引：字典为：[dislike, like, I, movie, this]。 - 单词“I”在字典中的索引为2。 - 单词“like”在字典中的索引为1。 - 单词“this”在字典中的索引为4。 - 单词“movie”在字典中的索引为3。因此，评论“I like this movie”向量化后的数据为[2, 1, 4, 3]。 3. 将向量化的数据转换为One-hot编码： One-hot编码是一个二进制向量，其中除了某个位置为1之外，其他位置都是0。向量的长度等于字典的大小，即5。对于每个单词的索引，我们将在该索引位置设置为1，其他位置设置为0。 - 单词“I”的One-hot编码为[0, 0, 1, 0, 0]。 - 单词“like”的One-hot编码为[0, 1, 0, 0, 0]。 - 单词“this”的One-hot编码为[0, 0, 0, 0, 1]。 - 单词“movie”的One-hot编码为[0, 0, 0, 1, 0]。因此，评论“I like this movie”转换为One-hot编码后为： $\begin{bmatrix} 0 & 0 & 1 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 & 0 \\ \end{bmatrix}$ 所以，向量化的数据为[2, 1, 4, 3]，转换为One-hot编码为$\begin{bmatrix} 0 & 0 & 1 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 & 0 \\ \end{bmatrix}$。 $\boxed{[2, 1, 4, 3], \begin{bmatrix} 0 & 0 & 1 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 & 0 \\ \end{bmatrix}}$

解析

本题主要考查文本数据的向量化和One - hot编码转换。解题思路如下：

向量化：
- 首先，将给定的评论分解为单个单词。对于评论 “I like this movie”，分解后得到单词列表为 “I”、“like”、“this”、“movie”。
- 然后，根据给定的字典 [dislike, like, I, movie, this]，确定每个单词在字典中的索引。字典索引从0开始计数，“I” 在字典中的索引为2，“like” 的索引为1，“this” 的索引为4，“movie” 的索引为3。
- 最后，将这些索引按单词在评论中的顺序排列，得到向量化的数据。所以，评论 “I like this movie” 向量化后的数据为 [2, 1, 4, 3]。
One - hot编码：
- One - hot编码是一种将离散特征转换为二进制向量的方法。向量的长度等于字典的大小，本题中字典大小为5。
- 对于向量化数据中的每个索引，创建一个长度为5的二进制向量，在该索引位置设置为1，其余位置设置为0。
- 对于索引2（对应单词 “I”），One - hot编码为 [0, 0, 1, 0, 0]；对于索引1（对应单词 “like”），One - hot编码为 [0, 1, 0, 0, 0]；对于索引4（对应单词 “this”），One - hot编码为 [0, 0, 0, 0, 1]；对于索引3（对应单词 “movie”），One - hot编码为 [0, 0, 0, 1, 0]。
- 将这些One - hot编码向量按顺序排列成矩阵，得到评论 “I like this movie” 的One - hot编码为 $\begin{bmatrix} 0 & 0 & 1 & 0 & 0 \\ 0 & 1 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 1 \\ 0 & 0 & 0 & 1 & 0 \\ \end{bmatrix}$。