题目

33.（3.0分）字典为：[dislike, like, I, movie, this] 例如，某条评论为“I like this movie” 则向量化的数据为：_ 转换为One-hot编码为：_

33.（3.0分）字典为：[dislike, like, I, movie, this] 例如，某条评论为“I like this movie” 则向量化的数据为：_____ 转换为One-hot编码为：_____

题目解答

答案

为了将评论“I like this movie”向量化并转换为One-hot编码，我们需要按照以下步骤进行： 1. 将评论映射到向量： - 首先，我们有一个字典：[dislike, like, I, movie, this]。 - 我们需要将评论“I like this movie”中的每个单词映射到字典中的索引。 - “I”在字典中的索引是2。 - “like”在字典中的索引是1。 - “this”在字典中的索引是4。 - “movie”在字典中的索引是3。 - 因此，评论“I like this movie”向量化后的数据是[2, 1, 4, 3]。 2. 将向量转换为One-hot编码： - One-hot编码是一种二进制表示，其中每个索引对应一个向量，该向量的长度等于字典的大小，且只有在对应索引处为1，其他位置为0。 - 字典的大小是5，所以每个One-hot向量的长度是5。 - “I”（索引2）的One-hot编码是[0, 0, 1, 0, 0]。 - “like”（索引1）的One-hot编码是[0, 1, 0, 0, 0]。 - “this”（索引4）的One-hot编码是[0, 0, 0, 0, 1]。 - “movie”（索引3）的One-hot编码是[0, 0, 0, 1, 0]。 - 因此，评论“I like this movie”转换为One-hot编码后是[[0, 0, 1, 0, 0], [0, 1, 0, 0, 0], [0, 0, 0, 0, 1], [0, 0, 0, 1, 0]]。所以，向量化的数据是[2, 1, 4, 3]，转换为One-hot编码是[[0, 0, 1, 0, 0], [0, 1, 0, 0, 0], [0, 0, 0, 0, 1], [0, 0, 0, 1, 0]]。 $\boxed{[2, 1, 4, 3], [[0, 0, 1, 0, 0], [0, 1, 0, 0, 0], [0, 0, 0, 0, 1], [0, 0, 0, 1, 0]]}$

解析

本题主要考查文本数据的向量化和One - hot编码的知识。解题思路如下：

文本向量化：
- 首先明确给定的字典为$[dislike, like, I, movie, this]$。
- 对于评论 “I like this movie”，需要将其中每个单词在字典中找到对应的索引。
- 字典中单词的索引是从0开始计数的，“dislike” 索引为0，“like” 索引为1，“I” 索引为2，“movie” 索引为3，“this” 索引为4。
- 所以 “I” 对应索引2，“like” 对应索引1，“this” 对应索引4，“movie” 对应索引3，那么评论 “I like this movie” 向量化后的数据就是$[2, 1, 4, 3]$。
One - hot编码转换：
- One - hot编码是一种二进制表示方法，每个单词的One - hot向量长度等于字典的大小。
- 此字典大小为5，所以每个One - hot向量长度为5。
- 对于 “I”（索引2），其One - hot编码是在第2个位置（索引从0开始）为1，其余位置为0，即$[0, 0, 1, 0, 0]$。
- 对于 “like”（索引1），其One - hot编码是在第1个位置为1，其余位置为0，即$[0, 1, 0, 0, 0]$。
- 对于 “this”（索引4），其One - hot编码是在第4个位置为1，其余位置为0，即$[0, 0, 0, 0, 1]$。
- 对于 “movie”（索引3），其One - hot编码是在第3个位置为1，其余位置为0，即$[0, 0, 0, 1, 0]$。
- 所以评论 “I like this movie” 转换为One - hot编码后是$[[0, 0, 1, 0, 0], [0, 1, 0, 0, 0], [0, 0, 0, 0, 1], [0, 0, 0, 1, 0]]$。