题目
Jaccard相似度的计算方法是?A. 两个句子之间的词集合的交集和并集的比值B. 两个句子之间的欧氏距离C. 两个句子之间的曼哈顿距离
Jaccard相似度的计算方法是?
A. 两个句子之间的词集合的交集和并集的比值
B. 两个句子之间的欧氏距离
C. 两个句子之间的曼哈顿距离
题目解答
答案
A. 两个句子之间的词集合的交集和并集的比值
解析
本题考查Jaccard相似度的基本概念和计算方法。解题思路是明确Jaccard相似度的定义,然后将各选项与该定义进行对比。
- 选项A:
- Jaccard相似度的定义就是两个两个集合的交集元素个数与并集元素个数的比值。对于两个句子,我们可以将其看作两个词集合。设两个句子对应的词集合分别为$A$和$B$,交集元素个数记为$\vert A\cap B\vert$,并集元素个数记为$\vert A\cup B\vert$,那么Jaccard相似度$J(A,B)=\frac{\vert A\cap B\vert}{\vert A\cup B\vert}$。所以选项A符合Jaccard相似度的计算方法。
- 选项B:
- 欧氏距离是用于衡量两个点在欧几里得空间中距离的一种度量方式。对于两个$n$维向量$\vec{x}=(x_1,x_2,\cdots,x_n)$和$\vec{y}=(y_1,y_2,\cdots,y_n)$,它们之间的欧氏距离$d(\vec{x},\vec{y})=\sqrt{\sum_{i = 1}^{n}(x_i - y_i)^2}$。它与Jaccard相似度的概念和计算方法完全不同,所以选项B错误。
- 选项C:
- 曼哈顿距离是指在曼哈顿街区中,从一个十字路口到另一个十字路口所经过的街区数量。对于两个$n\vec{x}=(x_1,x_2,\cdots,x_n)$和$\vec{y}=(y_1,y_2,\cdots,y_n)$,它们之间的曼哈顿距离$d(\vec{x},\vec{y})=\sum_{i = 1}^{n}\vert x_i - y_ivert}$。这也和Jaccard相似度的计算方法不相关,所以选项C错误。