域名和网站的区别,六安论坛网站,新产品推广方式有哪些,专业网站建设怎么样TF-IDF是一种文本特征提取的方法#xff0c;用于评估一个词在一组文档中的重要性。
一、代码
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as npdef print_tfidf_words(documents):打印TF-IDF矩阵中每个文档中非零值对应…TF-IDF是一种文本特征提取的方法用于评估一个词在一组文档中的重要性。
一、代码
from sklearn.feature_extraction.text import TfidfVectorizer
import numpy as npdef print_tfidf_words(documents):打印TF-IDF矩阵中每个文档中非零值对应的单词及其概率。Parameters:- documents: list包含文档的列表Returns:- None# 创建TF-IDF向量化器vectorizer TfidfVectorizer()# 对文档集合进行拟合和转换tfidf_matrix vectorizer.fit_transform(documents)# 获取特征词列表feature_names vectorizer.get_feature_names_out()# 将TF-IDF矩阵转换为稠密矩阵# 在TF-IDF矩阵中每一行代表一个文档每一列代表一个特征词# 非零值对应的列索引 就是 该文档中的非零权重对应的单词 在特征词列表中的索引# dense_tfidf_matrix 是一个 NumPy 稠密矩阵可以使用索引操作符 [row, column] 来获取矩阵中的特定元素dense_tfidf_matrix tfidf_matrix.todense()# 打印每个文档中非零值对应的单词及其概率for i, document in enumerate(dense_tfidf_matrix):nonzero_indices document.nonzero()[1]dic {idx: document[0, idx] for idx in nonzero_indices}# 根据概率进行排序sorted_dic dict(sorted(dic.items(), keylambda x: x[1], reverseTrue))words {feature_names[k]: v for k, v in sorted_dic.items()}print(f文档 {i 1} 中的非零值对应的单词及其概率{words})# 打印特征词对应的索引print(Feature indices:, {feature: index for index, feature in enumerate(feature_names)})# 示例文档集合
documents [This is the first document.,This document is the second document.,And this is the third one.,Is this the first document?
]# 调用函数打印结果
print_tfidf_words(documents)二、结果