文本向量的应用
one-hot 文本向量
!pip install jieba
import jieba # 中文分词包
text = '''
6月27日,世界经济论坛发布了《2023年10大新兴技术》报告。重点介绍了在未来3—5年对全球经济、工作、生活、医疗等产生积极影响的创新技术。其中,生成式AI首次入选并排名第2位。
世界经济论坛的10大新兴技术报告已发布了11年。本次世界论坛联合前沿媒体、20个国家的90多名专家共同创作了该报告,为全球多数国家了解最新创新技术提供了帮助。
这10大技术分别是柔性电池、生成式AI、可持续航空燃料、设计噬菌体、心理健康元宇宙、可穿戴植物传感器、空间组学、柔性神经电子学、可持续计算和人工智能推动的医疗保健。
''' # 全量的文本,基于此文本构建词表
stopwords = ['《', '、',