一、文本分析
1. 对原始输入文本进行切分,并按照文本-段落-语句三个层级分类储存;
2. 对原始输入文本进行清洗,去除“的”、“呢”、“吗”等非表义词语并比照词库进行切词;
3. 按照文本-段落-语句三个层级储存数据为训练集;
二、LDA模型提取文本主题
1. 将训练集以文本层级为单位输入LDA模型;
2. 运行模型,得到主题关键词的分布概率云;
3. 导出该文本层级训练集的主题关键词的分布概率云;
三、极性判断
1. 根据提供的逻辑表开发极性判断决策树模型并使用一期数据进行训练;
2. 以语句层级为单位使用决策树模型进行极性判断并输出该语句层级极性;
3. 以矩阵形式分别存储段落和文本层级的极性数据;
Copyright © 2013-2021北京掌中无限信息技术有限公司
京ICP证041626号 |
京ICP备09083730号-8
京公网安备 11010802028637号
全国商务合作邮箱:partner@jfh.com