文本分析和自然语言处理的强大功能,可以帮助企业从非结构化文本数据中提取可操作的见解。
每个企业都希望从其数据中获得最大收益,但与传统数据类型不同,今天不断增长的数据量不是很好处理 – 尤其是文本数据,包括对话、社交帖子、调查、产品评论、文档和客户反馈。
企业可以充分利用文本分析和自然语言处理(NLP)的强大功能,从文本数据中提取可操作的见解。
文本分析基础知识
文本分析(也称为文本挖掘或文本数据挖掘)是从非结构化文本中提取信息和发现可操作的见解的过程。
文本分析允许数据科学家和分析师评估内容以确定其与特定主题的相关性。研究人员利用计算机科学家开发的复杂软件挖掘和分析文本。
用于文本分析的示例业务用例包括:
客户360:分析客户电子邮件、调查、呼叫中心日志和社交媒体流(如博客、推文、论坛帖子和新闻源),以更好地了解客户
保修分析:了解经销商服务专业人员,保修索赔,订单和类似来源的文本
产品或服务评论:分析客户对产品或服务的评论,有助于企业了解客户的情绪或客户所谈论的常见问题
招聘:关键字分析(将简介与职位描述进行比较)有助于简短列出合适的候选人
文本分析流程
根据业务需求、数据类型和数据源,可以通过多种方式实现文本分析:
第1步:数据采集
文本分析从收集要分析的文本开始 – 定义、选择、获取和存储原始数据。这些数据可以包括文本文档、网页(博客,新闻等)和在线评论等。数据源可以是来自组织的内部或外部。
第2步:数据准备
获取数据后,企业必须准备好进行分析。数据必须采用适当的形式,以便与将用于数据分析的机器学习模型配合使用。数据准备有四个阶段:
- 文本清理会删除任何不必要或不需要的信息,例如网页上的广告。重新构建文本数据以确保可以在整个系统中以相同的方式读取数据并提高数据完整性(也称为“文本规范化”)。
- 标记化将一系列字符串分解为称为标记的片段(例如单词、关键字、短语、符号和其他元素)。语义上有意义的片段(例如单词)将用于分析。
- 词性标注(也称为“PoS”)为识别的标记分配语法类别。常见的语法类别包括名词、动词、形容词和副词。
- 解析基于标记和PoS模型,从文本创建语法结构。解析算法考虑语法结构的文本语法。具有相同含义但语法结构不同的句子将导致不同的句法结构。
第3步:数据分析
数据分析是分析准备好的文本数据的过程。机器学习模型可用于分析大量数据,结果通常以JSON格式或CSV / Excel文件形式生成。可以通过多种方式分析数据;两种流行的方法是文本提取和文本标记。
简单地说,文本提取是从非结构化文本中识别结构化信息的过程;文本标记是基于文本数据的内容和相关性为文本数据分配标记的过程。
文本标记的两个常见模型是“bag of words(词袋)”和“Word2vec”。
词袋方法是最容易理解的方法,但它已经过时并且已被弃用。无论位置和上下文如何,此方法都只计算文本内容中的单词数。这种技术的缺点在于它没有提供一种从单词理解上下文的方法 – 具有较高单词数的内容被赋予更高(并且,错误地,更相关)的分数。
Word2Vec已成为文本标记的首选方法。为Word2Vec收集的文本将转换为向量,该向量提供有关单词(包括同义词)的相关信息。例如,术语“男人”和“男孩”可以密切相关。Word2Vec也理解“humor”和“humour”这两个词应该用同样的方式对待。Word2Vec生成相关单词的网格。在神经网络中,单词彼此越接近,彼此之间的关系就越强。这种神经网络允许算法更好地理解单词的上下文,因此数据科学家可以生成更好的内容相关性分析。
第4步:数据可视化
可视化是将分析转换为可操作的见解,以图形、表格和其他易于理解的表示形式表示数据的过程。组织可以使用各种商业和开源可视化工具。
自然语言处理的作用
NLP(自然语言处理)是文本分析的一个组成部分。大多数高级文本分析平台和产品使用NLP算法进行语言(语言驱动)分析,帮助机器读取文本。NLP分析单词的相关性,包括应被视为等同的相关单词,即使它们的表达方式不同(例如,“humor”和“humour”)。它是上述步骤2和3背后的主力。
NLP的一个流行应用是为搜索引擎识别相关的高质量内容。例如,Google以多种方式使用NLP,其中最突出的是搜索引擎组织和分类。
很久以前,网站管理员只需将关键字填充到网络内容中,就可以在Google搜索结果中获得更高的排名,因此Google修改了其搜索引擎使用多种算法和NLP处理。NLP帮助Google识别“垃圾内容”内容并对其进行分类。Google可能会对此内容进行取消索引,对其进行处罚,或者仅将其排名远低于其他内容。
NLP也用于电子邮件垃圾邮件过滤器。垃圾邮件发送者通过改变单词,故意拼写错误的单词或使用同义词来尽力逃避此类过滤器。电子邮件垃圾邮件过滤器使用各种因素来识别和阻止垃圾邮件,网络钓鱼和恶意内容。例如,Gmail的过滤器结合了机器学习和NLP来执行“情绪分析”。如果确定内容可能是垃圾邮件,则将内容发送到用户的垃圾文件夹。对于某些内容,Gmail会删除该邮件。
十年前,NLP的应用相对复杂。基于AI的技术(包括NLP和文本分析)已经发生了很大变化,企业可以利用许多云服务,商业产品和开源平台。以下是一些开源NLP应用程序:
- Stanford CoreNLP
- Natural Language Toolkit
- Apache Lucene and Solr
- Apache OpenNLP
- GATE and Apache UIMA
最后
文本分析并不新鲜,但许多组织仍然不熟悉。借助API,基于云的AI服务和当今可用的开源平台,您的企业可以利用文本分析的强大功能,通过更好地了解客户并提高品牌价值来获得竞争优势。