Python-文本处理简介


文本处理直接应用于自然语言处理,也称为 NLP。NLP 旨在处理人类相互交流时所说或所写的语言。这与计算机和人之间的通信不同,计算机和人之间的通信是人编写的计算机程序或人的某种手势,例如在某个位置单击鼠标。NLP 试图理解人类所说的自然语言并将其分类,并在需要时对其进行分析并做出回应。Python 拥有丰富的库,可以满足 NLP 的需求。自然语言工具包 (NLTK) 是一套此类库,提供 NLP 所需的功能。

下面是一些使用 NLP 和间接使用 python 的 NLTK 的应用程序。

总结

很多时候,我们需要获取新闻文章、电影Plotly或大故事的摘要。它们都是用人类语言编写的,如果没有 NLP,我们就必须依赖另一个人向我们解释和呈现这样的摘要。但是在 NLP 的帮助下,我们可以编写程序来使用 NLTK 并使用各种参数总结长文本,例如我们想要的文本在最终输出中的百分比是多少,选择积极和消极的词进行总结等。在线新闻提要依赖于利用这种总结技术来呈现新闻见解。

基于语音的工具

苹果 Siri 或亚马逊 Alexa 等基于语音的工具依靠 NLP 来理解与人类的互动。他们拥有大量的单词、句子和语法训练数据集,可以解释并处理来自人类的问题或命令。虽然它是关于语音的,但它也间接地被翻译成文本,并且通过 NLP 系统将语音产生的文本产生结果。

信息提取

网页抓取是使用 Python 代码从网页中提取数据的常见示例。这里可能不是严格基于NLP,但确实涉及文本处理。例如,如果我们只需要提取 html 页面中存在的标题,那么我们会在页面结构中查找 h1 标签,并找到一种仅提取这些标签之间的文本的方法。这需要 python 的文本处理程序。

垃圾邮件过滤

通过分析主题行中的文本以及邮件内容,可以识别和消除电子邮件中的垃圾邮件。由于垃圾邮件通常会批量发送给许多收件人,即使它们的主题和内容变化不大,也可以进行匹配和标记以将其标记为垃圾邮件,这又需要使用 NLTK 库。

语言翻译

计算机化语言翻译很大程度上依赖于 NLP。随着在线平台上使用的语言越来越多,从一种人类语言到另一种人类语言的自动化翻译成为必然。这将涉及编程来处理翻译中涉及的语言的词汇、语法和上下文标记。同样,NLTK 用于处理此类需求。

情绪分析

为了了解对电影表演的整体反应,我们可能需要阅读数千条观众的反馈帖子。但这也可以通过单词和句子分析对积极反馈和消极反馈进行分类来实现自动化。然后测量正面和负面评论的频率,以找出受众的整体情绪。这显然需要对观众编写的人类语言进行分析,并且这里大量使用 NLTK 来处理文本。