- Python-文本处理
- Python-文本处理简介
- Python - 文本处理环境
- Python - 字符串不变性
- Python - 排序行
- Python - 重新格式化段落
- Python - 计算段落中的标记
- Python - 二进制 ASCII 转换
- Python - 字符串作为文件
- Python-向后读取文件
- Python - 过滤重复单词
- Python - 从文本中提取电子邮件
- Python - 从文本中提取 URL
- Python - 漂亮的打印
- Python - 文本处理状态机
- Python - 大写和翻译
- Python - 标记化
- Python - 删除停用词
- Python - 同义词和反义词
- Python - 文本翻译
- Python-单词替换
- Python-拼写检查
- Python - WordNet 接口
- Python - 语料库访问
- Python - 标记单词
- Python - 块和缝隙
- Python - 块分类
- Python-文本分类
- Python-二元组
- Python - 处理 PDF
- Python-处理Word文档
- Python - 读取 RSS 提要
- Python-情感分析
- Python - 搜索和匹配
- Python - 文本修改
- Python-文本换行
- Python-频率分布
- Python-文本摘要
- Python - 词干算法
- Python - 约束搜索
Python - 文本处理环境
为了成功创建并运行本教程中的示例代码,我们需要设置一个环境,其中既有通用的 python 又有数据科学所需的特殊包。我们将首先考虑安装通用 python,可以是 python 2 或 python 3。但在本教程中我们更喜欢 python 2,主要是因为它的成熟度和对外部包的更广泛支持。
获取Python
最新的、最新的源代码、二进制文件、文档、新闻等,可以在Python的官方网站https://www.python.org/上找到
您可以从https://www.python.org/doc/下载 Python 文档。该文档以 HTML、PDF 和 PostScript 格式提供。
安装Python
Python 发行版可用于多种平台。您只需下载适用于您的平台的二进制代码并安装 Python。
如果您的平台的二进制代码不可用,您需要 C 编译器来手动编译源代码。编译源代码在选择安装中所需的功能方面提供了更大的灵活性。
以下是在各种平台上安装 Python 的快速概述 -
Unix 和 Linux 安装
以下是在 Unix/Linux 机器上安装 Python 的简单步骤。
打开 Web 浏览器并转到https://www.python.org/downloads/。
点击链接下载适用于 Unix/Linux 的压缩源代码。
下载并解压文件。
如果您想自定义某些选项,请编辑模块/安装文件。
运行./configure脚本
制作
进行安装
这会将 Python 安装在标准位置/usr/local/bin并将其库安装在/usr/local/lib/pythonXX处,其中 XX 是 Python 的版本。
Windows安装
以下是在 Windows 计算机上安装 Python 的步骤。
打开 Web 浏览器并转到https://www.python.org/downloads/。
单击 Windows 安装程序python-XYZ.msi文件的链接,其中 XYZ 是您需要安装的版本。
要使用此安装程序python-XYZ.msi,Windows 系统必须支持 Microsoft Installer 2.0。将安装程序文件保存到本地计算机,然后运行它以查明您的计算机是否支持 MSI。
运行下载的文件。这会弹出 Python 安装向导,非常易于使用。只需接受默认设置,等待安装完成即可。
Macintosh 安装
最近的 Mac 都安装了 Python,但它可能已经过时了几年。有关获取当前版本以及支持 Mac 上开发的额外工具的说明,请参阅http://www.python.org/download/mac/ 。对于 Mac OS X 10.3(2003 年发布)之前的旧版 Mac 操作系统,可以使用 MacPython。
Jack Jansen 维护它,您可以在他的网站上完全访问整个文档 - http://www.cwi.nl/~jack/macpython.html。您可以找到 Mac OS 安装的完整安装详细信息。
设置路径
程序和其他可执行文件可以位于许多目录中,因此操作系统提供了一个搜索路径,其中列出了操作系统搜索可执行文件的目录。
该路径存储在环境变量中,该变量是由操作系统维护的命名字符串。该变量包含命令 shell 和其他程序可用的信息。
路径变量在 Unix 中命名为 PATH,在 Windows 中命名为 Path(Unix 区分大小写;Windows 不区分大小写)。
在 Mac OS 中,安装程序处理路径详细信息。要从任何特定目录调用 Python 解释器,您必须将 Python 目录添加到您的路径中。
在 Unix/Linux 下设置路径
将 Python 目录添加到 Unix 中特定会话的路径 -
在 csh shell 中- 输入 setenv PATH "$PATH:/usr/local/bin/python" 并按 Enter。
在 bash shell (Linux) 中- 输入 export ATH="$PATH:/usr/local/bin/python" 并按 Enter。
在 sh 或 ksh shell 中- 输入 PATH="$PATH:/usr/local/bin/python" 并按 Enter。
注意- /usr/local/bin/python 是 Python 目录的路径
在 Windows 下设置路径
将 Python 目录添加到 Windows 中特定会话的路径 -
在命令提示符处- 输入路径 %path%;C:\Python 并按 Enter。
注意- C:\Python 是 Python 目录的路径
Python环境变量
以下是 Python 可以识别的重要环境变量 -
先生。 | 变量和描述 |
---|---|
1 | Python路径 它的作用与PATH类似。该变量告诉 Python 解释器在哪里找到导入到程序中的模块文件。它应该包括Python源库目录和包含Python源代码的目录。PYTHONPATH 有时由 Python 安装程序预设。 |
2 | Python启动 它包含包含Python源代码的初始化文件的路径。每次启动解释器时都会执行它。它在 Unix 中名为 .pythonrc.py,包含加载实用程序或修改 PYTHONPATH 的命令。 |
3 | 蟒蛇卡塞克 它在 Windows 中用于指示 Python 在 import 语句中查找第一个不区分大小写的匹配项。将此变量设置为任意值以激活它。 |
4 | Python之家 它是一个替代模块搜索路径。它通常嵌入在 PYTHONSTARTUP 或 PYTHONPATH 目录中,以便于切换模块库。 |
运行Python
有三种不同的方式来启动 Python -
互动口译员
您可以从 Unix、DOS 或任何其他为您提供命令行解释器或 shell 窗口的系统启动 Python。
命令行输入python 。
立即在交互式解释器中开始编码。
$python # Unix/Linux or python% # Unix/Linux or C:> python # Windows/DOS
以下是所有可用命令行选项的列表 -
先生。 | 选项和说明 |
---|---|
1 | -d 它提供调试输出。 |
2 | -O 它生成优化的字节码(生成 .pyo 文件)。 |
3 | -S 不要在启动时运行 import site 来查找 Python 路径。 |
4 | -v 详细输出(导入语句的详细跟踪)。 |
5 | -X 禁用基于类的内置异常(只需使用字符串);从版本 1.6 开始已过时。 |
6 | -c命令 运行作为 cmd 字符串发送的 Python 脚本 |
7 | 文件 从给定文件运行 Python 脚本 |
来自命令行的脚本
可以通过在应用程序上调用解释器来在命令行执行 Python 脚本,如下所示 -
$python script.py # Unix/Linux or python% script.py # Unix/Linux or C: >python script.py # Windows/DOS
注意- 确保文件权限模式允许执行。
集成开发环境
如果您的系统上有支持 Python 的 GUI 应用程序,您也可以从图形用户界面 (GUI) 环境运行 Python。
Unix - IDLE 是第一个用于 Python 的 Unix IDE。
Windows - PythonWin 是第一个 Python 的 Windows 界面,是一个带有 GUI 的 IDE。
Macintosh - Macintosh 版本的 Python 以及 IDLE IDE 可从主网站获取,可作为 MacBinary 或 BinHex 文件下载。
安装 NLTK 包
NLTK 可以非常直接地集成到 python 环境中。使用以下命令将 NLTK 添加到环境中。
sudo pip install -U nltk
当我们需要在 python 程序中使用其他库时,我们将在每一章中讨论添加其他库。