SciPy - CSGraph
CSGraph 代表压缩稀疏图,专注于基于稀疏矩阵表示的快速图算法。
图形表示
首先,让我们了解什么是稀疏图以及它如何有助于图表示。
稀疏图到底是什么?
图只是节点的集合,节点之间有链接。图几乎可以代表任何东西——社交网络连接,其中每个节点都是一个人并与熟人连接;图像,其中每个节点是一个像素并连接到相邻像素;高维分布中的点,其中每个节点都与其最近的邻居相连;以及几乎任何您能想象到的东西。
表示图数据的一种非常有效的方法是使用稀疏矩阵:我们称之为 G。矩阵 G 的大小为 N x N,G[i, j] 给出节点“i”和节点之间的连接值'j'。稀疏图主要包含零——也就是说,大多数节点只有很少的连接。在大多数感兴趣的情况下,该属性都是正确的。
稀疏图子模块的创建是由 scikit-learn 中使用的几种算法推动的,其中包括以下内容 -
Isomap - 一种流形学习算法,需要找到图中的最短路径。
分层聚类- 基于最小生成树的聚类算法。
谱分解- 基于稀疏图拉普拉斯的投影算法。
作为一个具体的例子,假设我们想要表示以下无向图 -
该图有三个节点,其中节点 0 和 1 通过权重 2 的边连接,节点 0 和 2 通过权重 1 的边连接。我们可以构造稠密、掩码和稀疏表示,如下例所示,请记住无向图由对称矩阵表示。
G_dense = np.array([ [0, 2, 1], [2, 0, 0], [1, 0, 0] ]) G_masked = np.ma.masked_values(G_dense, 0) from scipy.sparse import csr_matrix G_sparse = csr_matrix(G_dense) print G_sparse.data
上述程序将生成以下输出。
array([2, 1, 2, 1])
这与上图相同,只是节点 0 和 2 通过零权重的边连接。在这种情况下,上面的密集表示会导致歧义 - 如果零是有意义的值,如何表示非边缘。在这种情况下,必须使用屏蔽表示或稀疏表示来消除歧义。
让我们考虑下面的例子。
from scipy.sparse.csgraph import csgraph_from_dense G2_data = np.array ([ [np.inf, 2, 0 ], [2, np.inf, np.inf], [0, np.inf, np.inf] ]) G2_sparse = csgraph_from_dense(G2_data, null_value=np.inf) print G2_sparse.data
上述程序将生成以下输出。
array([ 2., 0., 2., 0.])
使用稀疏图的词梯
单词阶梯是刘易斯·卡罗尔发明的一款游戏,其中通过在每一步改变一个字母来链接单词。例如 -
APE → APT → AIT → BIT → BIG → BAG → MAG → MAN
在这里,我们从“APE”到“MAN”共七步,每次改变一个字母。问题是 - 我们能否使用相同的规则找到这些单词之间的更短路径?这个问题自然地表达为稀疏图问题。这些节点将对应于单个单词,我们将在最多相差一个字母的单词之间创建连接。
获取单词列表
首先,当然,我们必须获得有效单词列表。我运行的是 Mac,Mac 在以下代码块中给出的位置有一个单词词典。如果您使用不同的体系结构,您可能需要进行一些搜索才能找到您的系统字典。
wordlist = open('/usr/share/dict/words').read().split() print len(wordlist)
上述程序将生成以下输出。
235886
我们现在想要查看长度为 3 的单词,因此让我们只选择那些长度正确的单词。我们还将消除以大写字母(专有名词)开头或包含非字母数字字符(例如撇号和连字符)的单词。最后,我们将确保所有内容都是小写,以便稍后进行比较。
word_list = [word for word in word_list if len(word) == 3] word_list = [word for word in word_list if word[0].islower()] word_list = [word for word in word_list if word.isalpha()] word_list = map(str.lower, word_list) print len(word_list)
上述程序将生成以下输出。
1135
现在,我们有 1135 个有效的三字母单词的列表(确切的数字可能会根据所使用的特定列表而变化)。这些单词中的每一个都将成为我们图中的一个节点,我们将创建连接与每对单词相关的节点的边,每对单词仅相差一个字母。
import numpy as np word_list = np.asarray(word_list) word_list.dtype word_list.sort() word_bytes = np.ndarray((word_list.size, word_list.itemsize), dtype = 'int8', buffer = word_list.data) print word_bytes.shape
上述程序将生成以下输出。
(1135, 3)
我们将使用每个点之间的汉明距离来确定哪些词对是相连的。汉明距离测量两个向量之间的条目分数,这两个向量不同:任何两个汉明距离等于 1/N1/N 的单词,其中 NN 是在单词梯中连接的字母数。
from scipy.spatial.distance import pdist, squareform from scipy.sparse import csr_matrix hamming_dist = pdist(word_bytes, metric = 'hamming') graph = csr_matrix(squareform(hamming_dist < 1.5 / word_list.itemsize))
比较距离时,我们不使用相等,因为这对于浮点值可能不稳定。只要单词列表中没有两个条目相同,则不等式就会产生所需的结果。现在,我们的图已经设置完毕,我们将使用最短路径搜索来查找图中任意两个单词之间的路径。
i1 = word_list.searchsorted('ape') i2 = word_list.searchsorted('man') print word_list[i1],word_list[i2]
上述程序将生成以下输出。
ape, man
我们需要检查这些是否匹配,因为如果这些单词不在列表中,输出中将会出现错误。现在,我们需要的就是找到图中这两个索引之间的最短路径。我们将使用dijkstra算法,因为它允许我们找到仅一个节点的路径。
from scipy.sparse.csgraph import dijkstra distances, predecessors = dijkstra(graph, indices = i1, return_predecessors = True) print distances[i2]
上述程序将生成以下输出。
5.0
因此,我们看到“猿”和“人”之间的最短路径仅包含五步。我们可以使用算法返回的前辈来重建这条路径。
path = [] i = i2 while i != i1: path.append(word_list[i]) i = predecessors[i] path.append(word_list[i1]) print path[::-1]i2]
上述程序将生成以下输出。
['ape', 'ope', 'opt', 'oat', 'mat', 'man']