如何从维基链接中提取数据？

百变鹏仔 5个月前 (01-18) #Python

文章标签链接

问题内容

我想从 mwparserfromhell 库返回的 wiki 链接中提取数据。例如，我想解析以下字符串：

[[file:warszawa, ul. freta 16 20170516 002.jpg|thumb|upright=1.18|[[maria skłodowska-curie museum|birthplace]] of marie curie, at 16 freta street, in [[warsaw]], [[poland]].]]

如果我使用字符 | 分割字符串，则它不起作用，因为图像描述中也有一个使用 | 的链接： [[玛丽亚·斯克沃多夫斯卡-居里博物馆|出生地]]。

我使用正则表达式首先替换字符串中的所有链接，然后再拆分它。它可以工作（在本例中），但感觉不干净（参见下面的代码）。有没有更好的方法从这样的字符串中提取信息？

import rewiki_code = "[[File:Warszawa, ul. Freta 16 20170516 002.jpg|thumb|upright=1.18|[[Maria Skłodowska-Curie Museum|Birthplace]] of Marie Curie, at 16 Freta Street, in [[Warsaw]], [[Poland]].]]"# Remove [[File: at the begining of the stringprefix = "[[File:"if (wiki_code.startswith(prefix)):    wiki_code = wiki_code[len(prefix):]# Remove ]] at the end of the stringsuffix = "]]"if (wiki_code.endswith(suffix)):    wiki_code = wiki_code[:-len(suffix)]# Replace links with theirlink_pattern = re.compile(r'[[.*?]]')matches = link_pattern.findall(wiki_code)for match in matches:    content = match[2:-2]    arr = content.split("|")    label = arr[-1]    wiki_code = wiki_code.replace(match, label)print(wiki_code.split("|"))

正确答案

.filter_wikilinks() 返回的链接是 wikilink 类，该类具有 title 和 text 属性。

这些返回为 wikicode对象。

由于实际文本始终是最后一个片段，因此首先需要使用以下正则表达式查找其他片段：

([^[]|]*|)+

+：1个或多个

从最后一个匹配的结束索引到字符串末尾的所有其他内容都是最后一个片段。

&gt;&gt;&gt; import mwparserfromhell&gt;&gt;&gt; import re&gt;&gt;&gt; wikitext = mwparserfromhell.parse('[[File:Warszawa, ul. Freta 16 20170516 002.jpg|thumb|upright=1.18|[[Maria Skłodowska-Curie Museum|Birthplace]] of Marie Curie, at 16 Freta Street, in [[Warsaw]], [[Poland]].]]')&gt;&gt;&gt; image_link = wikitext.filter_wikilinks()[0]&gt;&gt;&gt; image_link'[[File:Warszawa, ul. Freta 16 20170516 002.jpg|thumb|upright=1.18|[[Maria Skłodowska-Curie Museum|Birthplace]] of Marie Curie, at 16 Freta Street, in [[Warsaw]], [[Poland]].]]'&gt;&gt;&gt; image_link.title'File:Warszawa, ul. Freta 16 20170516 002.jpg'&gt;&gt;&gt; text = str(image_link.text)&gt;&gt;&gt; text'thumb|upright=1.18|[[Maria Skłodowska-Curie Museum|Birthplace]] of Marie Curie, at 16 Freta Street, in [[Warsaw]], [[Poland]].'&gt;&gt;&gt; other_fragments = re.match(r'([^[]|]*|)+', text)&gt;&gt;&gt; other_fragments<re.match object span="(0," match="thumb|upright=1.18|">&gt;&gt;&gt; other_fragments.span(0)[1]19&gt;&gt;&gt; text[19:]'[[Maria Skłodowska-Curie Museum|Birthplace]] of Marie Curie, at 16 Freta Street, in [[Warsaw]], [[Poland]].'</re.match>

文章推荐

如何从维基链接中提取数据？

正确答案

Python实现字典的key和values的交换

使用Python脚本来获取Cisco设备信息的示例

Python的Django中django-userena组件的简单使用教程

零基础写python爬虫之神器正则表达式

零基础写python爬虫之抓取百度贴吧代码分享