开发者 wikipedia2xml.sf.net

  • wikipedia2XML 免费

    用于从原始维基百科数据库备份转储创建和处理 XML 语料库(用于语言目的的大量文本集合)的 python 脚本集合。它包括 MediaWiki 标记语言的基于正则表达式的解析器。