`

常用语料库语言学相关软件下载

阅读更多

1.concapp04 (concapp03的修订版,可支持超大字符集) 软件
下载地址

http://chinese.hust.edu.cn/Concapp04.exe
         http://chinese.hust.edu.cn/concapp03.exe   (concapp03版)
2.Wconcord----语料库分析软件
软 件介绍:A slow but very stable concordancer that can create concordances, collocation tables, and frequency lists. Unfortunately, the output is limited to 16,000 lines.
下载地址   http://www.corpus4u.com/down_view.asp?id=1

3.WordSmith Tools 4----语料库分析软件
介绍 Michael Scott's brilliant software.
下载地址 http://www.corpus4u.com/down_view.asp?id=2
4. 中科院计算所汉语词法分析系统ICTCLAS
软 件介绍: 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年 研究基础上,耗时一年研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召 回率接近98%处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注 集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。
下载地址   http://www.ict.ac.cn/freeware/003_ictclas/ictclas.zip

5. 中科院计算所汉语句法分析系统
软 件介绍: 本系统是一个概率型的自然语言句法分析器。系统的分析算法是综合了多种优化策略的改进型chart分析算法。分析结果是概率最大的一棵分析树。在概率模型 方面,本系统也在一定程度上突破了pcfg的上下文无关假设,引入了结构上下文条件,是的分析结果正确率有了明显提高。本系统运行在windows环境 下。
使用说明:系统运行包括两个环节,即build语法环节和parse句子环节。用户首先要调入语法。方式有两种,一是在底部命令行键入 build [grammar file name], 二是点击语法按钮交互式地选择语法文件。之后,只要点击execute按钮即可。分析句子的启动过程类似。分析命令是 parse [sentence file name].
对于句子文件的格式要求是,每行一句,分好词,标记好一级词性。
如:我/r 是/v 学生/n 。/w
用户可以查看到分析树(treeWindow)和分析过程信息(outputWindow)。
下载地址:(1 http://www.ict.ac.cn/freeware/002_prop/propexec.zip
          (2 http://www.ict.ac.cn/freeware/002_prop/propsource.zip
6.海量智能分词研究版FAQ
海 量智能分词技术很好的解决了分词领域中的两大技术难题,即:歧义切分和新词的识别。其中组合歧义的处理一直是分词领域的难点中的难点,海量经过不懈努力, 在解决组合歧义的问题上取得突破,能对绝大多数的组合歧义进行正确的切分。在新词的识别上,针对不同类型采用了不同识别算法,其中包括对人名、音译词、机 构团体名称、数量词等新词的识别,其准确率同样达到了同行业的领先水平。正是在这些分词难点上的突破,才造就了如今海量智能分词在实际应用中所表现出的优 秀品质。
下载地址:
   http://www.hylanda.com/cgi-bin/download/count.asp?id=8&url=1
7.文本文件合并器2.0
下载地址 http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9
8.CastExe  
由上海交通大学开发的类似Wordsmith的检索工具,备注: 此软件有很多不完善的地方,但对于初入门的同学来说也是有一定的帮助的。
下载地址 http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9
9.TextPro文本处理程序
这是来自中华佛典 http://www2.fodian.net/tools/index.html )。集成了各种文字处理功能,支持各种文字显示,具有文件合并功能,连在文本中加空格的功能也具备了。有了该软件,似乎很多单一功能的软件要下课了。呵呵!
下载地址 http://sfs.scnu.edu.cn/corpus4u/list.aspx?cid=9
10.词频分析器
下载地址 http://www.corpus4u.com/down_view.asp?id=9
11.功能强大的文本分析和索引软件Concordance3.2(极力推荐支持超大字符集)
Concordance是文本分析和索引软件,适用于任何需要深入研究文章和分析语言的人士。使用Concordance,你可以建立索引和单词列表,计算单词使用率,比较一个单词的不同用法,分析关键字,查找短语,发布到网站。
下载地址 http://www.concordancesoftware.co.uk/
12.C_Corpus_Res_Final语料库教程 (美国洛杉矶加州大学陶红印教授提供)
下载地址:
   http://chinese.hust.edu.cn/Chinese_Corpus_Resource_Guide.pdf
13.四大古典小说语料库下载:
(下载后请用access软件打开,然后搜索相关的内容即可)
红楼梦: http://ling.ccnu.edu.cn/ylk/hlm.mdb
水浒转: http://ling.ccnu.edu.cn/ylk/shz.mdb
西游记: http://ling.ccnu.edu.cn/ylk/xyj.mdb
三国演义: http://ling.ccnu.edu.cn/ylk/sgyy.mdb
14.现代著名小说家作品标注语料库下载
(下载后请用access软件打开,然后搜索相关的内容即可)
下载地址: http://ling.ccnu.edu.cn/ylk/xiandai.htm
15.国内语料库建设一览表
下载地址 http://www.corpus4u.com/down_view.asp?id=8
16.语料库下载,内容如下:
汉英对照古体诗词一百四十五首
计算所机器翻译句法树库
篇章级对齐英汉双语法律语料
双语句对齐语料库(1500句对
北大《人民日报》语料库标注语料举例
北大《人民日报》语料库校对记录
英汉对照例句集(400句
一个小规模汉语树库(1434句
汉英对照例句集(400句
1998年863汉英机器翻译评测试题
《圣经》双语语料库
实验用的数字语音语料库
下载地址: http://www.nlp.org.cn/categories/default.php?cat_id=9


3.XML与关系数据库转换系统 v1.0
  随着XML的迅速发展,XML正在逐步成为Internet中描述数据的标准。由于企业电子商务是以Internet为基础的,因此,在将来XML文档势 必成为电子商务中数据传输的主要载体。而目前,大多数企业的数据都不是以XML文档来保存的,在很大程度上,大多数企业是采用传统的关系数据库的形式来存 储。于是,如何将现关系数据库数据数据转换为XML文档,以便在Internet上进行传输,是一个非常热门的研究课题。同时,企业为了保持现有的业务处 理系统,不希望立即、完全更改现有的数据存储形式。于是,如何将从Internet上获取到的XML文档的内容保存到已有的关系数据库中,也是企业急需解 决的一个问题。根据这种需求,研究实现XML与关系库转换系统,实现XML文档与关系数据之间的转换,是一个应用方向十分重要,应用领域十分广阔的系统。 XTrans系统起到的是一种中间转换处理单元的作用,也就是说,它负责处理从XML文档到关系数据库数据,以及从关系数据库数据到XML文档的双向转 换。系统XTrans提供的功能分布于两个功能模块:映射关系定义模块(XTransStudio)和数据转换处理引擎模块 (XTransEngine)。
  映射定义功能模块(XTransStudio)能够帮助用户方便地定义XML文档和关系数据库中关系表的映射 关系,在这一图形界面的映射关系定义中,用户能的获取XML文档的结构,同时获取关系数据库中的关系表定义,这样就可以方便的定义XML文档和关系数据表 之间的映射关系,并可以讲这些定义的映射关系保存在表示映射关系的特定格式的XML映射关系定义文件中。转换处理引擎功能模块 (XTransEngine)能根据XTransStudio定义的映射文件处理相应XML文档和关系数据的转换。也就是说,它可以根据这一映射定义文件 定义的映射关系控制执行相应XML文档和关系数据库的双向转换。同时,系统能根据所给出的XML文档的DTD定义,采用固定的算法自动生成一系列关系表, 并能进一步生成相应的XML文档与这些关系表的映射关系;此外,本模块还能实现简单的XML文档存储功能,用户只需给定XML文档和相应的DTD,系统就 能通过转换将XML文档的内容以关系数据的形式存储到关系数据库中;在获取XML文档时,同样通过转换的形式,从关系数据库中获取相关内容,重新构造 XML文档。XML与关系数据库转换系统XTrans起到的是一种中间转换处理单元的作用,它负责桥接内部关系数据和外部的XML通信数据。也就是说,它 负责处理从XML文档到关系数据库数据,以及从关系数据库数据到XML文档的双向转换。
下载地址: http://www.ios.ac.cn/Welcome.html
分享到:
评论

相关推荐

    定量语料库语言学与R编程:实用导论(英文版)

    《定量语料库语言学与R编程:实用导论》Quantitative Corpus Linguistics with R A Practical Introduction。注意是英文版。学习R语言必备的学习丛书。由知名学者Stefan Th.Gries著,欢迎大家下载学习使用。

    Brown语料库和LOB语料库

    Brown语料库是世界上第一个计算机可读的语料库,它搜集的语料来自1961年美国英语出版物上的文本,共500篇,每篇大约2000个单词,合计100万单词。LOB语料库是模仿Brown语料库的比例建立起来的英国英语语料库,其预料...

    语料库在英语教学中的应用——语料库辅助检索分析文学作品《小王子》

    语料库在英语教学中的应用——语料库辅助检索分析文学作品《小王子》,施莹弘,,语料库语言学是20世纪50年代后期发展起来的新兴学科,本文以语料库为辅助工具分析儿童文学作品《小王子(英文版)》的文本主旨,以实例�

    应用语言学中的语料库

    应用语言学中的语料库

    兰卡斯特汉语语料库LCMC语料库

    LCMC语料库是一个100万词次(按每1.6个汉字对应一个英文单词折算)的现代汉语书面语通用型平衡语料库。起先建立时,它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的部分...

    论文研究 - 小型语料库注释的简单框架

    本文介绍了一种话语注释框架,该框架由软件工具和标签集组成。... 尽管在语料库语言学的文献中有一些好的语料库注释框架和标签集,但对于既不是语料库语言学还是语篇分析专家的教师来说,它们通常过于复杂。

    语料库语言学研究发展现状浅析

    语料库语言学研究发展现状浅析

    英文语料库词汇标注软件TreeTagger

    英文语料库词汇标注软件TreeTagger

    对国外隐喻语料库研究方法的辩证分析

    隐喻研究与语料库语言学的结合是近年来语言学研究领域的新趋势,语料库研究方法的兴起促进了隐喻的实证转向。近十年来国外学者在隐喻语料库方面的研究成果大致可分为四个方向:隐喻在语料库中的识别和提取;隐喻跨语言...

    资源MIT发布的10大自然语言处理数据集和语料库

    资源MIT发布的10大自然语言处理数据集和语料库

    英语语料库LOB语料库

    LOB语料库 创建时间: 1970年代初 创建单位:英国Lancaster大学和挪威Oslo大学以及Bergen大学 规模层级: 100万词次 基本情况:研究当代英国英语,与美国英语对比,使用了TAGIT系统,以统计方式建立换算几率矩阵,提高标注...

    常用语料库软件的应用.ppt

    常用语料库软件的应用.ppt

    人工智能-项目实践-聊天语料库-中文公开聊天语料库

    人工智能-项目实践-聊天语料库-中文公开聊天语料库 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作 该库搜集了包含 chatterbot 豆瓣多轮 PTT八卦语料 青云语料 电视剧对白语料 贴吧论坛回帖...

    微博语料库WeiboNER.zip

    微博语料库WeiboNER.zip

    计算机自然语言理解98年1月人民日报某语料库

    语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。...语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

    语料库软件-AntConc

    A freeware corpus analysis toolkit for concordancing and text analysis. Provided by Laurence Anthony. 语料库相关牛人Laurence Anthony所做的语料库工具软件AntConc,绿色版,无需安装,直接运行。

    语料库检索工具

    语料库检索工具,检索语料库

    语料库研究与应用综述

    语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或 口语的样本汇集而成,用来代表特定的语言或语言变体。...语料库已经成为语言学理论研究、应用研究和语言工程不可缺少 的基础资源。

    搜狐新闻分类语料库

    搜狐新闻分类语料库,主要包含 0 汽车 1 财经 2 IT 3 健康 4 体育 5 旅游 6 教育 7 招聘 8 文化 9 军事 十个分类,共50多万条记录

    搜狗语料库搜狗语料库

    搜狗语料库,经验证非常好用。欢迎下载。搜狗语料库,经验证非常好用。欢迎下载。搜狗语料库,经验证非常好用。欢迎下载。

Global site tag (gtag.js) - Google Analytics