繁体版   设为主页   加入收藏   联系我们



多语种文本生成系统

    
    项目持有者:曾庆辉
    
    联系方式:E-mail:zqhmail@yahoo.com
    
    项目介绍:
    
    自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。它可以分成语言理解和语言生成两个互逆的过程。自然语言生成是一种从大量数据、深层语言结构到表层结构的转换。经过多年的研究,工程化的自然语言处理--语言技术(Language Technology) 已经使复杂的人类语言处理技术从实验室走向市场成为可能。
    
    项目申请人在上海交通大学和德国人工智能研究中心在这方面从事了多年的研究和开发,积累的丰富的经验。所开发的多语种文本生成系统采用浅层生成(Shallow Approach)和深层生成(Deep Approach) 。浅层生成采用面向任务基於模板的格式化生成,可移植性强,开发周期短而且成本低。深层生成采用流水线式结构(即由内容规划器、句子规划器和表层生成器组成)。在内容规划阶段采用Schema方法,较好地解决了文本结构和内容的灵活组织问题。在句子规划阶段,采用了语句优化和资源类映射技术,消除了语句的冗余部分,并可用形式化方法表述不同语种以及各语种的不同语句结构。使同一内容生成的语句呈现多样化形式。在表层生成阶段,完善了FB-LTAG(基于特征的词汇树连接文法),解决了生成中构造句法树的“组合爆炸”问题,并在选词时做到恰如其份。针对不同客户和应用可以分别和组合使用这两种方法。潜在的应用领域包括:
    
    旅游:
    
    航班信息的实时文本汇报
    
    气象信息的文本预报
    
    体育:
    
    上报国际体育组织的各种实时报表或简报;
    
    供中外媒体(报刊、电台、电视台、网站等)使用的成绩报表和简报;
    
    供裁判使用的运动员历史成绩等情况介绍;
    
    自动综合每天的各项比赛情况(报表);
    
    实时文字报导运动员比赛情况;
    
    企业:
    
    公司客户电子邮件问讯回复自动生成
    
    



地址:北京市西城区阜外大街35号 邮编:100037 电话:86-10-68327530
国务院侨务办公室2004版权所有 中国侨网技术支持