办理会员咨询热线:4000-156-001

延边大学朝汉书面语双语平行语料库系统采购项目更正公告

所在地区: 吉林-- 发布日期: 2020年7月28日
变更公告正文

延边大学朝汉书面语双语平行语料库系统采购项目更正公告

一、    项目基本情况

原公告的采购项目编号:(略)

原公告的采购项目名称:(略)

首次公告日期:(略)

 

二、    更正信息

更正事项:(略)

更正内容:(略)

一、朝汉书面语平行语料库检索系统

1   系统总体技术要求

系统的建设应采用先进的设计思想和主流的技术路线,必须符合业界当前的发展趋势,遵循行业的相关技术标准。系统技术架构需要达到以下要求:

(1)采用Java语言开发,支持跨平台部署,基于分布式架构,可灵活扩容提升性能。

(2)系统要具备良好的浏览器兼容性,能在谷歌、火狐等主流浏览器下进行所有的功能操作。

(3)采用基于服务的设计理念,支持中间件技术,提高系统的可维护性和软件代码的重用性,降低学校对IT资源的投资。

(4)采用基于面向对象的组件开发技术,构建可重用的业务组件,利用这些组件能快速响应学校业务变更,搭建新应用。

(5)信息标准要求:(略)

(6)可靠性、稳定性要求:(略)

(7)界面友好性要求:(略)

(8)安全性和保密性要求:(略)

(9)可管理性要求:(略)

((略))系统部署要求:(略)

 

 

2   系统性能要求

系统性能也是衡量系统建设成败的一个关键指标,本项目系统的具体性能指标要求如下:

指标类型

指标要求

查询

十万级数据量下单条记录本地查询的响应时间≤(略)ms;

百万级数据量下单条记录本地查询的响应时间≤(略)ms;

千万级数据量下单条记录本地查询的响应时间≤1.5秒;

数据量

可支撑上亿句对规模的朝汉双语语料数据检索,支持TB级文件存储、检索与导出

并发量

支持百人规模日常在线使用

3   功能要求(主体模块)

3.1  朝汉书面语双语平行语料数据库

3.1.1      数据存储

数据库是平台运行的基础,用于存储项目相关文档文件;用于存储文件所包含的句对;按行业(领域)不同储存相关句对、词典、术语。

 

支持对资源文件(txt, doc等)和结构性数据进行存储和关联,提供开放接口可对接第三方平台或原有系统,降低新平台建设的数据迁移成本,提供本地上传、远程数据上传和数据映射等数据入口快速接入数据。

3.1.2      面向平行语料智能检索的基础架构服务

为搜索引擎提供相关数据支持,提高检索速度。索引服务使用Elasticsearch作为搜索引擎,建立索引数据库,可以便捷的对集群进行扩容操作;为分词操作提供数据支持。支持通用的数据抽取(采集、清洗、转换或同步)方法,生成需要的数据。

3.1.3      备份服务

支持原始数据灾备,支持数据库灾备。支持两个或两个以上并行数据库组建集群提供高可用数据服务。

3.1.4      数据清洗与标注服务

通过机器辅助人工,对现有非结构化数据进行转换清洗,转换为结构化数据,并储存至数据库。对现有句对进行清洗标注,为按领域以及智能查询提供数据基础。

数据标注服务:

1 管理中心

1.1  团队管理

1)翻译团队管理:(略)

2)任务团队管理:(略)

1.2  勋章管理:(略)

导入勋章测试数据、设置勋章通过率

2 用户中心

2.1 个人主页:(略)

2.2 我的任务:(略)

1)未完成任务:(略)

2)已完成:(略)

2.3 我的勋章:(略)

3、批次管理

3.1 添加批次:(略)

3.2 批次列表:

1)分配任务:(略)

分配进度查看

2)查看批次进度:(略)

3)查看批次详情:(略)

4)其它功能:(略)

4、数据标注任务大厅

4.1 登录、修改密码、退出

4.2帮助中心

4.3 平台首页:(略)

4.4 任务大厅:(略)

后期规划(不在本期项目中):

任务积分结算、数据统计功能、公告发布、消息发布、广告发布、常见问题答疑等

3.2  朝汉书面语双语平行语料查询及检索平台

3.2.1      全字符匹配查询

可以通过全字符匹配精确查询语料,展示该句的来源,领域等。

3.2.2      关键词查询

查询所有包含关键词的语料信息,包括术语,句对。

3.2.3      全词查询

支持输入词组或短句,查询包含词组与短句相关语料信息。

3.2.4      分词查询

支持输入词组或短句通过智能分词后查询包含词组、短句所包含的词汇的语料信息。

3.2.5      智能查询

查询单句或单词,智能拓展查询与该词相关词汇或与该句相关词汇的双语资料以及词汇信息。

3.2.6      专有领域查询

建立专有领域查询方案,只查询一个或多个指定领域内的数据。包括领域内的术语、句对。

3.2.7      词典查询

查询词典内指定词汇的翻译与解释。

3.2.8      双语查询

输入单语词汇,获取该语种词汇信息以及对应译文词汇信息。词汇信息包括双语句对与词典解释。

3.2.9      多模式阅读

支持多模式阅读双语语料:(略)

3.2.(略)  语料对齐

支持docx、txt等常用文本格式语料自动化对齐。生成tmx或EXCEL句对。

3.2.(略) 数据建模

系统支持自定义数据建模,通过预设的自定义属性,可对某一领域或类型的语料进行建模,并可根据模型属性进行精确检索、模糊检索和组合检索,支持模型样例的上传与下载。

3.2.(略) 模型检索

支持在模型下对具体数据再进行自定义属性标记和编辑,支持自定义属性的精确检索、模糊检索和组合检索。

 3.2.(略) 全库检索

支持对全库进行匹配检索,并可按照模型进行统计展示

二、服务器:

1、应用服务器(一台)

2U机架式服务器

CPU:(略)

内存:(略)

硬盘:(略)

(略)G HDD  (略)r/(略)r, 2个

2、数据库及文件服务器(一台)

2U机架式服务器

CPU:(略)

内存:(略)

硬盘:(略)

2T HDD  (略)r/(略)r  raid 5, 5个

三、软硬件清单

软件部分

名称

概述

子项

朝汉书面语双语数据库

储存(略)万句对以上规模的朝汉书面语平行语料库,包含文档数据,双语数据。该语料库应包含:(略)

注:(略)

数据清洗

数据格式转换

语料对齐

数据入库

数据标注模块

朝汉书面语双语数据检索系统

用于智能查询朝汉书面语资料,包括术语,句对。

全字符匹配查询

关键词查询

全词查询

分词查询

智能查询

专有领域查询

词典查询

双语查询

多模式阅读

语料对齐

数据建模

模型检索

全库检索

硬件部分

名称

参数

数量

应用服务器

2U机架式服务器

CPU:(略)

内存:(略)

硬盘:(略)

(略)G HDD  (略)r/(略)r, 2个

1台

数据库及文件服务器

2U机架式服务器

CPU:(略)

内存:(略)

硬盘:(略)

2T HDD  (略)r/(略)r  raid 5, 5个

1台

 

其他内容不变!

更正日期:(略)

 

三、    凡对本次公告内容提出询问,请按以下方式联系。

1.采购人信息

采购人名称:(略)

地    址:(略)

联 系 人:(略)

联系方式:(略)

 

2.采购代理机构信息

采购代理机构:(略)

地址:(略)

联系人:(略)

联系电话:(略)

3.项目联系方式

项目联系人:(略)

电    话:(略)

传    真:(略)

 

 

说明:(略) 


附件下载请到网址:(略)
查看完整内容>>

注册会员 享受贴心服务

标讯查询服务

让您全面及时掌握全国各省市拟建、报批、立项、施工在建项目的项目信息。

帮您跟对合适的项目、找对准确的负责人、全面掌握各项目的业主单位、设计院、总包单位、施工企业的项目 经理、项目负责人的详细联系方式。

帮您第一时间获得全国项目业主、招标代理公司和政府采购中心发布的招标、中标项目信息。

标讯定制服务

根据您的关注重点定制项目,从海量项目中筛选出符合您要求和标准的工程并及时找出关键负责人和联系方式。

根据您的需要,向您指定的手机、电子邮箱及时反馈项目进展情况。

咨询热线:4000-156-001