吉林省延边大学朝汉书面语双语平行语料库系统采购项目更正公告
一、项目基本情况
原公告的采购项目编号:(略)
原公告的采购项目名称:(略)
首次公告日期:(略)
二、更正信息
更正事项:(略)
更正内容:(略)
一、朝汉书面语平行语料库检索系统
1系统总体技术要求
系统的建设应采用先进的设计思想和主流的技术路线,必须符合业界当前的发展趋势,遵循行业的相关技术标准。系统技术架构需要达到以下要求:
(1)采用Java语言开发,支持跨平台部署,基于分布式架构,可灵活扩容提升性能。
(2)系统要具备良好的浏览器兼容性,能在谷歌、火狐等主流浏览器下进行所有的功能操作。
(3)采用基于服务的设计理念,支持中间件技术,提高系统的可维护性和软件代码的重用性,降低学校对IT资源的投资。
(4)采用基于面向对象的组件开发技术,构建可重用的业务组件,利用这些组件能快速响应学校业务变更,搭建新应用。
(5)信息标准要求:(略)
(6)可靠性、稳定性要求:(略)
(7)界面友好性要求:(略)
(8)安全性和保密性要求:(略)
(9)可管理性要求:(略)
((略))系统部署要求:(略)
2系统性能要求
系统性能也是衡量系统建设成败的一个关键指标,本项目系统的具体性能指标要求如下:
指标类型 指标要求
查询 十万级数据量下单条记录本地查询的响应时间≤(略)ms;
百万级数据量下单条记录本地查询的响应时间≤(略)ms;
千万级数据量下单条记录本地查询的响应时间≤1.5秒;
数据量 可支撑上亿句对规模的朝汉双语语料数据检索,支持TB级文件存储、检索与导出
并发量 支持百人规模日常在线使用
3功能要求(主体模块)
3.1朝汉书面语双语平行语料数据库
3.1.1数据存储
数据库是平台运行的基础,用于存储项目相关文档文件;用于存储文件所包含的句对;按行业(领域)不同储存相关句对、词典、术语。
支持对资源文件(txt,doc等)和结构性数据进行存储和关联,提供开放接口可对接第三方平台或原有系统,降低新平台建设的数据迁移成本,提供本地上传、远程数据上传和数据映射等数据入口快速接入数据。
3.1.2面向平行语料智能检索的基础架构服务
为搜索引擎提供相关数据支持,提高检索速度。索引服务使用Elasticsearch作为搜索引擎,建立索引数据库,可以便捷的对集群进行扩容操作;为分词操作提供数据支持。支持通用的数据抽取(采集、清洗、转换或同步)方法,生成需要的数据。
3.1.3备份服务
支持原始数据灾备,支持数据库灾备。支持两个或两个以上并行数据库组建集群提供高可用数据服务。
3.1.4数据清洗与标注服务
通过机器辅助人工,对现有非结构化数据进行转换清洗,转换为结构化数据,并储存至数据库。对现有句对进行清洗标注,为按领域以及智能查询提供数据基础。
数据标注服务:
1、管理中心
1.1团队管理
1)翻译团队管理:(略)
2)任务团队管理:(略)
1.2勋章管理:(略)
导入勋章测试数据、设置勋章通过率
2、用户中心
2.1个人主页:(略)
2.2我的任务:(略)
1)未完成任务:(略)
2)已完成:(略)
2.3我的勋章:(略)
3、批次管理
3.1添加批次:(略)
3.2批次列表:
1)分配任务:(略)
分配进度查看
2)查看批次进度:(略)
3)查看批次详情:(略)
4)其它功能:(略)
4、数据标注任务大厅
4.1登录、修改密码、退出
4.2帮助中心
4.3平台首页:(略)
4.4任务大厅:(略)
后期规划(不在本期项目中):
任务积分结算、数据统计功能、公告发布、消息发布、广告发布、常见问题答疑等
3.2朝汉书面语双语平行语料查询及检索平台
3.2.1全字符匹配查询
可以通过全字符匹配精确查询语料,展示该句的来源,领域等。
3.2.2关键词查询
查询所有包含关键词的语料信息,包括术语,句对。
3.2.3全词查询
支持输入词组或短句,查询包含词组与短句相关语料信息。
3.2.4分词查询
支持输入词组或短句通过智能分词后查询包含词组、短句所包含的词汇的语料信息。
3.2.5智能查询
查询单句或单词,智能拓展查询与该词相关词汇或与该句相关词汇的双语资料以及词汇信息。
3.2.6专有领域查询
建立专有领域查询方案,只查询一个或多个指定领域内的数据。包括领域内的术语、句对。
3.2.7词典查询
查询词典内指定词汇的翻译与解释。
3.2.8双语查询
输入单语词汇,获取该语种词汇信息以及对应译文词汇信息。词汇信息包括双语句对与词典解释。
3.2.9多模式阅读
支持多模式阅读双语语料:(略)
3.2.(略)语料对齐
支持docx、txt等常用文本格式语料自动化对齐。生成tmx或EXCEL句对。
3.2.(略)数据建模
系统支持自定义数据建模,通过预设的自定义属性,可对某一领域或类型的语料进行建模,并可根据模型属性进行精确检索、模糊检索和组合检索,支持模型样例的上传与下载。
3.2.(略)模型检索
支持在模型下对具体数据再进行自定义属性标记和编辑,支持自定义属性的精确检索、模糊检索和组合检索。
3.2.(略)全库检索
支持对全库进行匹配检索,并可按照模型进行统计展示
二、服务器:
1、应用服务器(一台)
2U机架式服务器
CPU:(略)
内存:(略)
硬盘:(略)
(略)GHDD(略)r/(略)r,2个
2、数据库及文件服务器(一台)
2U机架式服务器
CPU:(略)
内存:(略)
硬盘:(略)
2THDD(略)r/(略)rraid5,5个
三、软硬件清单
软件部分 名称 概述 子项
朝汉书面语双语数据库 储存(略)万句对以上规模的朝汉书面语平行语料库,包含文档数据,双语数据。该语料库应包含:(略)
注:(略)
数据格式转换
语料对齐
数据入库
数据标注模块
朝汉书面语双语数据检索系统 用于智能查询朝汉书面语资料,包括术语,句对。 全字符匹配查询
关键词查询
全词查询
分词查询
智能查询
专有领域查询
词典查询
双语查询
多模式阅读
语料对齐
数据建模
模型检索
全库检索
硬件部分 名称 参数 数量
应用服务器 2U机架式服务器
CPU:(略)
内存:(略)
硬盘:(略)
(略)GHDD(略)r/(略)r,2个 1台
数据库及文件服务器 2U机架式服务器
CPU:(略)
内存:(略)
硬盘:(略)
2THDD(略)r/(略)rraid5,5个 1台
其他内容不变!
更正日期:(略)
三、凡对本次公告内容提出询问,请按以下方式联系。
1.采购人信息
采购人名称:(略)
地址:(略)
联系人:(略)
联系方式:(略)
2.采购代理机构信息
采购代理机构:(略)
地址:(略)
联系人:(略)
联系电话:(略)
3.项目联系方式
项目联系人:(略)
电话:(略)
传真:(略)