| ·电子书加工标准
1 电子图书加工流程
扫描---->去污纠斜——>图象格式转换
元数据录入——>目录导航制作 } ---->打包---->质量检测
2 电子图书加工各工序标准
为了便于管理,CADAL项目中所有加工图书均采用统一编号。编号长度为8位,分为2段,格式为“AADDDDDD”。
其中,AA代表资源加工中心代号;
DDDDDD为6位流水号,唯一标识对应一本图书。
在图书编号中,6位流水号可由资源中心自己分配和管理,但应确保本中心范围内加工的每本图书与编号一一对应,不能出现一本书重复加工,使用两个编号的情况,或一个编号被两本书同时使用的情况。
2.1 扫描图像标准
1.命名
扫描图像必须与原页面一一对应,不得出现颠页、缺页、重页或错页情况。图像按流水顺序以tiff格式保存,文件名自00000001.tif依次排布。
2.分辨率
扫描分辨率标准为600dpi二值;
对于有灰度插图的页面,采用600dpi 256级灰度;
对于彩页,采用600dpi 真彩色扫描;
图像文件采用TIF CCITT4压缩格式保存原图于OTIFF目录。
3.倾斜度
扫描图像整体倾斜不得超过3度;不得出现图象的一部分倾斜或扭曲而影响阅读的现象。
对装订线较近的书本或较厚书本,边角的几个字会产生扭曲现象,但需保证正文文字能看清楚。
4.清晰度
扫描图像字迹清晰、颜色恰当,不宜过浅或过深,并且不得出现字迹笔画残缺或字迹笔画叠合而影响阅读的情况,即使原书本存在锈斑变质、颜色过浅或深浅不一致,也应保证扫描图像可读。
由于书本页太薄或颜色过浓,扫描时会倒映反面文字,其文字上的污点无法去污,但需保证正文文字能看清楚。
扫描留下的黑迹宽度不得超过0.5厘米,并且指印和黑线不能覆盖或影响书本正文内容。
5.图像内容
扫描的页面内容基本居中显示,不可出现明显偏左或偏右的现象。
页眉、页脚信息完整
图像内容与书本页面完全对应,不得出现书页内容残缺或将旁边页面信息扫入本页的现象。
2.2 图像处理标准
1. 图象处理后必须保证图象信息与原书本内容完全一致,不得删除页面任何有用信息,包括正文内容、页眉、页脚、手写注释和印鉴等(图书馆藏书章除外)。
2. 所有扫描留下的黑线、指印或阴影都必须清除干净。
3. 页面的倾斜度不得超过1度。
4. 处理后的图像以300dpi的DjVu格式保存于PTIFF目录。
2.3 元数据录入标准(以学位论文为例)
元数据采用DC标准,录入正确率要求达到100%,对应项如下:
题目:XX大学X士学位论文------......(课题题目)
对于一般图书
(1) 若书名页数据与封面上的图书名称不一致,则根据书名页内容确定、录入此图书的名称。
(2) 若书名页中只有丛书名称,则按照“丛书名:书名”格式输入此图书的名称。
作者:论文作者
主题关键词:论文摘要已列出则录入,否则不录(本软件最多可录入关键词13个,13个以后的关键词不作录入;其中前三个关键词的长度可以不受限,第四到十三个关键词的最大长度为25个字符。)
描述:摘要第一句话
出版者:XX大学
其它参与者:指导教师
日期:论文封面所标的创作日期
资源类型:TEXT.ABSTRACT
格式:TEXT.HTML
语言:中文或英文
·对于其它诸如资源标识符,权限管理,覆盖范围等元数据,等相关标准确定后再行录入。
2.4 目录制作标准
1. 录入的导航信息正确率要求100%,包括目录的标题及其对应页码和目录中出现的所有可以在软件中录入的特殊符号,如§等。
2. 录入的目录标题项都必须输入相应页码,如果书本欠缺页码,或书本目录页码标识错误,都必须根据书本实际情况,查找正确页码,进行录入。
3. 导航信息要求整齐美观,章、节、标题与序号之间必须加一个空格。
4. 目录中录入的其他信息,包括封面、目录、内容提要、ABSTRACT、前言、参考书目、附录、感谢、标题页、题跋、引语、绪言、贡献、索引、注释、术语表、版权表格清单、插图清单等,必须根据书本录入相关信息,并且标引到相应页面。
注意:该项不可以录入空格或其他任何符号。
5.制作完成的XML文件应保存在相应图书工作目录的TOC文件夹下。
6. 特殊情况处理:
(1)在CATCREATOR中,某些特殊符号输入可能会导致CATALOG.XML产生错误,可以根据符号含义用相应中文或英文代替表达其含义。
(2)目录中的角标问题:
①目录中包含上、下角标。例如:
X 2 可以录入为Xˉ2即(X+上划线+2);
X 2 可以录入为X_2即(X+下划线+2);
同时含有上、下角标的先录入上角标,后录入下角标。
②目录中包含繁分式。例如:
A+B
C+D
E+F
G+H
可以录入为[(A+B)/(C+D)]/[(E+F)/(G+H)];
③目录中包含根号。
若根号下为数字,如:”根号2”,则可以录入为√2。
注意: 3√2(三次根号2) 与3*√2(三倍根号2)的区别!
若根号下为表达式,如:“根号下A加B”,则可以录入为√(A+B)。
(3) 文字录入应遵循原书的简繁体格式,对于GBK不包含的汉字,可以录入其对应的全拼拼音。
(4) 对于无法录入的特殊符号,可以使用“#”代替。(注:“#”必须在全角下录入)。
(5) 对于目录在上册且下册没有目录的图书,应该将在上册中对应于下册的目录录入。
(6) 对于有总目录的图书,应该录入总目录。
(7) 对于分册的图书,应该录入本分册对应的目录。
(8) 封面上没有标题的,要求手工录入其图书名称。
(9) 编委会之类的标题应该根据书中的标题录入。
(10) 若目录中的标题为中、英文混合或其它国家文字的混合,则应该将在页码前的文字全部录入。
(11) 书本含有多个目录,如有中文目录和英文目录的则录入中文目录。
(12) 图书目录标题与图书中对应的正文标题不一致,则根据书本中的正文标题录入。
(13) 对于欠缺目录的书本,要求翻查书本,编制三级目录,并录入。
(14) 若目录中字数太多无法标引的,则可以只录入前二十个字,省略部分用“……”表示。
(15) 若图书目录中页码是错误的(即页码不是按顺序排列的),则必须按照真实目录信息录入.
(16) 若图书中目录标题与图书中对应的正文标题不一致的, 则应该录入图书中的正文标题。
(17) 若一本图书中有两个或两个以上的目录(但其中一个目录A是另一个目录B的一部分),则录入最完整的那个目录。其它的因书的内容制定。
2.5 质量检查标准
见前2.1-2.4。 |