关于殆知阁藏书计划——写于2011年岁首_殆知阁吧

殆知阁吧关注：451贴子：1,225

11回复贴，共1页

关于殆知阁藏书计划——写于2011年岁首

缘起：
本站殆知阁藏书截止到目前已经大概有12000种以上 10万卷左右近十三亿汉字了根据权威人士保守的估计汉字古籍书目应该在7-8万种；根据权威人士乐观的估计现在所存的汉字古籍文献数目大概为150000种左右。因此本站累一年之功大概收集了10%左右的古代文献的纯文本资料。这大概是个不错的成绩了。当然在此也顺便声明本站收集的这些古籍的文本资料基本上几乎都是散落在因特网之上的诸多贤达辛苦录入扫校的在此也一并敬仰一下。
我等每每看到本应由这个朝代掌控者出面组织的文化传承事宜最终变成了出版社或者company挣钱的小法宝动辄万元以至于百万元的价格让升斗之民望而却步让本应分享的知识智慧与信息束之高阁藏之深馆痛心疾首以至于夜不能寐仰天长叹遂有此举收集整理以至于今日之规模。
但这远远并不足够。我等期盼待到某年某月能够集众之力将汉字古籍全面的数字化能够提供全面的智能检索能够使任何一个认得汉字的人充分的加以利用这些文献资料或启迪或反思或受益或启蒙或等等等方是本站最终的理想所在。
当然无论任何人只要有点脑子均知此事难于上青天之上。然或可一试或可成功也未可知。故本站拟发起殆知阁藏书计划亦盼有识之士共图之。
下面简单陈述一下本站的想法与思路欢迎提意见泼凉水...。。。
比较零散不成脉络主要是先写下来怕忘记了。。

送TA礼物

IP属地:湖北

1楼2014-03-29 15:46回复

目标：
数字化汉字古籍资料
构架一个知识本体
提供客户端软件实现资料的智能检索与知识的交流与分享

IP属地:湖北

2楼2014-03-29 15:46

收起回复

古籍的基本单位应该是“卷”而不是“种”
卷作为古籍的基本原子单位
版本作为“卷”的一个属性
无论标点、校对、注解、评论等等
均是以“卷”为基本单位
藏书以“卷”为基本单位
依据拼音加以排序
作为流水书目清单
文件格式为：
书名空格别名-朝代-作者-卷-卷数-卷名.txt
每本书最起初的文件为书名空格别名-朝代-作者-卷列表.txt
最末文件为书名空格别名-朝代-作者-说明.txt

IP属地:湖北

3楼2014-03-29 15:47

关于书的分类：
书作为一个独立的分子单位可以归为不同的种类这个是多对一的映射关系
例如：某本书既可以归为“易”也可以同时归为“儒”“道”“术”
藏书以两个大体系为主：
一个是想兄提出的所谓“十全藏”体系即：佛儒道易史子集医艺杂
另一个采用西方的所谓“杜威十进制图书分类法” 以现在的所谓：政治经济文化科学数学体育艺术等等加以分类
其他的角度以索引和搜索的形式出现
例如：依据时代依据地点依据人物的分类均以索引出现

IP属地:湖北

4楼2014-03-29 15:47

智能搜索为4个层面：
书籍层面
卷层面
知识体层面
全文层面

IP属地:湖北

5楼2014-03-29 15:47

知识本体的构建：
人机结合的方式收集整理所有参与者的意见
维度有时间地点人物以及事件
事件的维度为政治经济文化体育卫生系列以及喜怒哀思悲恐惊等等的情感系列以及善恶贤达美丑等等的道德评判系列
人物的属性为有别名字号尊称敬语讳称简称关系等
地点以现在称谓加以统合
时间把所有的各种纪年统合为公元纪年
上述为本体的结构
本体的存储依据以下的原则：
涉及大量运算的将结果存储在一起
可以快速获得的提供路径或分散于每卷的最后的说明文档之中
原则之一：知识与信息的无障碍分享实现社会必要劳动时间的积累
手段：
提供所有的原始txt文档并公开文件结构
任何计算机编码的文件均公开结构并且同时留存一份以人类能够直观阅读的文档
提供知识本体的结构并及知识本体的数据以便其他人等能够编写程序利用这些知识
提供所有的程序源码和程序接口以便在这个知识体之上进行2次开发从而获得更多的应用
文字的展现、编辑目前考虑以
页面描述语言PostScript为首选（或pdf）
但考虑txt数据与命令语言的分离
版本控制问题参考wiki的经验
任务的智能分配
数据的智能整理
参与者的激励

IP属地:湖北

6楼2014-03-29 15:48

所有使用软件的人以混合p2p的拓扑结构加以联合
以便互相的交流沟通与信息的传达

IP属地:湖北

7楼2014-03-29 15:48

提供诗词、中医、释、道、术以及其他方面的数据挖掘以及使用工具
+++
创新思想之X：
全文检索并不是仅仅局限在非结构化的数据之上
应该以全文检索统合结构化数据与非结构化数据
通过预定义使程序能够智能的识别哪些检索出来的数据是显示的数据哪些数据是驱动其干活的数据
本软件以文件数据库实现所有的一切而不考虑使用任何关系型数据库系统

IP属地:湖北

8楼2014-03-29 15:48

简繁体的问题
句读的问题
少量的图形的插入问题
评论、笔记
校勘
版本
cc版权的文章
字典的合理使用
用户的操作体验
分层的注释显示
分3级别的注音显示
......
+++
简繁体坚决采用最小汉字集那些显示不出来的汉字尽量的采用文字描述而不是提供图形或者索引列表或者大字符集的安装这样才能面对复杂多变的应用环境

IP属地:湖北

9楼2014-03-29 15:48

在目前的12000种之上并且提供全部的txt文本
以及上述的功能的部分实现
已经足可以成为一款说的过去的软件了
一个真正的易于使用并且是快速响应的符合当下用户需求的汉字古籍软件
将会被有需求的用户频繁的使用
故此整个的工程计划将被越来越多的同好所或知并有限度的参与
如果能提供方便的ocr 以及校对工具所见即所得的操作界面用以完成句读排版修改错字注解以及知识库中相关知识的人工处理
那么逐渐的这个工程的文本数据以及知识本体就会越来越完善
最终形成一个正反馈的话
那么或许离成功就不太远了

IP属地:湖北

10楼2014-03-29 15:49

需要掌握
汉字全文检索的相关技术理论
数据挖掘的相关技术理论
人工智能的相关技术理论
本体论的相关技术理论
现代情报学与图书馆学以及索引学的相关技术与理论
当然
还有c++、p2p、web服务、winAPI、postscript、cuda等等等具体的实现技术与理论
千里之行始于足下
但愿今年能整出个雏形出来

IP属地:湖北

11楼2014-03-29 15:49

就以卷为基本单位这事还需要细分
有些分卷有独立的篇名和内容
自然有分立的必要
有些卷却完全不能单独成篇
书名可以采用下述格式
书名空格别名-朝代-作者-卷一—卷N.txt
没必要重复工作

IP属地:湖北

12楼2014-03-29 15:49

百度小说人气榜

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

11回复贴，共1页

<返回殆知阁吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴

日	一	二	三	四	五	六

关于殆知阁藏书计划——写于2011年岁首

登录百度账号

扫二维码下载贴吧客户端