殆知阁吧 关注:451贴子:1,225

关于殆知阁藏书计划——写于2011年岁首

只看楼主收藏回复

缘起:
本站殆知阁藏书截止到目前 已经大概有12000种以上 10万卷左右 近十三亿汉字了 根据权威人士保守的估计 汉字古籍书目应该在7-8万种;根据权威人士乐观的估计 现在所存的汉字古籍文献数目大概为150000种左右。因此 本站累一年之功 大概收集了10%左右的古代文献的纯文本资料。这大概是个不错的成绩了。当然 在此也顺便声明 本站收集的这些古籍的文本资料 基本上几乎都是散落在因特网之上的 诸多贤达辛苦录入 扫校的 在此也一并敬仰一下。
我等每每看到本应由这个朝代掌控者出面组织的文化传承事宜 最终变成了出版社或者company挣钱的小法宝 动辄万元以至于百万元的价格 让升斗之民望而却步 让本应分享的知识 智慧与信息束之高阁 藏之深馆 痛心疾首以至于夜不能寐 仰天长叹 遂有此举 收集整理 以至于今日之规模。
但 这远远并不足够。我等期盼待到某年某月 能够集众之力 将汉字古籍全面的数字化 能够提供全面的智能检索 能够使任何一个认得汉字的人充分的加以利用这些文献资料 或启迪 或反思 或受益 或启蒙 或等等等 方是本站最终的理想所在。
当然 无论任何人 只要有点脑子 均知此事难于上青天之上。然 或可一试 或可成功 也未可知。故 本站拟发起殆知阁藏书计划 亦盼有识之士共图之。
下面 简单陈述一下本站的想法与思路 欢迎提意见 泼凉水...。。。
比较零散 不成脉络 主要是先写下来 怕忘记了。。


IP属地:湖北1楼2014-03-29 15:46回复
    目标:
    数字化汉字古籍资料
    构架一个知识本体
    提供客户端软件实现资料的智能检索与知识的交流与分享


    IP属地:湖北2楼2014-03-29 15:46
    收起回复
      古籍的基本单位应该是“卷”而不是“种”
      卷作为古籍的基本原子单位
      版本作为“卷”的一个属性
      无论标点、校对、注解、评论等等
      均是以“卷”为基本单位
      藏书以“卷”为基本单位
      依据拼音加以排序
      作为流水书目清单
      文件格式为:
      书名空格别名-朝代-作者-卷-卷数-卷名.txt
      每本书 最起初的文件为 书名空格别名-朝代-作者-卷列表.txt
      最末文件为 书名空格别名-朝代-作者-说明.txt


      IP属地:湖北3楼2014-03-29 15:47
      回复
        关于书的分类:
        书作为一个独立的分子单位 可以归为不同的种类 这个是多对一的映射关系
        例如:某本书 既可以归为“易”也可以同时归为“儒”“道”“术”
        藏书以两个大体系为主:
        一个是想兄提出的所谓“十全藏”体系 即:佛 儒 道 易 史 子 集 医 艺 杂
        另一个采用西方的所谓“杜威十进制图书分类法” 以现在的所谓:政治 经济 文化 科学 数学 体育 艺术等等加以分类
        其他的角度 以索引和搜索的形式出现
        例如:依据时代 依据地点 依据人物的分类 均以索引出现


        IP属地:湖北4楼2014-03-29 15:47
        回复
          智能搜索为4个层面:
          书籍层面
          卷层面
          知识体层面
          全文层面


          IP属地:湖北5楼2014-03-29 15:47
          回复
            知识本体的构建:
            人机结合的方式 收集整理所有参与者的意见
            维度有时间 地点 人物以及事件
            事件的维度为政治经济文化体育卫生系列以及喜怒哀思悲恐惊等等的情感系列以及善恶贤达美丑等等的道德评判系列
            人物的属性为有别名 字 号 尊称 敬语 讳称 简称 关系等
            地点 以现在称谓加以统合
            时间 把所有的各种纪年统合为公元纪年
            上述为本体的结构
            本体的存储依据以下的原则:
            涉及大量运算的 将结果存储在一起
            可以快速获得的 提供路径 或分散于每卷的最后的说明文档之中
            原则之一:知识与信息的无障碍分享 实现社会必要劳动时间的积累
            手段:
            提供所有的原始txt文档 并公开文件结构
            任何计算机编码的文件 均公开结构 并且同时留存一份以人类能够直观阅读的文档
            提供知识本体的结构 并及知识本体的数据 以便其他人等能够编写程序利用这些知识
            提供所有的程序源码和程序接口 以便在这个知识体之上进行2次开发 从而获得更多的应用
            文字的展现、编辑目前考虑以
            页面描述语言PostScript为首选(或pdf)
            但考虑txt数据与命令语言的分离
            版本控制问题 参考wiki的经验
            任务的智能分配
            数据的智能整理
            参与者的激励


            IP属地:湖北6楼2014-03-29 15:48
            回复
              所有使用软件的人以混合p2p的拓扑结构加以联合
              以便互相的交流沟通与信息的传达


              IP属地:湖北7楼2014-03-29 15:48
              回复
                提供诗词、中医、释、道、术以及其他方面的数据挖掘以及使用工具
                +++
                创新思想之X:
                全文检索并不是仅仅局限在非结构化的数据之上
                应该以全文检索统合结构化数据与非结构化数据
                通过预定义 使程序能够智能的识别哪些检索出来的数据是显示的数据 哪些数据是驱动其干活的数据
                本软件以文件数据库实现所有的一切 而不考虑使用任何关系型数据库系统


                IP属地:湖北8楼2014-03-29 15:48
                回复
                  简繁体的问题
                  句读的问题
                  少量的图形的插入问题
                  评论、笔记
                  校勘
                  版本
                  cc版权的文章
                  字典的合理使用
                  用户的操作体验
                  分层的注释显示
                  分3级别的注音显示
                  ......
                  +++
                  简繁体 坚决采用最小汉字集 那些显示不出来的汉字 尽量的采用文字描述 而不是 提供图形或者索引列表或者大字符集的安装 这样才能面对复杂多变的应用环境


                  IP属地:湖北9楼2014-03-29 15:48
                  回复
                    在目前的12000种之上 并且提供全部的txt文本
                    以及上述的功能的部分实现
                    已经足可以成为一款说的过去的软件了
                    一个真正的易于使用 并且是快速响应的 符合当下用户需求的汉字古籍软件
                    将会被有需求的用户频繁的使用
                    故此 整个的工程计划将被越来越多的同好所或知 并有限度的参与
                    如果能提供方便的ocr 以及校对工具 所见即所得的操作界面用以完成句读 排版 修改错字 注解 以及知识库中相关知识的人工处理
                    那么 逐渐的 这个工程的文本数据以及知识本体就会越来越完善
                    最终形成一个正反馈的话
                    那么 或许 离成功就不太远了


                    IP属地:湖北10楼2014-03-29 15:49
                    回复
                      需要掌握
                      汉字全文检索的相关技术理论
                      数据挖掘的相关技术理论
                      人工智能的相关技术理论
                      本体论的相关技术理论
                      现代情报学与图书馆学以及索引学的相关技术与理论
                      当然
                      还有c++、p2p、web服务、winAPI、postscript、cuda等等等具体的实现技术与理论
                      千里之行始于足下
                      但愿今年能整出个雏形出来


                      IP属地:湖北11楼2014-03-29 15:49
                      回复
                        就以卷为基本单位这事还需要细分
                        有些分卷有独立的篇名和内容
                        自然有分立的必要
                        有些卷却完全不能单独成篇
                        书名可以采用下述格式
                        书名空格别名-朝代-作者-卷一—卷N.txt
                        没必要重复工作


                        IP属地:湖北12楼2014-03-29 15:49
                        回复
                          ···················


                          IP属地:福建16楼2014-11-16 10:29
                          回复