erbi_lucifer吧 关注:406贴子:3,325

简单数据整理分析(二)

只看楼主收藏回复




1楼2013-06-08 16:33回复


    接:http://tieba.baidu.com/p/2380043753


    2楼2013-06-08 16:38
    回复

      a. 按行数或要求分割文件数量进行分割的程序。
      要分割的数据都是文本型的,并且每一条数据占用一行,按行数分割很方便实用。

      程序名:cutfile.exe
      作用:按行切割文本文件
      使用:cutfile 要切割的文件模式(line:根据行数,page:根据要生成的文件数)数值(行数或生成文件数)
      使用:
      cutfile 1.txtline 1000
      cutfile 1.txtpage 10


      4楼2013-06-08 16:40
      回复

        例子: cutfile cnhonkerarmy.com.sql line 10000

        将一个文件切割为4份,每份约10000行。

        其实这个小程序很简单,打开文件,读取数据,写入新文件,然后就没有然后了,源代码见附件。


        5楼2013-06-08 16:41
        回复

          a. 将几个小文本文件连接成一个大文本文件。特别是用于还原分割数据或下面这种类型的文件。

          程序名:confile.exe
          作用:合并文件
          使用:confile 要保存的文件名源文件名格式化字符串起始数值 结束数值 每次增量
          使用:
          confileall.txt page_%d.txt 1 10 1


          6楼2013-06-08 16:42
          回复

            例子: confile Allinformation.txt 考试大论坛%d.txt 0341 1
            要合并的文件:

            合并过程:

            共337个文件,其中的66-70是没有的,会自动跳过。


            7楼2013-06-08 16:44
            回复

              合并后的文件:

              原理很简单,不断打开读取文件然后统一写入同一个文件即可,源代码见附件。以上两个小程序只可以用于文本文件的操作。


              8楼2013-06-08 16:45
              回复

                六、多个HTML文件数据提取--广播电视资格考试报名审核表


                9楼2013-06-08 16:46
                回复

                  提取方法:分析HTML文件(3W个html的大体格式是一样的,就是信息内容不同),编写提取程序。


                  11楼2013-06-10 21:49
                  回复

                    数据如:
                    <palign="center" ><strong>2012年广播电视编辑记者、播音员主持人 </strong></p> <palign="center"><strong>资格考试报名审核表 </strong></p></div><tablewidth="620" border="0" cellpadding="0" cellspacing="0"align="center" style = "font-size:14px;"> <tr> <td> 网报号:363000 </td> </tr></table><tablewidth="620" border="0" cellpadding="0" cellspacing="0"class="tboder" align="center" style ="font-size:14px;"> <tr> <td width="70"height="40" class="tdtop" align = "center">姓  名</td> <td width="142" class="tdtop"style="padding-left:3px"> 卢晓美&nbsp;</td> <td width="46"align="center" class="tdtop" >性别</td> <td width="45"class="tdtop" align="center">女&nbsp;</td> <td width="72"class="tdtop" align="center">出生日期</td> <td width="96"class="tdtop" style="padding-left:3px">1989-04-07&nbsp;</td> <td width="133"rowspan="4" class="tdtop"align="center"><imgsrc='../upload/2012/4100/03630002010129.jpg' width="133"height="179"></td> </tr> <tr> <td class="tdbom"height="40" align = "center">民  族</td> <td class="tdbom"style="padding-left:3px">汉族&nbsp;</td>
                    我们找出信息所在的对应位置,然后一个个提取。


                    12楼2013-06-10 21:50
                    回复

                      nexttmp=Getter(tmp,pci.name,"padding-left:3px\">",'<');
                      传入:剩下的文件内容,指纹“padding-left:3px">”,结束符‘<’(姓名后面跟着的是“</td>”,故从指纹到字符‘<’,中间的就是名字)故提取到结果:“卢晓美&nbsp;”
                      在经过DeleteSpace去掉无关字符,得到结果“卢晓美”


                      14楼2013-06-10 21:51
                      回复

                        例子:
                        2012S 363000 363000 2012s.txt (昨天提取完把html都删除了。= =|||,幸好还找到一个html文件,以一个文件作为例子吧)。

                        提取过程中只会提示打开失败的文件(不存在),打开失败的会跳过不处理。
                        提取结果:


                        16楼2013-06-10 21:53
                        回复

                          七、sqlmap日志分析整理—126网盘用户信息


                          18楼2013-06-10 21:54
                          回复

                            (详细见:user.qzone.qq.com/1264534037/infocenter#!app=2&via=QZ.HashRefresh&pos=1357308171
                            这里只是将之前写的整合过来作为一个专题。)


                            19楼2013-06-10 22:03
                            回复

                              处理目标:

                              (这是12年的事情了,截图是以前的,现在那个日志文件已经删除了)
                              附sqlmap的简单使用:http://tieba.baidu.com/p/2031516695


                              20楼2013-06-10 22:06
                              回复