创世神域

Nothing is impossible.

@Puteulanus5年前

11/12
13:53
学习心得

TPRSS——看图没有国界

TPRSS,即Twitter Picture RSS,是一个能将指定用户的推文转化为RSS,并反代其中的图片的网站。

项目起源于一次聊天,我给群里的朋友发了一些Tumblr的RSS地址,顺便推荐了几个推特的发图机器人。和Tumblr可以直接用RSS阅读器看图相比,Twitter的就略不方便了。上网搜了一下,找到了twitrss.me,可以简单的把推文转化为RSS,使用Perl写成并开源。twitrss.me的一个问题是它不会输出图片,订阅之后也得点链接才能看到图,因为对Perl完全不熟,于是用PHP写了一个介于twitrss.me和用户之间的“中间层”,负责从twitrss.me获取信息,并将所有链接转化为真实图片地址,加上标签直接输出。这是TPRSS的雏形。

最先遇到的问题是有时订阅会失败,排查后发现原因是RSS阅读器的获取是有时间限制的。按最初的设计,阅读器在访问一个全图订阅时会依次抓取每条推文中网址的页面,然后通过正则表达式匹配得到真实图片的地址。也就是说,阅读器每次刷新,需要等待服务器依次下载10个网页并对其内容进行匹配。这样做非常耗时,导致阅读器在获取订阅内容时超时。为了解决这个问题,我增加了数据库部分,在受到访问时,会把用户推文中的地址与真实图片地址存入数据库中,再次访问时从数据库中调取记录,存在记录的直接读取,不存在的记录才会抓取网页获取。比起最初的设计,这样大幅度降低了重复访问时的响应时间。只有在新订阅用户或长时间没有对某用户的数据库进行更新时,才会出现耗时过长的问题。

然后遇到的是很无奈的问题——即使把推文中图片的真实地址加标签输出了,还是有看不到图的情况,因为推特全站连带图片资源站都是在墙外的。对于这个问题,最初直接给生成订阅的页面加了功能,将真实图片地址作为参数进行访问时,会从推特下载图片并返回给用户。这样,由绑定域名后的Openshift空间作为一层代理,输出RSS时输出带有真实图片地址参数的Openshift空间地址,大部分使用的人都能看到图片了。但实际上,Openshift在国内的访问效果并不理想,即使绑定域名之后,也会有访问速度慢或者无法访问的地方。为了进一步增强服务的稳定性,写了一个单独的图片反代作为TPRSS的子项目。反代托管在Coding上,使用演示页的方式部署。因为选用的是Coding的北京服务器,国内访问基本不会有问题。但因为Coding本身也是墙内服务器,和用户一样无法直接获取到推特的图片资源,所以在设计上使用了Openshift的空间作为跳转,即用户在访问一张图片时,先请求Coding上的图片反代,反代将参数传递给Openshift上的本体,由本体从推特获取图片资源后,传递给Coding的反代,再由反代返回给用户。这样的两层结构保证了用户看图的稳定性。同时,主站上的程序在输出RSS之前会检查反代的可用性,如果不可用即全部转为输出Openshift空间地址,这样即使在反代鼓掌时,用户的订阅也不会受到影响。不过双层结构也存在坏处,逐层请求带来的是巨大的延迟,即使在网络畅通的情况下,用户访问一张图片也需要等待1到2秒才能看见图片。对此的解决办法是,在Coding上利用演示页自带的1G存储空间建立了图片缓存。用户第一次访问的图片在从本体传回Coding时会被储存在本地,当再次有访问时,反代会从本地直接获取图片返回,实测中几乎没有延时。因为PHP貌似不好对文件夹大小进行统计,而演示空间存在每次部署文件重置的特性,在设计中放弃了使用数据库索引,转而使用文件名来标明大小。储存到本地的缓存图片会在文件末尾加上文件大小,在统计大小时,直接遍历目录用正则获取所有文件尾部的数字加在一起即为文件夹大小。缓存机制使用两个文件夹储存图片,在检测到pic-1超过250M时,会删除pic-2、将pic-1重命名为pic-2并新建空的pic-1,在读取缓存时,先尝试获取pic-1中的图片,如果失败再尝试获取pic-2中的图片,如果还是失败,则会经由Openshift从推特获取图片,缓存并返回。这样保证了不会因为清空缓存而造成大面积啊卡顿,所有缓存图片都有一定的生存周期。

之后计划尝试的优化方向是,利用ppython将抓取页面匹配图片真实地址的工作交给Python多线程完成,使即使在第一次访问时也能尽量减少延迟时间。

可惜,这时候出现了变故。由于twitrss.me使用了缓存,从那里获取到的信息不具有及时性,而在Openshift上新建Perl应用部署他的源代码又受阻,我只好寻找新的RSS生成程序作为它的替代品。在这个过程中,我找到了功能和TPRSS部分重合的Twitter to RSS proxy。

在阅读了他的代码并查阅资料之后,我发现原来使用OAuth协议可以直接从推特获取某人的时间线,而且官方API传回的信息中竟然是包括了图片真实地址的。这意味着之前设计的数据库功能完全丧失,因为无论从哪方面来讲,使用官方API获取信息都具有绝对的优势。于是我新建了TPRSS2项目,借鉴之前自己写的代码和Twitter to RSS proxy中使用的thmOAuth,从头开始写。现在TPRSS网站使用的即依靠OAuth协议获取时间线的TPRSS2。吸取上个版本的经验,TPRSS2在编写过程中更多的考虑了变量命名、代码可读性等问题,在细节方面尽量做到人性化,比如使用字符串截取函数保证了在遇到较长的中英混合退推文时RSS标题的易读性、清除了图片推末尾的本页链接等。

现在和TPRSS经过重新编写,用户体验高于上个版本。不仅适合使用RSS阅读器看图,也适合不方便挂代理、希望持续关注某人推特的情况。

项目一路走来,我也学到了很多。感谢对项目提建议的朋友,你们对我的帮助是巨大的。

最后用百度的招聘信息结尾吧。

一张网页,要经历怎样的过程,才能抵达用户面前?一位新人,要经历怎样的成长,才能站在技术之巅?

求学不易,且行且珍惜。

TPRSS——看图没有国界

@Puteulanus5年前

11/11
14:16
学习心得

在Openshift上使用ppython

最近在尝试提高TPRSS的性能,想试试用Python代替PHP来获取图片地址。搜索相关资料的时候找到了ppython这个项目,看着还不错。

我是用的是从 这里 下载的修改版,因为原始项目貌似需要Python3,而Openshift的Python版本是2.6.6。

在Openshift上尝试使用的时候,无法运行Python的服务端,提示我权限不足。

查了相关资料,原来Openshift限制了可以绑定的IP和端口,对源文件略作修改就可以使用了。
Read More →

在Openshift上使用ppython

@Puteulanus6年前

09/26
14:59
学习心得

ACFun_sign红帽安装源

ACFun_sign是PHP吧的吧主——泷涯的多人ACFun签到程序,戳这里近距离感受大神。

这个安装源会自动拉取ACFun_sign的项目源码,在Openshift空间内完成初始化安装。

安装源:https://github.com/puteulanus/ac-sign-install

顺便写了个简易的管理地址,应该比phpMyAdmin管理用户简单一点。。

安装教程参见 《Openshift自动安装签到助手【已失效】》 ,简单说就是选择创建Cacti应用、更改安装源地址、完成创建。

创建完成之后访问 https://应用地址 会看到欢迎页面,请务必牢记页面上的管理地址,它不会再次出现。

Openshift在各地情况不同,https依然无法访问的请自备梯子。

安装源自带Cron设定,会在每天5点到6点间执行一次【参照泷涯的config.yaml设置】,请将外部Cron【或者云监控】设置到 应用地址/index.php ,以避免应用因为太久没有外部访问而停止运行。

首页的一句话来自 一言

管理地址使用方法:

参数type指定操作类型,可以是add【增加用户】或者del【删除用户】
type为add时可以用参数username和password指定用户名密码,程序会自动获取cookie加入用户列表,也可以用参数auth和sha1指定cookie的两个关键片段,直接加入用户。
参数type为del时需要带有参数id来指明需要删除的用户的id。
不加参数访问为查看用户列表,删除用户需要的用户id可以在这里获得。

一些例子:

增加一个用户名为admin,密码为default的用户:
https://管理地址?type=add&username=admin&password=default

增加一个Auth为1234,Sha1为123456的用户【Auth与Sha1对应cookie中的auth_key和auth_key_ac_sha1】:
https://管理地址?type=add&auth=1234&sha1=123456

删除ID为3的用户:
https://管理地址?type=del&id=3

 

刚添加完的用户“上次签到”日期是2014-08-28,这不是bug,照着泷涯的说明填的。。

管理地址可以修改数据库,请不要将你的管理地址随意告诉他人。

需要对数据库进行更高级操作的可以给应用添加phpMyAdmin,然后登陆进行管理。

ACFun_sign红帽安装源

@Puteulanus6年前

08/16
02:15
学习心得

Sublime Text 3 在OS X下配置Java编译

Java安装什么的不说了,主要是Sublime Text默认的Java处理方式还真就是“编译”,会弄个class文件出来但没有去执行。

找了好多教程,基本都是写个脚本替换掉sublime-build里的javac,强迫症表示这样弄实在是不舒服。

其实在sublime-build里使用shell_cmd是可以使用&&作为分隔符的,直接改配置文件就能达到编译+运行的目的。
Read More →

Sublime Text 3 在OS X下配置Java编译

@Puteulanus6年前

08/3
15:56
学习心得

色魔张大妈签到

撸了个什么值得买的每日签到程序,因为网站登陆处提示“两周内免登录”,估计cookie只能存两周,干脆每次签到使用账号密码获取一次cookie。
话说什么值得买的登陆居然是get,密码以明文参数形式传递。。。大丈夫?
代码:

  1. <?php
  2. header(“Content-type:text/html;charset=utf-8”);
  3. // 设定用户名密码
  4. $username = ;// 邮箱
  5. $password = ;// 密码
  6. // 模拟登陆获取cookie
  7. $time = time().rand(100,999);
  8. $url = ‘http://www.smzdm.com/user/login/jsonp_check?user_login=’.$username.’&user_pass=’.$password.’&rememberme=0&is_third=&is_pop=1&captcha=&_=’.$time;
  9. $ch = curl_init($url);
  10. curl_setopt($ch,CURLOPT_HEADER,1);
  11. curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
  12. $content = curl_exec($ch);
  13. preg_match_all(‘/Set-Cookie:(.*;)/iU’,$content,$str);
  14. curl_close($ch);
  15. foreach ($str[1] as $key) {
  16.     if (strpos($key,’deleted’) == false){
  17.         $cookie .= $key;
  18.     }
  19. }
  20. // 使用cookie签到
  21. $time = time().rand(100,999);
  22. $time2 = $time + 2;
  23. $url = ‘http://www.smzdm.com/user/qiandao/jsonp_checkin?callback=jQuery’.’11100′.rand(1000,9999).rand(1000,9999).rand(1000,9999).rand(1000,9999).’_’.$time.’&_=’.$time2;
  24. $curl = curl_init();
  25. curl_setopt($curl, CURLOPT_URL, $url);
  26. curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0);
  27. curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1);
  28. curl_setopt($curl, CURLOPT_COOKIE, $cookie);
  29. curl_setopt($curl, CURLOPT_TIMEOUT, 30);
  30. curl_setopt($curl, CURLOPT_HEADER, 0);
  31. curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
  32. $str = curl_exec($curl);
  33. if (curl_errno($curl)) {
  34.     echo ‘Errno’.curl_error($curl);
  35. }
  36. curl_close($curl);
  37. echo $str;

需要的可以在我的Github上复制
基本一个格式的AcFun签到就不单独开新文章了

色魔张大妈签到

@Puteulanus6年前

06/17
01:01
学习心得

技术宅社区(DZ论坛)自动签到

嘛,那论坛的积分不计算在线时长的,不然和我在狮城论坛一样24小时挂机就好了。。。

不过还好,签到程序不算复杂,用Firebug看了下POST信息,试着弄了个自动签到的PHP程序。

  1. <?php
  2. header(“Content-type:text/html;charset=utf-8”);
  3. // 设定cookie和网址
  4. $cookie = “”;
  5. $URL = “http://www.gn00.com/plugin.php?mobile=1”;
  6. // 获取formhash
  7. $UserAgent = ‘Mozilla/5.0 (Linux; Android 4.1; Galaxy Nexus Build/JRN84D, compatible iPhone) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Mobile Safari/535.19’;
  8. $str = loadcode($cookie,$URL,$UserAgent);
  9. preg_match_all(‘#formhash=(.+)&amp#sU’,$str,$m);
  10. // 设定POST信息
  11. $data = ‘formhash=’.$m[1][0].’&qdxq=yl&qdmode=3&todaysay=&fastreply=0′;
  12. $URL = ‘http://www.gn00.com/plugin.php?id=dsu_paulsign:sign&operation=qiandao&infloat=1&inajax=1′;
  13. $UserAgent = ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10.9; rv:30.0) Gecko/20100101 Firefox/30.0’;
  14. $Referer = ‘http://www.gn00.com/plugin.php?id=dsu_paulsign:sign’;
  15. // 模拟签到并输出回执
  16. print_r(vpost($URL,$data,$cookie,$UserAgent,$Referer));
  17. function loadcode($cookie,$URL,$UserAgent)
  18. {
  19.   $ch = curl_init();//初始化curl
  20.   curl_setopt($ch,CURLOPT_COOKIE,$cookie); //设置cookie
  21.   curl_setopt($ch,CURLOPT_URL,$URL);//抓取指定网页
  22.   curl_setopt($ch, CURLOPT_HEADER, 0);//设置header
  23.   curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER[$UserAgent]); // 模拟用户使用的浏览器
  24.   curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//要求结果为字符串且输出到屏幕上
  25.   return curl_exec($ch);//运行curl
  26.   curl_close($ch);
  27. }
  28. function vpost($url,$data,$cookie,$UserAgent,$Referer){ // 模拟提交数据函数
  29.   $curl = curl_init(); // 启动一个CURL会话
  30.   curl_setopt($curl, CURLOPT_URL, $url); // 要访问的地址
  31.   curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0); // 对认证证书来源的检查
  32.   curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1); // 从证书中检查SSL加密算法是否存在
  33.   curl_setopt($curl, CURLOPT_USERAGENT, $_SERVER[$UserAgent]); // 模拟用户使用的浏览器
  34.   curl_setopt($curl, CURLOPT_COOKIE, $cookie);
  35.   curl_setopt($curl, CURLOPT_REFERER,$Referer);// 设置Referer
  36.   curl_setopt($curl, CURLOPT_POST, 1); // 发送一个常规的Post请求
  37.   curl_setopt($curl, CURLOPT_POSTFIELDS, $data); // Post提交的数据包
  38.   curl_setopt($curl, CURLOPT_TIMEOUT, 30); // 设置超时限制防止死循环
  39.   curl_setopt($curl, CURLOPT_HEADER, 0); // 显示返回的Header区域内容
  40.   curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1); // 获取的信息以文件流的形式返回
  41.   $tmpInfo = curl_exec($curl); // 执行操作
  42.   if (curl_errno($curl)) {
  43.     echo ‘Errno’.curl_error($curl);//捕抓异常
  44.   }
  45.   curl_close($curl); // 关闭CURL会话
  46.   return $tmpInfo// 返回数据
  47. }
  48. ?>

刚刚跨过12点试了一下【前一天的签到抓POST信息了】,签到成功,重复执行的话会返回今日已经签到的提示。

挂了个12小时一次的Cron,跑两天看看吧。

需要源码的朋友可以去我的Github复制。

技术宅社区(DZ论坛)自动签到