まずはWebの新聞をスクレイピングのターゲットに
Groovyで日刊工業新聞のヘッドラインをとってくる。
def urlStr = "http://www.nikkan.co.jp" def url = new URL(urlStr) def html = url.getText('euc-jp') def contents = html.tokenize('\n').findAll{ it =~ /class="entry-content"/ } headLine = [:] contents.each{ news -> info = news.tokenize(/<*>/) title = info[3] newsUrl = urlStr + info[2].replaceFirst(/a href=/,"").replaceAll('"','') headLine[title] = newsUrl } println new Date().format("yyyy/MM/dd(E)") headLine.eachWithIndex{ it, no -> println "${no}: ${it.key}" }
とやると、
2012/05/11(金) 0: ダイキン、インド生産エアコンに次世代冷媒を採用 1: 富士通FIP、130億円投じ大阪・横浜DC増強−中国進出も 2: 政府、東電の総合特別事業計画を認定−実質国有化 3: ソフトバンク、米ペイパルと合弁−スマホで決済システム 4: シーエムシー技術開発、超硬具からタングステン99%回収 5: 昨年度の国内携帯出荷、富士通が初の首位−MM総研調べ 6: ルネサス、12年3月期−営業赤字567億円 7: LTTバイオ、既存薬の新規適用に重点 8: ライオン、CO2量を前倒し削減−今年の目標値に到達 9: 株、3カ月ぶり9100円割れ−欧州情勢を警戒 10: 東京の黄銅棒、5カ月ぶり下落−相場・実需とも停滞感 11: 京大、膀胱の体内時計が夜間に多く尿をため良好な睡眠を支えていることを発見 12: 北陸先端大、耐熱305度Cバイオポリエステル 13: 埼玉県産技総合センター、BEMS・HEMS実験開始 14: NEC、LTE向け屋内基地局の設置密度3倍に 15: マルエツ、レジ待ち時間短縮する新サービスを実験 16: 宇部興産、中国でリチウム電池用電解液を生産
と出てきました。
んん、もっとかっこよくコードをかけるようになりたいですね。