ช่วงนี้มีพวกขาย viagra มา post spam ใน web ผมเยอะมาก
คิดว่าน่าจะเป็น bot
ผมยังค่อยไม่อยากใช้ captcha น่ะครับ ลำบากคนใช้ web พอประมาณ
ตอนนี้ผมใช้วิธีแบบ rule-based เขียน if if ดู content กรองเอาน่ะครับ
ก็ใช้ได้ระดับนึง
แต่เวลามี spam แบบใหม่มาที่ rule ชุดเก่ามันจับไม่ได้ มันก็จะหลุดไป
หลุดไปไม่ใช่ปัญหามาก มันจะมานานๆที นั่งลบเองพอได้
แต่ปัญหาคือผมต้องมาคอย update rule เองอยู่เรื่อยๆ คอยเพิ่ม if เองเรื่อยๆ
การที่ผมจะเพิ่ม rule ไปแต่ละอัน (เช่น ห้ามมีคำว่า viagra ใน post) ผมต้องมาคอยนั่งวิเคราะห์ตัว spam แต่ละชนิดเอง
ผมกำลังนึกอยู่ว่า มันมีวิธีที่ทำให้ระบบมันเรียนรู้เองอัติโนมัติ ได้มั๊ย
แบบส่ง sample เข้าระบบ ให้มันเรียนรู้เอง ผมไม่ต้องมานั่งวิเคราะห์และพิมพ์ if เอง
ตอนนี้ผมนึกถึงทางนึงคือ neural network (รู้จักเครื่องมืออยู่แค่นี้แหละ) แต่ผมก็นึกไม่ออกว่าจะแปลงข้อความ post ไปเป็น input ที่เหมาะสมของ neural network ยังไง
ก็ ก็ . . . มันก็ยังใช้ไม่ได้อยู่ดี เพราะนึกวิธีใช้ไม่ออก :(
. . . . สรุปว่า ใครพอจะมีประสบการณ์เกี่ยวกับ spam อย่างนี้ หรือมีไอเดีย ลอง post กันหน่อยครับ
ผมว่ามันน่าจะเป็นปัญหาที่พบกันทั่วไปนะ มันมี library เกี่ยวกับอย่างนี้บ้างหรือเปล่าครับ ไม่ต้องถึงขนาดเป็น AI เรียนรู้เองเติบโตเองได้ก็ได้ครับ (ผมใช้ RoR แต่ถ้ามีภาษาอื่นด้วยก็อยากรู้ไว้เหมือนกันครับ)
ขอบคุณครับ
กระทู้เก่าๆ จะย้ายตามไปในภายหลัง ตอนนี้ปิดการโพสต์กระทู้ไว้ เหลือไว้เฉพาะอ้างอิงเท่านั้น
น่าสนใจครับ มากครับ
ผมคิดว่าเราน่าจะศึกษาการทำงานของ บอท ก่อนดีกว่า ว่ามันทำงานยังไง ? (ผมก็ไม่รู้)
จากนั้นเราค่อยูช่องว่างที่เราจะตรวจสอบมันได้อีกทีนึง
มีคนใช้พวก bayesian ครับ input ก็คือ word โดยที่จะให้น้ำหนัก subject มากกว่า body ถ้าอยากจะใช้ NN ก็คงเป็นแนวเดียวกัน
ถ้าขี้เกียจทำเอง ใช้ spamassassin มาช่วยก็ได้นะ แต่ถ้าขี้เกียจมากกว่านั้น akismet ดีกว่า
bayesian เร็วเห็นหน้าเห็นหลัง
---
http://blog.vee-u.com/
เคยเจอหนักสุด สิบนาที หกร้อยกว่าข้อความ เล่นเอาเว็บเดี้ยงไปเลย
ผมเคยคิดจะใช้ Bishop ที่เป็น Bayesian Classifier บน Ruby ทำตัวกรองสแปมอยู่ แต่สุดท้ายแล้วคิดว่ามันยุ่งยากกว่าที่คิด (เลยกลับไปนั่งเขียน Regex กรองต่อ) ส่วน Akismet เดี๋ยวนี้หลุดมาเยอะจนเซ็ง
ตอนนี้เลยกะว่าจะ generate post key ไว้ใน session ตอน user เข้าเว็บ เวลาโพสอะไรก็แอบใส่
input type="hidden"แล้วเช็คคีย์นั่นเอาว่าตรงกับใน session มั๊ย เอาทำ akismet เองมั๊ย แบบว่าใช้กันเอง กรองกันเอง จะได้ไม่ต้องเซ็งกับ akismet ไม่ต้องสนเน็ตอินเตอร์ อยู่ในไทยสบายโคตร
ประหยัดอินเตอร์นี่ผมเห็นด้วย ช่วงพีคของวันเดี๋ยวนี้เน็ตมันรวดเร็วสิ้นดี แต่ถ้าหากจะทำเอง ผมว่าปัญหามันน่าจะอยู่ตรงว่าจะเอาข้อมูลจากไหนมาป้อนกันดี อย่าง Akismet ก็มี Wordpress.com กับพื้นที่ใหญ่ๆ ของบล็อกใน Blogosphere
เคยเจอสแปมตลกๆ ด้วย เอาซอร์สของหน้า 404 Not Found มาแปะ แล้วใส่ลิงค์ไปเว็บที่จะสแปม นับวันเริ่มไม่เข้าใจจุดประสงค์ถึงการสแปม
ก็ของเราๆ นี่แหละ บล็อกในไทย ส่ง content มาถาม ถ้าอันไหนพลาด ก็กลับมารายงานหน่อย ซึ่งเป็นเรื่องปกติที่เราจะทำตอนเจอหลุดมาอยู่แล้ว นานๆ ไปก็ฉลาดเองแหละ
exteen? blognone? zickr? duocore?
วันก่อนนู๊น เข้ามาอ่าน แล้วรู้สึกโล่งนิดหน่อยที่ไม่เคยโดน
วันถัดมาพบว่า blog ตัวเองโดนถล่ม T_T นึกว่าจะไม่โดนซะแล้ว
อาศัยเขียน regex กรองเอาเหมือนกันครับ