กำลังมีปัญหาเรื่อง spam post ใน web ครับ แต่ไม่อยากใช้ captcha

ช่วงนี้มีพวกขาย viagra มา post spam ใน web ผมเยอะมาก
คิดว่าน่าจะเป็น bot
ผมยังค่อยไม่อยากใช้ captcha น่ะครับ ลำบากคนใช้ web พอประมาณ

ตอนนี้ผมใช้วิธีแบบ rule-based เขียน if if ดู content กรองเอาน่ะครับ
ก็ใช้ได้ระดับนึง
แต่เวลามี spam แบบใหม่มาที่ rule ชุดเก่ามันจับไม่ได้ มันก็จะหลุดไป
หลุดไปไม่ใช่ปัญหามาก มันจะมานานๆที นั่งลบเองพอได้
แต่ปัญหาคือผมต้องมาคอย update rule เองอยู่เรื่อยๆ คอยเพิ่ม if เองเรื่อยๆ
การที่ผมจะเพิ่ม rule ไปแต่ละอัน (เช่น ห้ามมีคำว่า viagra ใน post) ผมต้องมาคอยนั่งวิเคราะห์ตัว spam แต่ละชนิดเอง

ผมกำลังนึกอยู่ว่า มันมีวิธีที่ทำให้ระบบมันเรียนรู้เองอัติโนมัติ ได้มั๊ย
แบบส่ง sample เข้าระบบ ให้มันเรียนรู้เอง ผมไม่ต้องมานั่งวิเคราะห์และพิมพ์ if เอง

ตอนนี้ผมนึกถึงทางนึงคือ neural network (รู้จักเครื่องมืออยู่แค่นี้แหละ) แต่ผมก็นึกไม่ออกว่าจะแปลงข้อความ post ไปเป็น input ที่เหมาะสมของ neural network ยังไง
ก็ ก็ . . . มันก็ยังใช้ไม่ได้อยู่ดี เพราะนึกวิธีใช้ไม่ออก :(

. . . . สรุปว่า ใครพอจะมีประสบการณ์เกี่ยวกับ spam อย่างนี้ หรือมีไอเดีย ลอง post กันหน่อยครับ
ผมว่ามันน่าจะเป็นปัญหาที่พบกันทั่วไปนะ มันมี library เกี่ยวกับอย่างนี้บ้างหรือเปล่าครับ ไม่ต้องถึงขนาดเป็น AI เรียนรู้เองเติบโตเองได้ก็ได้ครับ (ผมใช้ RoR แต่ถ้ามีภาษาอื่นด้วยก็อยากรู้ไว้เหมือนกันครับ)

ขอบคุณครับ

น่าสนใจครับ มากครับ

ผมคิดว่าเราน่าจะศึกษาการทำงานของ บอท ก่อนดีกว่า ว่ามันทำงานยังไง ? (ผมก็ไม่รู้)
จากนั้นเราค่อยูช่องว่างที่เราจะตรวจสอบมันได้อีกทีนึง

sugree's picture

มีคนใช้พวก bayesian ครับ input ก็คือ word โดยที่จะให้น้ำหนัก subject มากกว่า body ถ้าอยากจะใช้ NN ก็คงเป็นแนวเดียวกัน

ถ้าขี้เกียจทำเอง ใช้ spamassassin มาช่วยก็ได้นะ แต่ถ้าขี้เกียจมากกว่านั้น akismet ดีกว่า

veer's picture

bayesian เร็วเห็นหน้าเห็นหลัง
---
http://blog.vee-u.com/

sirn's picture

เคยเจอหนักสุด สิบนาที หกร้อยกว่าข้อความ เล่นเอาเว็บเดี้ยงไปเลย

ผมเคยคิดจะใช้ Bishop ที่เป็น Bayesian Classifier บน Ruby ทำตัวกรองสแปมอยู่ แต่สุดท้ายแล้วคิดว่ามันยุ่งยากกว่าที่คิด (เลยกลับไปนั่งเขียน Regex กรองต่อ) ส่วน Akismet เดี๋ยวนี้หลุดมาเยอะจนเซ็ง

ตอนนี้เลยกะว่าจะ generate post key ไว้ใน session ตอน user เข้าเว็บ เวลาโพสอะไรก็แอบใส่ input type="hidden" แล้วเช็คคีย์นั่นเอาว่าตรงกับใน session มั๊ย เอา

sugree's picture

ทำ akismet เองมั๊ย แบบว่าใช้กันเอง กรองกันเอง จะได้ไม่ต้องเซ็งกับ akismet ไม่ต้องสนเน็ตอินเตอร์ อยู่ในไทยสบายโคตร

sirn's picture

ประหยัดอินเตอร์นี่ผมเห็นด้วย ช่วงพีคของวันเดี๋ยวนี้เน็ตมันรวดเร็วสิ้นดี แต่ถ้าหากจะทำเอง ผมว่าปัญหามันน่าจะอยู่ตรงว่าจะเอาข้อมูลจากไหนมาป้อนกันดี อย่าง Akismet ก็มี Wordpress.com กับพื้นที่ใหญ่ๆ ของบล็อกใน Blogosphere

เคยเจอสแปมตลกๆ ด้วย เอาซอร์สของหน้า 404 Not Found มาแปะ แล้วใส่ลิงค์ไปเว็บที่จะสแปม นับวันเริ่มไม่เข้าใจจุดประสงค์ถึงการสแปม

sugree's picture

ก็ของเราๆ นี่แหละ บล็อกในไทย ส่ง content มาถาม ถ้าอันไหนพลาด ก็กลับมารายงานหน่อย ซึ่งเป็นเรื่องปกติที่เราจะทำตอนเจอหลุดมาอยู่แล้ว นานๆ ไปก็ฉลาดเองแหละ

exteen? blognone? zickr? duocore?

taiko_gogo's picture

วันก่อนนู๊น เข้ามาอ่าน แล้วรู้สึกโล่งนิดหน่อยที่ไม่เคยโดน
วันถัดมาพบว่า blog ตัวเองโดนถล่ม T_T นึกว่าจะไม่โดนซะแล้ว
อาศัยเขียน regex กรองเอาเหมือนกันครับ

ย้าย Codenone

ประกาศย้าย Codenone ไปใช้ Forum ของ Blognone แทนครับ ตามไปตั้งกระทู้ต่อได้ที่ Codenone Forum (รายละเอียดอ่านจากกระทู้ ย้าย Codenone ไปรวมกับ Blognone)

กระทู้เก่าๆ จะย้ายตามไปในภายหลัง ตอนนี้ปิดการโพสต์กระทู้ไว้ เหลือไว้เฉพาะอ้างอิงเท่านั้น