[Video] Song đề tù nhân và lý thuyết trò chơi

Song đề tù nhân hay Thế tiến thoái lưỡng nan của người tù (Prisoner's Dilemma) là một trò chơi có tổng không bằng không (non-zero sum) trong lý thuyết trò chơi (game theory). Để bắt đầu tìm hiểu song đề tù nhân hãy cùng nhau thoả thuận 1 việc sau. Trước tiên bạn sẽ được đưa vào vai các nhân vật trong phần Quiz dưới đây, việc của bạn là hãy đưa ra các lựa chọn của mình. Tiếp theo đó hãy đọc bài và nghiệm lại kết quả bằng cách xem có bao nhiêu phần trăm người phản bội bạn trong phần Quiz trên, nó sẽ giúp bạn hiểu rõ vấn đề hơn.





Tất cả các hành động mà chúng ta đã làm ở một thời điểm nhất định là kết quả của vô số các hành động trước đó? Liệu các hành động đó có phải được chọn một các tự nguyện hay mọi thứ đã được định trước kể từ lúc vũ trụ khai sinh?

Đang tải song_de_tu_nhan_2.jpg…

Hãy cùng nhìn vào các ví dụ xoắn não này để tự bạn có thể đưa ra kết luận của chính mình: Song đề tù nhân và bài toán của Newcomb.

1. Song đề tù nhân

Hai thành viên của một băng đảng tội phạm, Simon và Peter, bị bắt vì tình nghi thực hiện một vụ cướp có vũ trang, cảnh sát không có đủ bằng chứng để kết tội bất kỳ ai cho vụ cướp. Thay vào đó, họ thẩm vấn cả hai nghi phạm riêng và đưa ra thỏa thuận sau, hi vọng rằng sẽ có kẻ tố cáo người còn lại: Nếu Simon và Peter đều tố cáo lẫn nhau, một người sẽ phải ngồi tù hai năm, nếu Simon phản bội Peter, nhưng Peter giữ im lặng Simon sẽ được tự do và Peter sẽ phải ngồi tù 3 năm hoặc ngược lại. Tuy nhiên nếu cả Simon và Peter đều im lặng mỗi người bọn họ sẽ chỉ phải ngồi tù một năm vì một cáo trạng nhẹ hơn do tội sở hữu súng ngắn.

Một mặt, một cá nhân sẽ có kết quả tốt hơn nếu phản bội người còn lại thay vì giữ im lặng. Nếu Peter không nói gì, Simon sẽ có lợi khi phản bội Peter và được trả tự do thay vì cũng im lặng và phải ngồi tù 1 năm. Nếu Peter phản bội Simon, Simon một lần nữa vẫn có lợi hơn bằng cách phản bội Peter và ngồi tù hai năm thay vì im lặng và chịu án ba năm. Mặt khác nếu cả hai tù nhân làm theo logic bên trên, họ sẽ đều phản bội lẫn nhau và mỗi người sẽ phải chịu ngồi tù hai năm. Nhưng nếu cả hai người đều im lặng, cả hai sẽ chỉ phải chịu án một năm.

Đang tải song_de_tu_nhan_3.jpg…

Vấn đề bên trên được biết dưới cái tên song đề tù nhân, có rất nhiều ứng dụng trong đời thật, bao gồm lý thuyết trò chơi, kinh tế, biến đổi khí hậu, thể thao và các vấn đề chính trị xã hội. Lấy ví dụ chúng ta có thể tưởng tượng Simon và Peter như hai người nông dân sống trong một cộng đồng không có luật pháp. Nếu họ có một thỏa thuận ngầm không ăn trộm của nhau, cả hai sẽ có lợi hơn khi phản bội lòng tin của người còn lại: Simon sẽ có lợi khi ăn trộm bí ngô của Peter vì Peter không ăn trộm của Simon, Simon sẽ có một ít bí ngô của Peter thêm vào chỗ bí đao của bản thân và nếu Peter có ăn trộm đi chăng nữa, Simon vẫn có một ít bí ngô để bù lại chỗ bí đao bị mất của mình. Dù vậy, dĩ nhiên chúng ta muốn các cá nhân sống trong một cộng đồng tránh xa khỏi các hành vi như vậy.

2. Bài toán của Newcomb

Đang tải song_de_tu_nhan_4.jpg…

Trong tình huống thứ hai này, bạn có một lựa chọn giữa việc lấy đồ trong cả hai chiếc hộp kín: A và B hoặc chỉ hộp B.
  • Hộp A luôn luôn chứa 1000$
  • Hộp B hoặc trống rỗng hoăc chứa 1 triệu dollar
Bạn có một tuần trước khi đưa ra quyết định. Một thực thể siêu thông minh sẽ cố dự đoán quyết định của bạn và nếu nó đoán bạn lấy cả hai hộp, nó sẽ không đặt gì trong hộp B. Nếu nó nghĩ bạn chỉ lấy hộp B, nó sẽ đặt 1 triệu đô vào hộp B. Nó sẽ đoán lựa chọn của bạn, đặt số tiền dựa theo đó và bạn có một tuần để cân nhắc lựa chọn của mình. Bạn sẽ chọn gì?

Trong một cách diễn giải, bạn nên luôn luôn lấy hộp B nếu bạn tin rằng người dự đoán là chính xác. Lấy ví dụ nếu người dự đoán có tỉ lệ chính xác 90% trong quá khứ bạn sẽ có cơ hội lấy được 900 nghìn đô (0.9 x 1 triệu đô + 0.1 x 0 đô) khi lấy hộp B so với $101,000 (0.9 x 1000$ + 0.1 x $1,001,000) khi lấy cả hai hộp. Ở một cách diễn giải khác, bạn nên lấy cả hai hộp dù độ chính xác của người dự đoán có bằng bao nhiêu đi nữa. Bởi vì người dự đoán đã bỏ tiền sẵn từ trước lúc bạn chọn rồi, nếu nó không bỏ gì vào hộp B, bạn nên lấy cả hai hộp để ít nhất có được 1000$ và nếu nó bỏ 1 triệu đô vào hộp B, bạn nên lấy cả hai hộp để tôi đa phần thưởng của mình: 1,001,000 dollar. Cũng giống nhau cả.

Đang tải song_de_tu_nhan_5.jpg…

Nhìn qua thì song đề tù nhân là vấn đề về mặt đạo đức, Trong khi bài toán của Newcomb là câu hỏi về tự do ý chí. Song đề tù nhân đặt câu hỏi về cách một người nên cân bằng lợi ích bản thân với hợp tác như thế nào để có lợi cho cả hai, bài toán của Newcomb lại đặt câu hỏi liệu rằng người dự đoán có thể đoán trúng lựa chọn của bạn không. Nó ngụ ý rằng nếu người dự đoán là hoàn hảo, bạn sẽ không thể nào lựa chọn vào ngày quyết định khi mà người dự đoán đã xác nhận kết quả trước đó một tuần. Nhưng các nhà triết học như David Gauthier, Jan Narveson và David Lewis đã tranh cãi rằng song đề tù nhân cũng chính là bài toán của Newcomb. Hãy cùng nhìn xem các điểm chung đó ở đâu?

Đang tải song_de_tu_nhan_6.jpg…

Quay trở lại ví dụ của chúng ta về hai người nông dân Simon và Peter cả hai sẽ nhìn thấy một lợi ích lâu dài to lớn nhất nếu họ giữ thỏa thuận của mình. Nếu Simon trộm bí ngô của Peter vào năm nay, rất có thể Peter sẽ trả đũa vào năm sau và rồi cả hai sẽ nhanh chóng quan tâm nhiều hơn đến việc trộm của nhau trong khi bảo vệ thu hoạch của mình hơn là đơn giản chỉ trồng bí ngô và bí đao nên cả hai tình nguyện giữ thỏa thuận của mình miễn là bên kia cũng làm như vậy. Nhưng liệu họ có thể trông đợi vào nhau rằng người kia sẽ giữ lời hứa? Vậy là Simon sẽ phải quyết định xem Peter sẽ nghĩ anh làm gì. Biết rằng Peter sẽ ăn trộm nếu anh ta nghĩ Simon sẽ ăn trộm, hoặc không làm thế nếu anh ta nghĩ Simon cũng không làm thế. Thay thế Peter bằng người dự đoán, liệu chúng ta có thể bắt đầu chuyển sang bài toán của Newcomb với việc Simon phải quyết định rằng người dự đoán sẽ nghĩ anh lấy một hộp hay là hai, biết được rằng người dự đoán sẽ hành xử khác đi dựa theo dự đoán của bản thân nó? Sự so sánh này chỉ ra một hướng đi trong đó đạo đức sẽ còn tùy thuộc vào kiến thức và tự do của ý chí. Để Simon và Peter có thể hợp tác thành công, họ phải hiểu rõ lợi và hại trong các lựa chọn của bản thân và khuynh hướng của người còn lại. Họ cũng phải tin rằng hành vi của họ sẽ có hậu quả ngoài đời thật.

3. Song đề tù nhân và chiến thuật ngoài đời thực

Trong quyển The Evolution of Cooperation (1984) (Quá trình tiến hoá của sự hợp tác), tác giả Robert Axelrod đã khảo sát một trường hợp mở rộng của song đề tù nhân mà ông gọi là song đề tù nhân lặp lại (iterated prisoner's dilemma - IPD). Trong trường hợp này, những người tham gia phải chọn một chiến thuật nhiều lần, và có thể nhớ được những lần trước. Axelrod đã khám phá ra rằng khi các cuộc đấu này trải qua một thời gian dài với nhiều người chơi, mỗi người với một chiến thuật riêng, thì những chiến thuật "tham lam" thường có kết quả rất thấp khi so với những chiến thuật "vị tha" hơn. Ông đã dùng khám phá này để đưa ra một giải thích để bù một lỗ trong thuyết tiến hoá: trong chọn lọc tự nhiên chỉ có những động cơ ích kỷ, vậy sao lại tiến hoá đến những hành động vị tha?

Đang tải song_de_tu_nhan_7.jpg…

Chiến thuật tốt nhất là ăn miếng trả miếng (tit for tat) do Anatol Rapoport phát triển. Chiến thuật này là hợp tác trong lần đầu, và sau đó chỉ làm theo đối thủ trong trận trước. Một chiến thuật tốt hơn một tí là "ăn miếng trả miếng với tha thứ". Khi đối thủ tấn công ta, trong trận kế tiếp đôi khi vẫn hợp tác với một cơ hội nhỏ (1-5%). Việc này cho phép phục hồi nếu cả hai cứ tấn công nhau. "Ăn miếng trả miếng với tha thứ" hoạt động tốt nhất khi trong trò chơi có thể bị mất liên lạc. Việc này có nghĩa là đôi khi đối thủ được thông báo sai về lựa chọn của mình: mình hợp tác nhưng đối thủ lại tưởng là mình đã tấn công họ. Axelrod kết luận rằng "ăn miếng trả miếng" thành công vì hai lý do. Thứ nhất, nó "tử tế" (nice): nó hợp tác lúc đầu và chỉ tấn công để trả đũa khi đối thủ tấn công trước, cho nên nó không bao giờ bắt đầu một vòng lặp tấn công vô tận. Thứ nhì, nó có thể linh động, lúc nào cũng có thể phản ứng việc tấn công của đối thủ; nó trừng phạt người kia ngay sau khi họ tấn công, nhưng lập tức đối xử tử tế ngay khi họ bắt đầu hợp tác.

Đang tải song_de_tu_nhan_8.jpg…

Bạn đã nghiệm ra được điều gì chưa? Hãy comment bên dưới. Sau đây mời các bạn xem video đầy đủ với phụ đề tiếng Việt.
 

Nhận xét

Bài đăng phổ biến từ blog này

Kinh nghiệm tạo biểu đồ Use Case

PHÉP TOÁN XOR

Phần mềm hỗ trợ vẽ bản đồ tư duy trên máy tính

Power Designer 12.5