SAMPLING BIAS

SAMPLING BIAS
SAMPLING BIAS
  • Chúng tôi chấp nhận các phương thức thanh toán sau đây: Thẻ tín dụng, thẻ ghi nợ, PayPal, chuyển khoản ngân hàng và tiền mặt.
    Chúng tôi sẽ không thu thêm phí cho bất kỳ hình thức thanh toán nào.
  • Đối với sản phẩm có giá: Sau khi chúng tôi ghi nhận thông tin đã thanh toán sản phẩm của bạn, sản phẩm sẽ được mở khóa và bạn có thể xem trực tiếp và tải tài liệu sản phẩm.
  • Đối với thành viên trả phí: Bạn có thể mua và thanh toán sản phẩm với giá 0đ để tải tài liệu sản phẩm.
  • Bạn có thể liên hệ với chúng tôi để được hỗ trợ mở khóa sản phẩm sớm nhất.
  • Nếu bạn gặp vấn đề về sản phẩm của chúng tôi trong thời gian sử dụng, vui lòng liên hệ với chúng tôi để được hỗ trợ xử lý sớm nhất nhé.
Danh mục: Từ khóa: ,

Xem trước mẫu

Sampling Bias

Our primitive ancestors left many paintings on the walls inside caves. Additionally, inside and near these places there is evidence of fire pits, and refuse and burial sites. However, one could equally imagine this same evidence of daily life on exposed cliffs or hillsides, on trees or animals skins, and beside rivers and coastlines. Such evidence, if it existed, would have long been washed, eroded, or rotted away. Thus, prehistoric people are characterised as ‘cavemen’, presumed to have a predilection for dwelling in these places only because that is where most evidence is taken. This ‘caveman effect’ is an example of what is known as ‘sampling bias’ — one of the biggest problems when conducting any form of statistical data gathering.

Surveys, for example, are popular because they are easy to administer and relatively cost-effective, particularly if conducted remotely through technical means, such as telephone, mail, email, or the Internet. Surveys also lend themselves to obtaining particularly large numbers of respondents, which, in theory, allows a greater chance of sampling all the variations of the target population. They can also be standardised with fixed questions and responses (such as ‘tick the box’ or ‘closed-ended’ questions). This allows easy collation, analysis, and presentation of results, all with the air of precision that mathematics brings. Such surveys, however, have proven notoriously unreliable because of the difficulty in obtaining representative samples. In other words, the sampling is biased, or skewed in favour of certain outcomes.

Let us look at some examples. If one calls people on cellphones, it immediately excludes those who favour landlines, and thus the sample of respondents may be those who are more technically-conversant, skewing data based on, say, technical issues (‘How often do you use the Internet?’). If one rings domestic homes during the daytime, most of those who work during the day will be excluded. Those that answer will more likely be the unemployed, disabled, elderly, and retired, skewing data based on, say, work-related issues (‘How important is work in your life?’). No matter how large the sampling size is, sampling bias can immediately invalidate the results.

One of the more subtle of sampling biases is known as self-selection. No matter how rigorously the respondents are chosen to be random and characteristic of the target population, those who choose to respond will be different to those who do not. Generally, respondents who are willing to invest time in giving answers obviously want to say something, whereas those who choose not to answer probably do not. Thus, any survey in which many respondents do not answer, do not give clear answers, or only give cursory or unthinking answers, is immediately invalidated, since opinionated perspectives are disproportionately represented.

The latter is such an immediate and obvious problem that it has given rise to techniques to maximise the possibility of garnering responses. One of the more effective is to give the respondents advanced warning (often through the mail), highlighting the time, the nature of the survey, and the mode of delivery, as well as expressing appreciation for the assistance. The interviewers themselves must be sufficiently trained in correct question-asking techniques, and, with cranks, salespeople, and scam-artists abounding, interviewers must provide introductions about themselves, their company, and the nature of the interview, fully and with evident sincerity, in order to gain the trust of those they are talking to.

Even with this, sampling bias can easily arise due to the number of variables in place, since it only takes one to skew the data. If taking samples from a specific location — say, a street corner—then it may be that this location is in the business district, excluding ordinary workers from the sample. It may be that it is near a restaurant district, excluding those who cook more often

...

Lấy mẫu thiên vị

Tổ tiên nguyên thủy của chúng ta đã để lại nhiều bức tranh tường bên trong các hang động. Ngoài ra, bên trong và gần những nơi này có bằng chứng về các hố lửa, các bãi rác thải và chôn cất. Tuy nhiên, ta cũng có thể tưởng tượng một cách tương tự như vậy về các bằng chứng tranh vẽ cuộc sống hàng ngày trên các vách đá hoặc sườn đồi lộ thiên, trên cây hoặc da động vật, và bên cạnh các con sông và bờ biển. Những bằng chứng như vậy, nếu tồn tại thì sẽ bị rửa trôi, xói mòn hoặc mục nát từ lâu. Do đó, người tiền sử chỉ được đặc trưng như những “người hang động”, người ta cho rằng có khả năng họ đã sinh sống ở những nơi này chỉ vì đó là nơi hầu hết các bằng chứng được thu thập. “Hiệu ứng người hang động” này là một ví dụ về điều được gọi là “thiên vị lấy mẫu” – một trong những vấn đề lớn nhất khi tiến hành bất kỳ hình thức thu thập dữ liệu thống kê nào.

Ví dụ, các cuộc khảo sát phổ biến vì chúng dễ quản lý và tương đối hiệu quả về mặt chi phí, đặc biệt nếu được tiến hành từ xa thông qua các phương tiện kỹ thuật, chẳng hạn như điện thoại, thư từ, email hoặc Internet. Các cuộc khảo sát cũng giúp chúng thu được số lượng người thực hiện đặc biệt lớn, về lý thuyết sẽ dẫn đến cơ hội lớn hơn để lấy mẫu tất cả các nhóm đối tượng khác nhau trong phạm vi mục tiêu của khảo sát. Chúng cũng có thể được chuẩn hóa với các câu hỏi và câu trả lời cố định (chẳng hạn như “đánh dấu vào ô” hoặc các câu hỏi “đóng”). Điều này giúp cho việc đối chiếu, phân tích và trình bày kết quả dễ dàng, tất cả đều mang lại cảm giác chính xác như toán học. Tuy nhiên, những cuộc khảo sát như vậy đã được chứng minh là không đáng tin cậy vì khó khăn trong việc lấy mẫu đại diện. Nói cách khác, việc lấy mẫu bị thiên vị, hoặc bị méo mó để dẫn đến một kết quả được ưa thích.

Hãy xem xét một số ví dụ. Nếu khảo sát bằng điện thoại di động, điều này sẽ ngay lập tức loại trừ những người thích điện thoại cố định, và do đó, mẫu trả lời có thể là những người am hiểu về kỹ thuật hơn, làm sai lệch dữ liệu dựa trên các vấn đề, ví dụ như về kỹ thuật (“Bạn có thường xuyên sử dụng Internet không?”). Nếu gọi điện đến các hộ trong nước vào ban ngày, hầu hết những người làm việc vào ban ngày sẽ bị loại trừ. Những người phản hồi có nhiều khả năng là thất nghiệp, người tàn tật, người già và đã nghỉ hưu, làm sai lệch dữ liệu dựa trên các vấn đề liên quan đến công việc (“Công việc quan trọng như thế nào trong cuộc sống của bạn?”). Cho dù kích thước lấy mẫu lớn đến đâu, sai lệch lấy mẫu có thể ngay lập tức vô hiệu kết quả.

Một trong những sai lệch lấy mẫu phức tạp hơn được gọi là tự chọn. Cho dù những người trả lời được lựa chọn nghiêm ngặt để mang tính ngẫu nhiên và đặc trưng của nhóm đối tượng lấy mẫu, những người chọn trả lời sẽ khác với những người không trả lời. Nói chung, những người trả lời sẵn sàng đầu tư thời gian để đưa ra câu trả lời thì rõ ràng họ muốn nói điều gì đó, trong khi những người chọn không trả lời có lẽ không muốn nói điều gì. Do đó, bất kỳ cuộc khảo sát nào mà nhiều người được hỏi không trả lời, không đưa ra câu trả lời rõ ràng, hoặc chỉ đưa ra câu trả lời ngắn gọn hoặc hời hợt, sẽ bị vô hiệu ngay lập tức, vì các quan điểm có chính kiến được thể hiện không cân xứng.

Sai lệch được đề cập thứ hai ở trên là một vấn đề rõ ràng và tức thời đến nỗi đã nảy sinh các kỹ thuật để tối đa hóa khả năng thu được các phản hồi. Một trong những cách hiệu quả là đưa ra thông báo trước cho người được hỏi (thường là qua thư), nêu rõ thời gian, bản chất của cuộc khảo sát và phương thức gửi, cũng như bày tỏ trân trọng sự giúp đỡ của người được khảo sát. Bản thân người phỏng vấn phải được đào tạo đầy đủ về các kỹ thuật đặt câu hỏi chính xác, và vì hiện có rất nhiều kẻ lừa đảo và nhân viên bán hàng tiếp thị, người phỏng vấn phải giới thiệu về bản thân, công ty của họ và bản chất của cuộc phỏng vấn một cách đầy đủ và chân thành để có được sự tin tưởng của những người mà họ đang nói chuyện.

Ngay cả khi thực hiện cách này, sai lệch lấy mẫu có thể dễ dàng phát sinh do số lượng biến tại

...

Để xem được đầy đủ nội dung và tải dữ liệu, bạn phải trở thành thành viên của chúng tôi và trả phí cho tài liệu (nếu có)